在研究過(guò)程中收集到大量的資料數(shù)據(jù),但從這些雜亂無(wú)章的資料中,很難對(duì)其總體水平與分布狀況做出評(píng)價(jià)判斷。因此,必須采用一些適當(dāng)?shù)姆椒▽?duì)這些資料進(jìn)行處理,使之簡(jiǎn)約化、分類(lèi)化、系統(tǒng)化,從中發(fā)現(xiàn)它們的分布規(guī)律,掌握總體的特征,以便對(duì)其水平做出客觀的評(píng)價(jià)。
統(tǒng)計(jì)描述方法,是研究數(shù)據(jù)并描述這些數(shù)據(jù)的統(tǒng)計(jì)方法。將搜集來(lái)的大量數(shù)據(jù)資料,加以整理、歸納和分組,簡(jiǎn)縮成易于處理和便于理解的形式,并計(jì)算所得數(shù)據(jù)的各種統(tǒng)計(jì)量,如平均數(shù)、標(biāo)準(zhǔn)差、以及描述有關(guān)事物或現(xiàn)象的分布情況、波動(dòng)范圍和相關(guān)程度等,以揭示其特點(diǎn)和規(guī)律。
一、數(shù)據(jù)資料的清洗整理
拿到一份數(shù)據(jù),第一步數(shù)據(jù)清洗整理,是最耗時(shí)的一步,它包含以下幾部分內(nèi)容:
1.?dāng)?shù)據(jù)檢查
主要檢查數(shù)據(jù)的完整性與正確性。統(tǒng)計(jì)資料完整性的檢查,就是要根據(jù)調(diào)查項(xiàng)目檢查是否填寫(xiě)齊全,避免遺漏,刪去重復(fù)。正確性檢查,就是檢查搜集的資料是否真實(shí)可靠。特別是統(tǒng)計(jì)數(shù)字的真實(shí)性是統(tǒng)計(jì)工作的生命,統(tǒng)計(jì)資料的檢查整理必須抓緊這一環(huán)。
數(shù)據(jù)檢查可分為邏輯檢查和計(jì)算檢查兩種方法。邏輯檢查,是從理論和一般常識(shí)上來(lái)檢查資料內(nèi)容是否合理,指標(biāo)之間是否矛盾。計(jì)算檢查是檢查統(tǒng)計(jì)數(shù)字在計(jì)算方法和計(jì)算結(jié)果上有否錯(cuò)誤。
2.?dāng)?shù)據(jù)分類(lèi)
數(shù)據(jù)分類(lèi)就是把搜集來(lái)的數(shù)據(jù)進(jìn)行分組歸類(lèi)。數(shù)據(jù)分類(lèi)要做到既不重復(fù)、不遺漏,又不混淆,一般又可分為品質(zhì)分類(lèi)和數(shù)量分類(lèi)。
品質(zhì)分類(lèi):是按事物性質(zhì)劃分為不同的組別、種類(lèi)。如以性別為標(biāo)志可分為男與女;按“理解能力”、“學(xué)習(xí)態(tài)度”等為標(biāo)志,又可分為好、較好、一般、差等幾種水平,每種水平可看成類(lèi),每一類(lèi)可給以相當(dāng)?shù)臄?shù)量??梢酝ㄟ^(guò)各類(lèi)所包含的數(shù)據(jù)再進(jìn)行數(shù)量化的比較和分析。
數(shù)量分類(lèi):是按數(shù)量的屬性分類(lèi)。
?、?數(shù)據(jù)的排序
數(shù)據(jù)排序:將各數(shù)據(jù)從大到小或從小到大進(jìn)行排列。這樣就可以看出最高分和最低分是多少,各分?jǐn)?shù)出現(xiàn)的次數(shù)和位于中間的是什么數(shù)等。包括等級(jí)排列和次數(shù)排序。
等級(jí)排列:即根據(jù)順序排列劃分等級(jí)。但與順序排列不同,它是按數(shù)值所含的意義確定的。若是學(xué)習(xí)成績(jī),應(yīng)以數(shù)值大的排為第一等級(jí);若是反映時(shí)間,則將最小的數(shù)值排為第一等級(jí)。
次數(shù)排序:即根據(jù)在指定的數(shù)值范圍內(nèi),數(shù)據(jù)出現(xiàn)的頻數(shù)大小排序。
?、?數(shù)據(jù)統(tǒng)計(jì)表
就是把所研究的現(xiàn)象和過(guò)程的數(shù)據(jù)資料,以簡(jiǎn)明的表格形式表現(xiàn)出來(lái)。它可以避免文字的冗長(zhǎng)敘述,便于比較各項(xiàng)目之間的相互關(guān)系,便于總計(jì)、平均和其他統(tǒng)計(jì)值的計(jì)算,便于檢查計(jì)算錯(cuò)誤和項(xiàng)目遺漏。
?、?數(shù)據(jù)的圖形展示法
數(shù)據(jù)的圖示法是利用幾何圖形或其他圖形等的描繪,把所研究對(duì)象的特征、內(nèi)部結(jié)構(gòu)、相互關(guān)系和對(duì)比情況等方面的數(shù)據(jù)資料,繪制成整齊簡(jiǎn)明的圖形。它是用以說(shuō)明研究對(duì)象和過(guò)程的量與量之間對(duì)比關(guān)系的一種方法。它能準(zhǔn)確地表現(xiàn)統(tǒng)計(jì)資料,有助于對(duì)統(tǒng)計(jì)資料進(jìn)行比較、對(duì)照、分析和研究。圖示法,具有直觀、形象,便于記憶和思考以及表達(dá)語(yǔ)言難以說(shuō)清的內(nèi)容之優(yōu)點(diǎn)。
二、特征參數(shù)的計(jì)算
為了分析研究對(duì)象總體的特征,不必對(duì)總體中每一個(gè)單位都進(jìn)行研究。而是通過(guò)抽樣方法,按照隨機(jī)性原則,從全部對(duì)象中,只抽取部分單位(樣本組)加以研究,對(duì)于每組樣本,首先應(yīng)對(duì)其基本特征參數(shù)進(jìn)行計(jì)算,以給出整體特征的統(tǒng)計(jì)描述。并根據(jù)統(tǒng)計(jì)數(shù)據(jù),對(duì)總體對(duì)象作出具有一定可靠程度的估計(jì)和推測(cè)。常用的特征參數(shù)包括:
⒈集中趨勢(shì)
(1)算術(shù)平均數(shù)
(2)中數(shù),是指一組按大小順序排列起來(lái)的量數(shù)中的中間點(diǎn)的數(shù),又稱(chēng)中位數(shù),用Mdn來(lái)表示。
(3)眾數(shù),是指一列數(shù)中出現(xiàn)次數(shù)最多的數(shù)值,常用M表示。
2.離散趨勢(shì)
(1)標(biāo)準(zhǔn)差
(2)四分位數(shù)間距
三、連續(xù)性數(shù)值變量SPSS的操作過(guò)程
連續(xù)性性變量的統(tǒng)計(jì)在SPSS里分為三種方法:
描述性統(tǒng)計(jì)——頻率(Frequency);
描述性統(tǒng)計(jì)——描述(Description);
描述性統(tǒng)計(jì)——探索(Exploration)。
(1)描述性統(tǒng)計(jì)——頻率(Frequency)
例子是觀察學(xué)生分?jǐn)?shù)的分布情況。
Step1 導(dǎo)入數(shù)據(jù):
Step2 使用頻率進(jìn)行描述性統(tǒng)計(jì)
下面是標(biāo)準(zhǔn)化的數(shù)據(jù)。
四、連續(xù)性數(shù)值變量R語(yǔ)言數(shù)據(jù)展示過(guò)程
我們以R內(nèi)置的鳶尾花數(shù)據(jù)為例,鳶尾花(iris)是數(shù)據(jù)挖掘常用到的一個(gè)數(shù)據(jù)集,包含150種鳶尾花的信息,每50種取自三個(gè)鳶尾花種之一(setosa,versicolour或virginica)。每個(gè)花的特征用下面的5種屬性描述萼片長(zhǎng)度(Sepal.Length)、萼片寬度(Sepal.Width)、花瓣長(zhǎng)度(Petal.Length)、花瓣寬度(Petal.Width)、類(lèi)(Species)。
> dim(iris)#查看數(shù)據(jù)的維數(shù)
[1] 150 5
> names(iris)#顯示數(shù)據(jù)集中的變量名
[1] 'Sepal.Length' 'Sepal.Width' 'Petal.Length' 'Petal.Width' 'Species'
> str(iris) #查看數(shù)據(jù)集結(jié)構(gòu)
'data.frame': 150 obs. of 5 variables:
$ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
$ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
$ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
$ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
$ Species : Factor w/ 3 levels 'setosa','versicolor',..: 1 1 1 1 1 1 1 1 1 1 ...
> attributes(iris)#得到數(shù)據(jù)結(jié)構(gòu)的屬性列表
$names
[1] 'Sepal.Length' 'Sepal.Width' 'Petal.Length' 'Petal.Width' 'Species'
$row.names
[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
[32] 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62
[63] 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93
[94] 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124
[125] 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150
$class
[1] 'data.frame'
> iris[1:5,] #顯示數(shù)據(jù)的前5列
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
> iris[1:10, 'Sepal.Length'] #顯示'Sepal.Length'的前10行
[1] 5.1 4.9 4.7 4.6 5.0 5.4 4.6 5.0 4.4 4.9
> iris$Sepal.Length[1:10] #同上
[1] 5.1 4.9 4.7 4.6 5.0 5.4 4.6 5.0 4.4 4.9
> summary(iris) #數(shù)據(jù)集中每個(gè)變量總的描述
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :50
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 versicolor:50
Median :5.800 Median :3.000 Median :4.350 Median :1.300 virginica :50
Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
> library(Hmisc)
> describe(iris[, c(1, 5)]) #同上代碼功能,但顯示的更漂亮些,呵呵!
iris[, c(1, 5)]
2 Variables 150 Observations
------------------------------------------------------------------------------------------------------------------------------------
Sepal.Length
n missing unique Info Mean .05 .10 .25 .50 .75 .90 .95
150 0 35 1 5.843 4.600 4.800 5.100 5.800 6.400 6.900 7.255
lowest : 4.3 4.4 4.5 4.6 4.7, highest: 7.3 7.4 7.6 7.7 7.9
------------------------------------------------------------------------------------------------------------------------------------
Species
n missing unique
150 0 3
setosa (50, 33%), versicolor (50, 33%), virginica (50, 33%)
------------------------------------------------------------------------------------------------------------------------------------
> range(iris$Sepal.Length) #返回Sepal.Length的最大值和最小值
[1] 4.3 7.9
> quantile(iris$Sepal.Length)#返回分位數(shù)
0% 25% 50% 75% 100%
4.3 5.1 5.8 6.4 7.9
> quantile(iris$Sepal.Length, c(0.1, 0.3, 0.65))#返回自定義的分位數(shù)
10% 30% 65%
4.80 5.27 6.20
> var(iris$Sepal.Length)
[1] 0.6856935
> hist(iris$Sepal.Length)
> plot(density(iris$Sepal.Length))> table(iris$Species)
setosa versicolor virginica
50 50 50
> pie(table(iris$Species))
> barplot(table(iris$Species))
cov(iris$Sepal.Length, iris$Petal.Length)
## [1] 1.274315
cor(iris$Sepal.Length, iris$Petal.Length)
## [1] 0.8717538
cov(iris[, 1:4])
## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Sepal.Length 0.6856935 -0.0424340 1.2743154 0.5162707
## Sepal.Width -0.0424340 0.1899794 -0.3296564 -0.1216394
## Petal.Length 1.2743154 -0.3296564 3.1162779 1.2956094
## Petal.Width 0.5162707 -0.1216394 1.2956094 0.5810063
> boxplot(Sepal.Length ~ Species, data = iris)
> with(iris, plot(Sepal.Length, Sepal.Width, col = Species,
+ pch = as.numeric(Species)))
> plot(jitter(iris$Sepal.Length), jitter(iris$Sepal.Width))
> pairs(iris)>library(scatterplot3d)
>scatterplot3d(iris$Petal.Width, iris$Sepal.Length, iris$Sepal.Width)
> dist.matrix <- as.matrix(dist(iris[,="">->
> heatmap(dist.matrix)
> library(lattice)
> levelplot(Petal.Width ~ Sepal.Length * Sepal.Width, iris, cuts = 9,
+ col.regions = rainbow(10)[10:1])
> filled.contour(volcano, color = terrain.colors, asp = 1, plot.axes = contour(volcano,add = T))
> persp(volcano, theta = 25, phi = 30, expand = 0.5, col = 'lightblue')> library(MASS)
Warning message:
程輯包‘MASS’是用R版本3.0.3 來(lái)建造的
> parcoord(iris[1:4], col = iris$Species)
> library(lattice)
> parallelplot(~iris[1:4] | Species, data = iris)
聯(lián)系客服