五 數(shù)據(jù)的統(tǒng)計(jì)分析
二、相關(guān)函數(shù)(命令)及簡介三、實(shí)驗(yàn)內(nèi)容四、自己動手五、附錄在日常生活中我們會在很多事件中收集到一些數(shù)據(jù)(比如:考試分?jǐn)?shù)、窗口排隊(duì)人數(shù)、月用電量、燈泡壽命、測量誤差、產(chǎn)品質(zhì)量、月降雨量等數(shù)據(jù)),這些數(shù)據(jù)的產(chǎn)生一般都是隨機(jī)的.這些隨機(jī)數(shù)據(jù)乍看起來并沒有什么規(guī)律,但通過數(shù)理統(tǒng)計(jì)的研究發(fā)現(xiàn):這些隨機(jī)數(shù)還是符合著某種分布規(guī)律的,這種規(guī)律被稱為統(tǒng)計(jì)規(guī)律.
本實(shí)驗(yàn)旨在通過對概率密度函數(shù)曲線的直觀認(rèn)識、對數(shù)據(jù)分布的形態(tài)猜測、對某些概率分布的密度函數(shù)的參數(shù)估計(jì)(以正態(tài)為例)以及進(jìn)行簡單的正態(tài)假設(shè)檢驗(yàn),來揭示生活中的隨機(jī)數(shù)據(jù)的一些統(tǒng)計(jì)規(guī)律.
1. 概率密度函數(shù)pdf系列.以normpdf( )為例,調(diào)用格式:
y=normpdf(x, mu,sigma),
計(jì)算參數(shù)為mu和sigma的樣本數(shù)據(jù)x的正態(tài)概率密度函數(shù).參數(shù)sigma必須為正.其中:mu為均值,sigma為標(biāo)準(zhǔn)差.
2. 參數(shù)估計(jì)fit系列.以normfit( )為例,調(diào)用格式:
[muhat, sigmahat, muci, sigmaci] = normfit(x, alpha),
對樣本數(shù)據(jù)x進(jìn)行參數(shù)估計(jì),并計(jì)算置信度為100(1-alpha)%的置信區(qū)間.如alpha=0.01時(shí),則給出置信度為99%的置信區(qū)間.不寫明alpha,即表示alpha取0.05.
3.load( )函數(shù).調(diào)用格式:
S = load('數(shù)據(jù)文件')
將純數(shù)據(jù)文件(文本文件)中的數(shù)據(jù)導(dǎo)入Matlab,S 是雙精度的數(shù)組,其行數(shù)、列數(shù)與數(shù)據(jù)文件相一致.
4. hist(x, m)函數(shù):畫樣本數(shù)據(jù)x的直方圖,m為直方圖的條數(shù),缺省值為10.
5. tabulate( )函數(shù):繪制頻數(shù)表.返回table矩陣,第一列包含x的值,第二列包含該值出現(xiàn)次數(shù),最后一列包含每個(gè)值的百分比.
6.ttest(x,m,alpha) 函數(shù):假設(shè)檢驗(yàn)函數(shù).此函數(shù)對樣本數(shù)據(jù)x進(jìn)行顯著性水平為alpha的t假設(shè)檢驗(yàn),以檢驗(yàn)正態(tài)分布樣本x(標(biāo)準(zhǔn)差未知)的均值是否為m.h=1表示拒絕零假設(shè),h=0表示不能拒絕零假設(shè).
7.normplot(x)或weibplot(x) 函數(shù):統(tǒng)計(jì)繪圖函數(shù),進(jìn)行正態(tài)分布檢驗(yàn).
研究表明:如果數(shù)據(jù)是來自一個(gè)正態(tài)分布,則該線為一直線形態(tài);如果它是來自其他分布,則為曲線形態(tài).
完全類似地可探索以下一系列函數(shù)的用法與作用:
8.累積分布函數(shù)cdf系列,如:normcdf( ).
9.逆累積分布函數(shù)inv系列,如:norminv( ).
10.隨機(jī)數(shù)發(fā)生函數(shù)rnd系列,如:normrnd( ).
11.均值與方差函數(shù)stat系列,如:normstat( ).
1. 常見的概率分布的密度函數(shù)及其圖形
1)常見概率分布的密度函數(shù)(20個(gè),打√的10個(gè)將在后面作介紹)
序號
中文函數(shù)名
英文函數(shù)名
英文簡寫
備注
1
Beta分布
Beta
beta
2
二項(xiàng)分布
Binomial
bino
√
3
卡方分布
Chisquare
chi2
√抽樣
4
指數(shù)分布
Exponential
exp
√
5
F分布
F
f
√抽樣
6
Gamma分布
Gamma
gam
7
幾何分布
Geometric
geo
√
8
超幾何分布
Hypergeometric
hyge
9
對數(shù)正態(tài)分布
Lognormal
logn
10
負(fù)二項(xiàng)式分布
Negative Binomial
nbin
11
非中心F分布
Noncentral F
ncf
12
非中心t分布
Noncentral t
nct
13
非中心卡方分布
Noncentral Chi-square
ncx2
14
正態(tài)分布
Normal
norm
√
15
泊松分布
Poisson
poiss
√
16
瑞利分布
Rayleigh
rayl
17
T分布
T
t
√抽樣
18
均勻分布
Uniform
unif
√
19
離散均勻分布
Discrete Uniform
unid
√
20
Weibull分布
Weibull
weib
2)常見概率分布的密度函數(shù)文字說明與圖形演示:
(A)常見連續(xù)分布的密度函數(shù)
(1)正態(tài)分布
若連續(xù)型隨機(jī)變量
的密度函數(shù)為:
則稱
為服從正態(tài)分布的隨機(jī)變量,記作
.特別地,稱
時(shí)的正態(tài)分布
為標(biāo)準(zhǔn)正態(tài)分布,其概率分布的密度函數(shù)參見圖1.一個(gè)非標(biāo)準(zhǔn)正態(tài)分布的密度函數(shù)參見圖2中的虛線部分(
).
正態(tài)分布是概率論與數(shù)理統(tǒng)計(jì)中最重要的一個(gè)分布,高斯(Gauss)在研究誤差理論時(shí)首先用正態(tài)分布來刻畫誤差的分布,所以正態(tài)分布又稱高斯分布.一個(gè)變量如果是由大量微小的、獨(dú)立的隨機(jī)因素的疊加效果,那么這個(gè)變量一定是正態(tài)變量.比如測量誤差、產(chǎn)品質(zhì)量、月降雨量等都可用正態(tài)分布描述.
x=-8:0.1:8;
y=normpdf(x, 0, 1);
y1=normpdf(x, 1, 2);
plot(x, y, x, y1, ':' );
圖1 標(biāo)準(zhǔn)正態(tài)分布 圖2 標(biāo)準(zhǔn)正態(tài)與非標(biāo)準(zhǔn)正態(tài)
(2)均勻分布(連續(xù))
若隨機(jī)變量
的密度函數(shù)為
則稱
服從區(qū)間
上的均勻分布(連續(xù)),記作
,其概率分布的密度函數(shù)見參見圖3
.
均勻分布在實(shí)際中經(jīng)常使用,譬如一個(gè)半徑為
的汽車輪胎,因?yàn)檩喬ド系娜我稽c(diǎn)接觸地面的可能性是相同的,所以輪胎圓周接觸地面的位置
是服從
上的均勻分布,這只要看一看報(bào)廢輪胎四周磨損程度幾乎是相同的就可明白均勻分布的含義了.
x=-10:0.01:10;r=1;
y=unifpdf(x, 0, 2*pi*r);
plot(x, y);
圖3均勻分布(連續(xù)) 圖4 指數(shù)分布
(3)指數(shù)分布
若連續(xù)型隨機(jī)變量
的密度函數(shù)為:
其中
,
則稱
為服從參數(shù)為
的指數(shù)分布的隨機(jī)變量,記作
.
在實(shí)際應(yīng)用問題中,等待某特定事物發(fā)生所需要的時(shí)間往往服從指數(shù)分布.如某些元件的壽命;某人打一個(gè)電話持續(xù)的時(shí)間;隨機(jī)服務(wù)系統(tǒng)中的服務(wù)時(shí)間;動物的壽命等都常假定服從指數(shù)分布.
指數(shù)分布的重要性還在于它是具有無記憶性的連續(xù)型隨機(jī)變量.即:設(shè)隨機(jī)變量
服從參數(shù)為
的指數(shù)分布,則對任意的實(shí)數(shù)
,有
其概率分布的密度函數(shù)參見見圖4
.
x=0:0.1:30;
y=exppdf(x, 4);
plot(x, y)
(B)常見離散分布的密度函數(shù)
(4)幾何分布
在一個(gè)貝努里實(shí)驗(yàn)中,每次試驗(yàn)成功的概率為
,失敗的概率為
,設(shè)試驗(yàn)進(jìn)行到第
次才出現(xiàn)成功,則
的分布列為:
容易看到
是幾何級數(shù)
的一般項(xiàng),于是人們稱它為幾何分布,其概率分布的密度函數(shù)參見圖5
.
x=0:30;
y=geopdf(x, 0.5);
plot(x, y)
圖5 幾何分布 圖6 二項(xiàng)分布
(5)二項(xiàng)分布
如果隨機(jī)變量
的分布列為:
則這個(gè)分布稱為二項(xiàng)分布,記為
.當(dāng)
時(shí)的二項(xiàng)分布又稱為0-1分布,分布律為
0
1
一般的二項(xiàng)分布的密度函數(shù)參見圖6
.
x=0:50;
y=binopdf(x, 500, 0.05);
plot(x, y);
(6)泊松(Poisson)分布
泊松分布是1837年由法國數(shù)學(xué)家泊松(Poisson S.D.1781-1840)首次提出的,其概率分布列是:
記為
,其概率分布的密度函數(shù)參見圖7
.
泊松分布是一種常用的離散分布,它與單位時(shí)間(或單位面積、單位產(chǎn)品等)上的計(jì)數(shù)過程相聯(lián)系,譬如:單位時(shí)間內(nèi),電話總機(jī)接到用戶呼喚次數(shù);1平方米內(nèi),玻璃上的氣泡數(shù);一鑄件上的砂眼數(shù);在單位時(shí)間內(nèi),某種放射性物質(zhì)分裂到某區(qū)域的質(zhì)點(diǎn)數(shù)等等.
x=0:50;
y=poisspdf(x, 25);
plot(x, y);
注:對比二項(xiàng)分布的概率密度函數(shù)圖可以發(fā)現(xiàn),當(dāng)二項(xiàng)分布的
與泊松分布
充分接近時(shí),兩圖擬合程度非常高(圖6與圖7中的
),直觀地驗(yàn)證了泊松定理(泊松分布是二項(xiàng)分布的極限分布),請對比圖6與圖7.
圖7 泊松分布 圖8 均勻分布(離散)
(7)均勻分布(離散)
如果隨機(jī)變量
的分布列為:
則這個(gè)分布稱為離散均勻分布,記為
,其概率分布的密度函數(shù)參見圖8
.
n=20;
x=1:n;
y=unidpdf(x, n);
plot(x, y, 'o-' );
(C)三大抽樣分布的密度函數(shù)
(8)
分布
設(shè)隨機(jī)變量
相互獨(dú)立,且同服從正態(tài)分布
,則稱隨機(jī)變量
服從自由度為
的
分布,記作
,亦稱隨機(jī)變量
為
變量.其概率分布的密度函數(shù)參見圖9
、圖10
,
分布的密度函數(shù)解析式參見本章的附錄表格.
x=0:0.1:20; x=0:0.1:20;
y=chi2pdf(x, 4); y=chi2pdf(x, 10);
plot(x, y); plot(x, y)
圖9
分布
圖10
分布
(9)
分布
設(shè)隨機(jī)變量
,
,且
與
相互獨(dú)立,則稱隨機(jī)變量
服從自由度為
的
分布,記作
,其概率分布的密度函數(shù)參見圖11,即
,
分布的密度函數(shù)解析式參見本章的附錄表格.
x=0.01:0.1:8.01;
y=fpdf(x, 4, 10);
plot(x, y)
圖11
分布 圖12
分布
(10)
分布
設(shè)隨機(jī)變量
,且
與
相互獨(dú)立,則稱隨機(jī)變量
服從于自由度為
的
分布,記作
,其概率分布的密度函數(shù)參見圖12,即
.
分布的密度函數(shù)解析式參見本章的附錄表格.
細(xì)心的讀者可能已經(jīng)發(fā)現(xiàn),圖12的
分布圖與圖1、圖2的正態(tài)分布十分相似.可以證明:當(dāng)
時(shí),
分布趨于標(biāo)準(zhǔn)正態(tài)分布
.
x=-6:0.01:6;
y=tpdf(x, 4);
plot(x, y)
2.對給定數(shù)據(jù)畫頻數(shù)直方圖(Histogram)或頻數(shù)表(Frequency Table)
假定有若干個(gè)給定的數(shù)據(jù)集,它們滿足上述10種分布之一,我們現(xiàn)在的任務(wù)就是利用畫頻數(shù)直方圖等手段,確定它們到底服從哪一類分布.
例1:某一次書面考試的分?jǐn)?shù)羅列如下,試畫頻數(shù)直方圖.
鑒于數(shù)據(jù)的數(shù)量較大(包含有120個(gè)數(shù)據(jù)),可以先在一個(gè)文本文件中輸入,保存為data1.txt.
75 69 100 80 70 74 78 59 72 73
63 79 69 81 62 87 80 66 86 75
70 85 85 64 78 65 69 67 78 72
60 50 57 83 77 79 78 74 67 83
71 67 71 74 84 74 83 75 73 74
60 91 65 69 80 63 86 67 73 80
74 68 72 80 95 61 77 85 82 71
80 76 83 69 87 76 72 69 66 86
74 87 59 81 88 75 83 71 77 81
88 67 67 76 71 76 79 79 90 62
80 85 81 75 72 57 94 91 83 78
66 74 79 74 82 79 87 76 81 68
x=load('data1.txt');
x=x(:);
hist(x)
結(jié)果參見圖13.從圖形形態(tài)上來看,圖13較為接近圖2所示的正態(tài)分布.
圖13 例1的頻數(shù)直方圖 圖14 例2的頻數(shù)直方圖
例2:某一次上機(jī)考試的分?jǐn)?shù)羅列如下(data2.txt,包含有130個(gè)數(shù)據(jù)),試畫頻數(shù)直方圖.
51 70 95 91 70 83 83 96 66 61
79 79 57 85 95 83 63 71 71 72
91 60 69 100 67 87 72 50 60 63
87 98 71 74 96 55 83 67 92 78
56 62 77 79 84 55 59 61 93 56
82 61 88 97 98 95 73 79 81 87
56 92 53 57 93 89 77 89 56 92
99 86 68 57 91 57 81 65 80 99
79 95 79 86 74 56 70 61 72 81
57 75 98 89 69 61 71 77 72 78
70 73 67 59 62 86 84 93 82 80
90 94 84 89 80 67 97 73 80 94
69 64 51 51 92 62 52 86 67 97
x=load('data2.txt');
x=x(:);
hist(x)
結(jié)果參見圖14.圖14看上去很接近圖8所示的均勻分布(離散).
例3:以下給出上海1998年來的月降雨量的數(shù)據(jù)(data3.txt,包含有98個(gè)數(shù)據(jù)):
1184.4 1113.4 1203.9 1170.7 975.4 1462.3 947.8
1416.0 709.2 1147.5 935 1016.3 1031.6 1105.7
849.9 1233.4 1008.6 1063.8 1004.9 1086.2 1022.5
1330.9 1439.4 1236.5 1088.1 1288.7 1115.8 1217.5
1320.7 1078.1 1203.4 1480.0 1269.9 1049.2 1318.4
1192.0 1016.0 1508.2 1159.6 1021.3 986.1 794.7
1318.3 1171.2 1161.7 791.2 1143.8 1602.0 951.4
1003.2 840.4 1061.4 958.0 1025.2 1265.0 1196.5
1120.7 1659.3 942.7 1123.3 910.2 1398.5 1208.6
1305.5 1242.3 1572.3 1416.9 1256.1 1285.9 984.8
1390.3 1062.2 1287.3 1477.0 1011.9 1217.7 1197.1
1143.0 1018.8 1243.7 909.3 1030.3 1124.4 811.4
820.9 1184.1 1107.5 991.4 901.7 1176.5 1113.5
1272.9 1200.3 1508.7 772.3 813.0 1392.3 1006.2
x=load('data3.txt');
x=x(:);
hist(x)
結(jié)果參見圖15.圖15看上去很接近圖10所示的
分布.
圖15 例3的頻數(shù)直方圖 圖16 例4的頻數(shù)直方圖
在重復(fù)數(shù)據(jù)較多的情況下,我們也可以利用Matlab自帶的函數(shù)tabulate( )產(chǎn)生頻數(shù)表,并以頻數(shù)表的形式來發(fā)掘數(shù)據(jù)分布的規(guī)律.
例4:給出以下數(shù)據(jù):(data4.txt,含有46個(gè)數(shù)據(jù))
2 3 6 4 1 5 1 2 3 1 4 2 3 1 3 3 2 3 1 6 4 6 4
6 5 4 3 6 4 3 3 3 3 4 4 5 6 2 1 2 3 4 5 6 5 4
則:
x=load('data4.txt');
x=x(:);
tabulate(x)
hist(x, 6)
Value Count Percent
1 6 13.04%
2 6 13.04%
3 12 26.09%
4 10 21.74%
5 5 10.87%
6 7 15.22%
結(jié)果參見圖16.圖16看上去好象沒有什么規(guī)律可循.
例5:現(xiàn)累積有100次刀具故障記錄,當(dāng)故障出現(xiàn)時(shí)該批刀具完成的零件數(shù)如下:(data5.txt)
459 362 624 542 509 584 433 748 815 505
612 452 434 982 640 742 565 706 593 680
926 653 164 487 734 608 428 1153 593 844
527 552 513 781 474 388 824 538 862 659
775 859 755 49 697 515 628 954 771 609
402 960 885 610 292 837 473 677 358 638
699 634 555 570 84 416 606 1062 484 120
447 654 564 339 280 246 687 539 790 581
621 724 531 512 577 496 468 799 544 645
764 558 378 765 666 763 217 715 310 851
x=load('data5.txt');
x=x(:);
hist(x) %%結(jié)果參見圖17,很象圖2所示的正態(tài)分布
figure
histfit(x) %%結(jié)果參見圖18,加入了較接近的正態(tài)分布的密度曲線
圖17 例5的hist(x) 圖18 例5的histfit(x)
3. 參數(shù)估計(jì)
當(dāng)我們可以基本確定數(shù)據(jù)集
符合某種分布時(shí),下一步我們就該確定這個(gè)分布的參數(shù)了.由于正態(tài)分布情況發(fā)生的比較多,故一般我們首先考慮的分布將是正態(tài)分布.考慮最多的也是正態(tài)分布情況.
對于未知參數(shù)的估計(jì),可分兩種情況:點(diǎn)估計(jì)與區(qū)間估計(jì).
(1)點(diǎn)估計(jì):構(gòu)造樣本
與某個(gè)統(tǒng)計(jì)量有關(guān)的一個(gè)函數(shù),作為該統(tǒng)計(jì)量的一個(gè)估計(jì),稱為點(diǎn)估計(jì).Matlab統(tǒng)計(jì)工具箱中,一般采用最大似然估計(jì)法給出參數(shù)的點(diǎn)估計(jì).可以證明:
① 正態(tài)分布
中,
最大似然估計(jì)是
,
的最大似然估計(jì)是
;
② 泊松分布
的
最大似然估計(jì)是
;
③ 指數(shù)分布
的
最大似然估計(jì)是
,等等.
例6:已知上述例1的數(shù)據(jù)服從正態(tài)分布
,試求出
和
的值.
解: x=load('data1.txt');
x=x(:);
[mu, sigma] = normfit(x)
mu =
75.3417
sigma =
8.8768
因此,
=mu=75.3412,
=sigma2=8.87682=78.7982.
(2)區(qū)間估計(jì):構(gòu)造樣本
與某個(gè)統(tǒng)計(jì)量有關(guān)的兩個(gè)函數(shù),作為該統(tǒng)計(jì)量的下限估計(jì)與上限估計(jì),下限與上限一般能夠構(gòu)成一個(gè)區(qū)間.這個(gè)區(qū)間作為該統(tǒng)計(jì)量的估計(jì),稱為區(qū)間估計(jì).Matlab統(tǒng)計(jì)工具箱中,一般也采用最大似然估計(jì)法給出參數(shù)的區(qū)間估計(jì).
例7:已知上述例1的數(shù)據(jù)集
服從正態(tài)分布
,試求出
和
的置信度為95%的區(qū)間估計(jì).
解: x=load('data1.txt');
x=x(:);
[mu, sigma muci, sigmaci] = normfit(x)
mu =
75.3417
sigma =
8.8768
muci =
73.7371
76.9462
sigmaci =
7.8781
10.1678
因此,73.7371
76.9462,7.8781
10.1678.
例8:從自動機(jī)床加工的同類零件中抽取16件,測得長度值為(data6.txt):
12.15 12.12 12.01 12.08 12.09 12.16 12.06 12.13
12.07 12.11 12.08 12.01 12.03 12.01 12.03 12.06
已知零件長度服從正態(tài)分布
,求零件長度的均值
和標(biāo)準(zhǔn)差
的置信度為99%的置信區(qū)間.
解: x=load('data6.txt');
x=x(:);
[mu, sigma, muci, sigmaci] = normfit(x, 0.01)
mu =
12.0750
sigma =
0.0494
muci =
12.0386
12.1114
sigmaci =
0.0334
0.0892
其中muci(1)、muci(2)分別是平均值
在99%置信度下的上下限;而sigmaci(1)、sigmaci(2)分別是標(biāo)準(zhǔn)差
在99%置信度下的上下限.
4.正態(tài)假設(shè)檢驗(yàn)
對總體的分布律或分布參數(shù)作某種假設(shè),根據(jù)抽取的樣本觀察值,運(yùn)用數(shù)理統(tǒng)計(jì)的分析方法,檢驗(yàn)這種假設(shè)是否正確,從而決定接受假設(shè)或拒絕假設(shè),這就是假設(shè)檢驗(yàn)問題.這里僅以正態(tài)假設(shè)檢驗(yàn)為例,來說明假設(shè)檢驗(yàn)的基本過程.
正態(tài)假設(shè)檢驗(yàn)的一般過程是:
(1)對比正態(tài)分布的概率密度函數(shù)圖,判斷某統(tǒng)計(jì)量的分布可能服從正態(tài)分布;
(2)利用統(tǒng)計(jì)繪圖函數(shù)normplot( )或weibplot( )進(jìn)行正態(tài)分布檢驗(yàn).
(3)假設(shè)檢驗(yàn):利用Matlab統(tǒng)計(jì)工具箱給出的常用的假設(shè)檢驗(yàn)方法的函數(shù)ttest(x,m,alpha),進(jìn)行顯著性水平為alpha的t假設(shè)檢驗(yàn),以檢驗(yàn)正態(tài)分布樣本x(標(biāo)準(zhǔn)差未知)的均值是否為m.運(yùn)行結(jié)果中,當(dāng)h=1時(shí),表示拒絕零假設(shè);當(dāng)h=0時(shí),表示不能拒絕零假設(shè).
例9:試說明例5所示的刀具的使用壽命服從正態(tài)分布,并且說明在方差未知的情況下其均值m取為597是否合理?
解:(1)對比正態(tài)分布的概率密度函數(shù)圖(圖17、圖18)以及對正態(tài)分布的描述(一個(gè)變量如果是由大量微小的、獨(dú)立的隨機(jī)因素的疊加效果,那么這個(gè)變量一定是正態(tài)變量.比如測量誤差、產(chǎn)品質(zhì)量等都可用正態(tài)分布描述),可得初步結(jié)論:該批刀具的使用壽命可能服從正態(tài)分布.
(2)利用統(tǒng)計(jì)繪圖函數(shù)normplot(x) 進(jìn)行分布的正態(tài)性檢驗(yàn).由于:
x=load('data5.txt');
x=x(:);
normplot(x)
圖19 刀具壽命分布正態(tài)性檢驗(yàn)
結(jié)果如圖19所示,經(jīng)觀察這100個(gè)離散點(diǎn)非常靠近傾斜直線段,圖形為線性的,因此可得出結(jié)論:該批刀具的使用壽命近似服從正態(tài)分布.
(3)利用函數(shù)ttest(x,m,alpha)進(jìn)行顯著性水平為alpha的t假設(shè)檢驗(yàn).由于:
x=load('data5.txt');
x=x(:);
h=ttest(x,597,0.05)
得:h = 0
檢驗(yàn)結(jié)果:h=0,表示不拒絕零假設(shè),說明所提出的假設(shè)“壽命均值為597”是合理的.
讀者可以驗(yàn)證:當(dāng)執(zhí)行h=ttest(x,555,0.05),將得到h = 1,表示拒絕零假設(shè).請讀者自行解釋此結(jié)果的含義.
1.了解本實(shí)驗(yàn)中雖已提及但沒有詳細(xì)介紹的其余10種概率分布的密度函數(shù),如Beta分布、Gamma分布、Weibull分布等,寫出它們的概率分布的密度函數(shù)表達(dá)式(本實(shí)驗(yàn)的附錄中已經(jīng)列出一部分),并畫出相應(yīng)的圖形.
2.寫出本實(shí)驗(yàn)所列出的10種概率累積分布函數(shù)表達(dá)式,并畫出相應(yīng)的概率累積分布函數(shù)圖形.
3.用tabulate( )函數(shù)將例1、例2的分?jǐn)?shù)數(shù)據(jù)按頻數(shù)表的方式進(jìn)行統(tǒng)計(jì),每5分為一個(gè)分?jǐn)?shù)段(可參見例4),觀察數(shù)據(jù)分布有什么規(guī)律.
4.用weibplot(x)函數(shù)進(jìn)行例9的正態(tài)分布檢驗(yàn),比較與例9的差別.
5.例3給出的上海1998年來的月降雨量的數(shù)據(jù)(data3.txt) 看上去很接近圖10所示的
分布,但
分布好象沒有直接進(jìn)行參數(shù)估計(jì)的函數(shù),試尋求對此數(shù)據(jù)進(jìn)行參數(shù)估計(jì)的可能方法.
6.向例3給出的上海1998年來的月降雨量的數(shù)據(jù)(data3.txt) 中“補(bǔ)充”一些數(shù)據(jù),使其看上去很接近正態(tài)分布,并求此時(shí)的均值
和標(biāo)準(zhǔn)差
的點(diǎn)估計(jì)與置信度為97%的區(qū)間估計(jì).
7.在第6題基礎(chǔ)上,說明在方差未知的情況下,其均值
取為1150是否合理?
8.ttest( )函數(shù)的完整用法是:[h,sig,ci] = ttest(x,m,alpha,tail)
其中 sig為觀察值的概率,當(dāng)sig為小概率時(shí)則對零假設(shè)提出質(zhì)疑(這里的零假設(shè)為:
.也可以是其它形式,例如:
、
等);ci為真正均值μ的1-alpha置信區(qū)間;不寫tail,表示其取值為0.
說明:若h=0,表示在顯著性水平alpha下,不能拒絕零假設(shè);若h=1,表示在顯著性水平alpha下,可以拒絕零假設(shè).
若 tail=0,表示備擇(對立)假設(shè)為:
(默認(rèn),雙邊檢驗(yàn));若tail=1,表示備擇(對立)假設(shè)為:
(單邊檢驗(yàn));若tail=-1,表示備擇(對立)假設(shè)為:
(單邊檢驗(yàn)).
試用該函數(shù)求解如下問題:某種電子元件的壽命X(以小時(shí)計(jì))服從正態(tài)分布,
、
均未知.現(xiàn)測得16只元件的壽命如下:
159 280 101 212 224 379 179 264 222 362 168 250
149 260 485 170
問當(dāng)取alpha=0.05時(shí):(1)是否有理由認(rèn)為元件的平均壽命不大于225(小時(shí))?(2)是否有理由認(rèn)為元件的平均壽命不大于295(小時(shí))?
9.查看函數(shù) ttest2( )的用法,并用于處理Matlab 統(tǒng)計(jì)工具中的數(shù)據(jù)文件gas.mat.回答問題:一月份油價(jià)price1與二月份油價(jià)price2的均值是否相同?
附錄:Matlab中的其它部分概率分布函數(shù)名及其數(shù)學(xué)意義列表:
函數(shù)名
對應(yīng)分布
數(shù)學(xué)意義
batapdf
Beta分布
chi2pdf
卡方分布
fpdf
F分布
gampdf
Gamma分布
,
raylpdf
瑞利分布
,
tpdf
t分布
weibpdf
Weibull分布