(R這種直接在分布前面加前綴的語法太難讀了,pt()誤以為還是一個函數(shù),實際上的含義是p(t()),為什么不寫成這個格式呢?不過t()返回什么好...)
常見概率分布
離散型
1.二項分布Binomialdistribution:binom
二項分布指的是N重伯努利實驗,記為X ~ b(n,p),E(x)=np,Var(x)=np(1-p)
pbinom(q,size,prob),q是特定取值,比如pbinom(8,20,0.2)指第8次伯努利實驗的累計概率。size指總的實驗次數(shù),prob指每次實驗成功發(fā)生的概率
dbinom(x,size,prob),x同上面的q同含義。dfunction()對于離散分布來說結(jié)果是特定值的概率,對連續(xù)變量來說是密度(Density)
rbinom(n, size, prob),產(chǎn)生n個b(size,prob)的二項分布隨機數(shù)
qbinom(p, size, prob),quantile function 分位數(shù)函數(shù)。
分位數(shù):
若概率0
Za)=α的實數(shù)。如t分布的分位數(shù)表,自由度f=20和α=0.05時的分位數(shù)為1.7247。--這個定義指的是上側(cè)α分位數(shù)
α分位數(shù):
實數(shù)α滿足0 <α<1 時,α分位數(shù)是使P{X< xα}=F(xα)=α的數(shù)xα
雙側(cè)α分位數(shù)是使P{X<λ1}=F(λ1)=0.5α的數(shù)λ1、使P{X>λ2}=1-F(λ2)=0.5α的數(shù)λ2。
qbinom是上側(cè)分位數(shù),如qbinom(0.95,100,0.2)=27,指27之后P(x>=27)>=0.95。即對于b(100,0.2)為了達到0.95的概率至少需要27次重復(fù)實驗。
2.負二項分布negative binomialdistribution (帕斯卡分布)nbinom
擲骰子,擲到一即視為成功。則每次擲骰的成功率是1/6。要擲出三次一,所需的擲骰次數(shù)屬于集合 { 3, 4, 5, 6, ...} 。擲到三次一的擲骰次數(shù)是負二項分布的隨機變量。
dnbinom(4,3,1/6)=0.0334898,四次連續(xù)三次1的概率為這個數(shù)。
概率函數(shù)為f(k;r,p)=choose(k+r-1,r-1)*p^r*(1-p)^k,當r=1時這個特例分布是幾何分布
rnbinom(n,size,prob,mu)其中n是需要產(chǎn)生的隨機數(shù)個數(shù),size是概率函數(shù)中的r,即連續(xù)成功的次數(shù),prob是單詞成功的概率,mu未知..(mu是希臘字母υ的讀音)
3.幾何分布GeometricDistribution,geom
n次伯努利試驗,前n-1次皆失敗,第n次才成功的機率
dgeom(x,prob),注意這里的x取值是0:n,即dgeom(0,0.2)=0.2,以上的二項分布和負二項分布也是如此。
ngeom(n,prob)
4.超幾何分布HypergeometricDistribution,hyper
它描述了由有限個(m+n)物件中抽出k個物件,成功抽出指定種類的物件的次數(shù)(不歸還)。
概率:p(x) = choose(m, x) choose(n, k-x) / choose(m+n, k) for x =0, ..., k.
當n=1時,這是一個0-1分布即伯努利分布,當n接近無窮大∞時,超幾何分布可視為二項分布
rhyper(nn,m,n,k),nn是需要產(chǎn)生的隨機數(shù)個數(shù),m是白球數(shù)(計算目標是取到x個白球的概率),n是黑球數(shù),k是抽取出的球個數(shù)
dhyper(x, m, n, k)
5.泊松分布 PoissonDistribution,pois
p(x) = lambda^x exp(-lambda)/x!
for x = 0, 1, 2, .... The mean and variance are E(X) = Var(X) =λ.
泊松分布的參數(shù)λ是單位時間(或單位面積)內(nèi)隨機事件的平均發(fā)生率.泊松分布適合于描述單位時間內(nèi)隨機事件發(fā)生的次數(shù)。如某一服務(wù)設(shè)施在一定時間內(nèi)到達的人數(shù),電話交換機接到呼叫的次數(shù),汽車站臺的候客人數(shù),機器出現(xiàn)的故障數(shù),自然災(zāi)害發(fā)生的次數(shù)等等.
rpois(n, lambda)
dpois(x,lambda)
連續(xù)型
6.均勻分布 UniformDistribution,unif
f(x) = 1/(max-min) for min <= x <= max.
runif(n,min,max).
生成16位數(shù)的隨機數(shù):as.character(runif(1,1000000000000000,9999999999999999))
dunif(x,min,max)=1,恒定等于1/(max-min).
對于連續(xù)變量,dfunction的值是x去特定值代入概率密度函數(shù)得到的函數(shù)值。
7.正態(tài)分布NormalDistribution,norm
f(x) = 1/(sqrt(2 pi) sigma) e^-((x - mu)^2/(2 sigma^2))
其中mu是均值,sigma是standard deviation標準差
理論上可以證明如果把許多小作用加起來看做一個變量,那么這個變量服從正態(tài)分布
rnorm(n,mean=0,sd=1)后兩個參數(shù)如果不填則默認為0,1。
dnorm(x,mean,sd),sd是標準差。
畫出正態(tài)分布概率密度函數(shù)的大致圖形:
x<-seq(-3,3,0.1)
plot(x,dnorm(x)) plot中的x,y要有相關(guān)關(guān)系才會形成函數(shù)圖。
qnorm(p,mean,sd),這個還是上側(cè)分位數(shù),如qnorm(0.05)=-1.644854,即x<=這個數(shù)的累計概率小于0.05
3sigma法則:對于正態(tài)分布的x,x取值在(mean-3sd,mean+3sd)幾乎是在肯定的。
因為pnorm(3)-pnorm(-3)=0.9973002
用正太分布產(chǎn)生一個16位長的隨機數(shù)字:
as.character(10^16*rnorm(1))
8.伽瑪分布GammaDistribution,gamma
http://zh.wikipedia.org/w/index.php?title=伽瑪分布&variant=zh-cn
假設(shè)隨機變量X為 等到第α件事發(fā)生所需之等候時間。
f(x)= 1/(s^a Gamma(a)) x^(a-1) e^-(x/s) for x >= 0, a > 0and s > 0.
Gamma分布中的參數(shù)α,稱為形狀參數(shù)(shape parameter),即上式中的s,β稱為尺度參數(shù)(scaleparameter)上式中的a
E(x)=s*a, Var(x)=s*a^2.當shape=1/2,scale=2時,這樣的gamma分布是自由度為1的開方分布
http://zh.wikipedia.org/wiki/File:Gamma_distribution_pdf.png
dgamma(x,shape,rate=1,scale=1/rate),請注意R在這里提供的rate是scale尺度參數(shù)的倒數(shù),如果dgamma(0,1,2)則表示dgamma(0,shape=1,rate=2),而非dgamma(0,shape=1,scale=2)
pgamma(q, shape, rate = 1, scale = 1/rate, lower.tail =TRUE,
qgamma(p, shape, rate = 1, scale = 1/rate, lower.tail =TRUE,
rgamma(n, shape, rate = 1, scale = 1/rate)
9.指數(shù)分布ExponentialDistribution,exp
指數(shù)分布可以用來表示獨立隨機事件發(fā)生的時間間隔,比如旅客進機場的時間間隔、中文維基百科新條目出現(xiàn)的時間間隔等等。
記作X ~ Exponential(λ)。
f(x) = lambda e^(- lambda x) for x >= 0.
其中l(wèi)ambda λ > 0是分布的一個參數(shù),常被稱為率參數(shù)(rate parameter).E(x)=1/λ,Var(x)=1/λ^2
dexp(x, rate = 1, log = FALSE)
pexp(q, rate = 1, lower.tail = TRUE, log.p = FALSE)
qexp(p, rate = 1, lower.tail = TRUE, log.p = FALSE)
rexp(n, rate = 1)
假設(shè)在公交站臺等公交車平均10分鐘有一趟車,那么每小時候有6趟車,即每小時出現(xiàn)車的次數(shù)~Exponential(1/6)
我們可以產(chǎn)生10個這些隨機數(shù)看看rexp(10,1/6)
60/(rexp10,1/6)即為我們在站臺等車的隨機時間,如下:
可以看見竟然有一個42.6分鐘的隨機數(shù)出現(xiàn),據(jù)說這種情況下你可以投訴上海的公交公司。
不過x符合指數(shù)分布,1/x還符合指數(shù)分布嗎?
pexp(6,1/6)=0.6321206, 也就是說這種情況下只有37%的可能公交車會10分鐘以內(nèi)來。
按照以上分析一個小時出現(xiàn)的公交車次數(shù)應(yīng)該不符合指數(shù)分布。
10.卡方分布(non-central)Chi-SquaredDistribution,chisq
它廣泛的運用于檢測數(shù)學(xué)模型是否適合所得的數(shù)據(jù),以及數(shù)據(jù)間的相關(guān)性。數(shù)據(jù)并不需要呈正態(tài)分布
k個標準正態(tài)變量的平方和即為自由度為k的卡方分布。
E(x)=k,Var(x)=2k.
dchisq(x, df, ncp=0, log = FALSE)
pchisq(q, df, ncp=0, lower.tail = TRUE, log.p = FALSE)
qchisq(p, df, ncp=0, lower.tail = TRUE, log.p = FALSE)
rchisq(n, df, ncp=0)
其中df為degrees of freedom。ncp是non-centrality parameter(non-negative).ncp=0時是central卡方分布,ncp不為0時,表示這個卡方分布是由非標準正態(tài)分布組合而成,ncp=這些正態(tài)分布的均值的平方和。
11.β分布BetaDistribution,beta
變量x僅能出現(xiàn)于0到1之間。
空氣中含有的氣體狀態(tài)的水分。表示這種水分的一種辦法就是相對濕度。即現(xiàn)在的含水量與空氣的最大含水量(飽和含水量)的比值。我們聽到的天氣預(yù)告用語中就經(jīng)常使用相對濕度這個名詞。
相對濕度的值顯然僅能出現(xiàn)于0到1之間(經(jīng)常用百分比表示)。冬季塔里木盆地的日最大相對濕度和夏季日最小相對濕度。證實它們都符合貝塔分布
dbeta(x, shape1, shape2, ncp = 0, log = FALSE)
pbeta(q, shape1, shape2, ncp = 0, lower.tail = TRUE, log.p =FALSE)
qbeta(p, shape1, shape2, ncp = 0, lower.tail = TRUE, log.p =FALSE)
rbeta(n, shape1, shape2, ncp = 0)
shape1,shape2是beta分布的兩個參數(shù)。E(x)=s1/(s1+s2),var(x)=s1*s2/(s1+s2)^2* (s1+s2+1)
12.t分布Student tDistribution,t
應(yīng)用在當對呈正態(tài)分布的母群體的均值進行估計。當母群體的標準差是未知的但卻又需要估計時,我們可以運用學(xué)生t 分布。
學(xué)生t 分布可簡稱為t分布。其推導(dǎo)由威廉·戈塞于1908年首先發(fā)表,當時他還在都柏林的健力士釀酒廠工作。因為不能以他本人的名義發(fā)表,所以論文使用了學(xué)生(Student)這一筆名。之后t檢驗以及相關(guān)理論經(jīng)由羅納德·費雪的工作發(fā)揚光大,而正是他將此分布稱為學(xué)生分布。
dt(x, df, ncp, log = FALSE)
pt(q, df, ncp, lower.tail = TRUE, log.p = FALSE)
qt(p, df, ncp, lower.tail = TRUE, log.p = FALSE)
rt(n, df, ncp)
其中df是自由度,ncp是non-centrality parameter delta,If omitted, use thecentral t distribution。ncp出現(xiàn)時表示分布由非標準的卡方分布構(gòu)成。
13.F分布
一個F-分布的隨機變量是兩個卡方分布變量的比率。F-分布被廣泛應(yīng)用于似然比率檢驗,特別是方差分析中
df(x, df1, df2, ncp, log = FALSE)
pf(q, df1, df2, ncp, lower.tail = TRUE, log.p = FALSE)
qf(p, df1, df2, ncp, lower.tail = TRUE, log.p = FALSE)
rf(n, df1, df2, ncp)
df1,df2是兩個自由度,ncp同t分布中的ncp。