Poisson distribution,翻譯成中文名為泊松分布、普阿松分布、帕松分布、布瓦松分布、布阿松分布、波以松分布、卜氏分配等,是概率與統(tǒng)計學(xué)中一種常見的離散概率分布,常用來描述單位時間內(nèi)隨機時間發(fā)生次數(shù)的概率分布。
若隨機變量服從參數(shù)為的泊松分布,則可以記為,或者。其中,參數(shù)是單位時間內(nèi)隨機事件 發(fā)生的平均概率。
博主當(dāng)年上大學(xué)的時候,因為學(xué)習(xí)不是很認(rèn)真,一直沒用弄明白泊松分布這分布還有那分布到底是個什么鬼。這里咱們先給出一個結(jié)論:泊松分布是二項分布的極限情況。具體推導(dǎo)過程,且看下面咱們的解釋。
先看看咱們最熟悉的二項分布。說到二項分布,自然就以拋硬幣為例。假設(shè)我們拋4次硬幣,表示有次硬幣正面朝上,二項分布的概率為:
,,
,
上面的計算也很簡單,無需過多解釋。不過需要提及的一點是,二項分布中的隨機變量是離散變量,如果是連續(xù)變量呢?就該輪到我們的泊松分布登場了。
舉一個泊松分布中常用的例子。假設(shè)我們現(xiàn)在要估計某個路口一小時經(jīng)過輛車的概率。那么第一步,肯定是先大量觀察一段時間,獲取一小時的時間內(nèi)通過的汽車數(shù)量的期望。例如連續(xù)三天的14:00-17:00都在路口觀察,得到最終的期望值。然后我們把每小時分為60min。同時,還假設(shè)每分鐘的時間間隔內(nèi),要么經(jīng)過一輛車,要么沒有車。根據(jù)咱們上面的二項分布,很容易得出以下概率:
很明顯,實際情況中,并不是真的每分鐘只有一輛車經(jīng)過,大路口每分鐘有很多車經(jīng)過是很正常的現(xiàn)象。那說明之前的假設(shè)不成立,怎么辦呢?學(xué)過微積分的同學(xué)們都知道,很簡單,繼續(xù)分嘛。一分鐘的精度如果不夠,咱們分成半分鐘;半分鐘的精度如果還不夠,分成一秒鐘…..如果這么一直下去取極限,我們就得到了泊松分布,其實也就是二項分布的極限情況!
寫到這里為止,先將泊松分布的表達(dá)式給出:
其中是單位時間內(nèi)隨機事件的平均發(fā)生率。
在二項分布的伯努利試驗中,如果試驗次數(shù)n很大,二項分布的概率p很小,且乘積λ= np比較適中,則事件出現(xiàn)的次數(shù)的概率可以用泊松分布來逼近。事實上,二項分布可以看作泊松分布在離散時間上的對應(yīng)物。
證明:
首先回顧的定義:
如果令,有:
看完上述推導(dǎo)過程以后,想必對泊松分布是二項分布的極限情況這個概念應(yīng)該有更深入的了解。
如果某個小商店,平均每周賣出兩個水果罐頭。問:該小商店水果罐頭的最佳庫存為多少?
假定水果罐頭的銷量不存在季節(jié)性因素,可以近似認(rèn)為滿足下列條件:
1.顧客購買水果罐頭是小概率事件。
2.顧客購買水果罐頭是獨立事件。
3.顧客購買水果罐頭的概率是平穩(wěn)的,不會發(fā)生突變。
在統(tǒng)計學(xué)上,只要某類事件滿足以上三個條件,就可以認(rèn)為它服從’泊松分布’。
根據(jù)前面泊松分布的公式:
有泊松分布的公式,可以計算得出每周銷售的分布:
從上表可見,如果存貨4個罐頭,95%的概率不會缺貨(平均每19周發(fā)生一次);如果存貨5個罐頭,98%的概率不會缺貨(平均59周發(fā)生一次)。
注:罐頭的例子來自網(wǎng)絡(luò)。找不到原始的出處了,所以沒有給相應(yīng)的來源信息。
伽馬分布是概率統(tǒng)計的萬人迷,到處都可以見到他的身影。咱們先看看伽馬函數(shù)的定義:
這就顯示除了伽馬函數(shù)與階乘之間的聯(lián)系。很明顯可以看出,伽馬函數(shù)將的計算擴展到了實數(shù)域與復(fù)數(shù)域。
將上面的伽馬函數(shù)做個簡單處理,可以得到:
取上式中的函數(shù)作為概率密度,可以得到一個最簡單的Gamma分布的密度函數(shù):
對比一下我們之前的泊松分布:
在Gamma分布中,如果令,可以發(fā)現(xiàn)Gamma分布于泊松分布是完全一致的!
所以,泊松分布于Gamma分布的區(qū)別在于,泊松分布是離散的,而Gamma分布是連續(xù)的,最直觀的解釋就是Gamma分布是泊松分布在正實數(shù)集上的連續(xù)化!