普通概率分布有什么特別之處?為什么這么多數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)文章圍繞正態(tài)概率分布?
我決定寫一篇文章試圖以一種易于理解的方式解釋正態(tài)概率分布的概念。
機(jī)器學(xué)習(xí)的世界圍繞概率分布,概率分布的核心集中在正態(tài)分布上。本文說明了正態(tài)分布是什么以及為什么它被廣泛使用,特別是對于數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)專家。
我將從基礎(chǔ)知識中解釋一切,以便讀者理解為什么正態(tài)分布非常重要
文章結(jié)構(gòu)
本文將解釋:
概率分布是什么?
什么正態(tài)分布意味著什
哪些變量表現(xiàn)出正態(tài)分布?
如何在Python中檢查數(shù)據(jù)集的分布?
如何使變量在Python中正常分布?
正常問題
照片由TimJ在Unsplash上拍攝
首先是一點(diǎn)背景
首先,最重要的一點(diǎn)是正態(tài)分布也稱為高斯分布。
它以Carl Friedrich Gauss天才命名。
正態(tài)分布也稱為高斯分布。
最后,需要注意的一點(diǎn)是,簡單的預(yù)測模型通常是最常用的模型,因?yàn)樗鼈兛梢员唤忉尣⑶冶怀浞掷斫狻,F(xiàn)在補(bǔ)充一點(diǎn); 正態(tài)分布很簡單,因此它的簡單性使它非常受歡迎。
因此,值得了解正態(tài)概率分布是什么。
但首先,概率分布意味著什么?
讓我先解釋一下構(gòu)建適當(dāng)?shù)臉?gòu)建塊。
考慮我們可能有興趣在我們的數(shù)據(jù)科學(xué)項(xiàng)目中構(gòu)建的預(yù)測模型。
如果我們想要準(zhǔn)確地預(yù)測變量,那么我們需要執(zhí)行的第一項(xiàng)任務(wù)就是了解目標(biāo)變量的基本行為。
我們首先需要做的是確定目標(biāo)變量的可能結(jié)果,以及潛在結(jié)果是離散的(不同的值)還是連續(xù)的(無限值)。為簡單起見,如果我們估計(jì)骰子的行為,那么第一步是知道它可以取1到6的任何值(離散)。
然后,下一步是開始為事件(值)分配概率。因此,如果不能發(fā)生值,則為其分配概率為0%。
概率越高,事件發(fā)生的可能性越大。
攝影:Brett Jordan,來自Unsplash
作為一個(gè)例子,我們可以開始重復(fù)實(shí)驗(yàn)很多次并開始注意我們?yōu)樽兞繖z索的值。
現(xiàn)在我們可以做的是將值分組到類別/桶中。對于每個(gè)存儲桶,我們可以開始記錄變量具有存儲桶值的次數(shù)。例如,我們可以擲骰子10000次,因?yàn)轺蛔涌梢杂?個(gè)可能的值,我們可以創(chuàng)建6個(gè)桶。并開始記錄每個(gè)值的出現(xiàn)次數(shù)。
我們可以繪制圖表,它將形成一條曲線。該曲線稱為概率分布曲線,目標(biāo)變量獲得值的可能性是變量的概率分布。
一旦我們理解了值的分布情況,我們就可以開始估計(jì)事件的概率,即使是通過使用公式(稱為概率分布函數(shù))。因此,我們可以更好地了解其行為。概率分布取決于樣本的時(shí)刻,例如平均值,標(biāo)準(zhǔn)偏差,偏度和kertosis。
如果添加所有概率,則總計(jì)將達(dá)到100%。
存在大量概率分布,并且最廣泛使用的概率分布被稱為“正態(tài)分布”。
讓我們現(xiàn)在轉(zhuǎn)向正態(tài)概率分布
如果繪制概率分布并形成鐘形曲線并且樣本的均值,模式和中值相等,則變量具有正態(tài)分布。
這是正態(tài)分布鐘形曲線的示例:
理解和估計(jì)目標(biāo)變量的概率分布非常重要。
以下變量接近正態(tài)分布變量:
人口的高度
成年人的血壓
經(jīng)歷擴(kuò)散的粒子的位置
測量誤差
回歸中的殘差
鞋子大小的人口
員工到家的時(shí)間
大量的教育措施
此外,我們周圍有大量的變量是正常的,ax%置信度; x <100。
攝影:Mathew Schwartz在Unsplash上
什么是正態(tài)分布?
正態(tài)分布是僅依賴于數(shù)據(jù)集的兩個(gè)參數(shù)的分布:其平均值和樣本的標(biāo)準(zhǔn)偏差。
平均值 - 這是樣本中所有點(diǎn)的平均值。
標(biāo)準(zhǔn)偏差 - 表示數(shù)據(jù)集偏離樣本平均值的程度。
分布的這種特性使統(tǒng)計(jì)人員非常簡單,因此任何具有正態(tài)分布的變量都可以以更高的精度進(jìn)行預(yù)測。
現(xiàn)在,需要注意的是,一旦你發(fā)現(xiàn)大多數(shù)變量在自然界中的概率分布,那么它們都大致遵循正態(tài)分布。
正態(tài)分布很容易解釋。原因是:
分布的均值,模式和中位數(shù)相等。
我們只需要使用均值和標(biāo)準(zhǔn)差來解釋整個(gè)分布。
正態(tài)分布只是......我們熟悉的正常行為
但是,如此多的變量大致正態(tài)分布?它背后的邏輯是什么?
這個(gè)想法圍繞著這樣的定理:當(dāng)你在大量隨機(jī)變量上重復(fù)實(shí)驗(yàn)很多次時(shí),它們的分布總和將非常接近正態(tài)性。
由于人的身高是一個(gè)隨機(jī)變量,并且基于其他隨機(jī)變量,例如一個(gè)人消耗的營養(yǎng)量,他們所處的環(huán)境,他們的遺傳等等,這些變量的分布總和最終是非常接近正常。
這被稱為中心極限定理。
這將我們帶到了文章的核心:
我們從上面的部分可以理解,正態(tài)分布是許多隨機(jī)分布的總和。如果我們繪制正態(tài)分布密度函數(shù),它的曲線具有以下特征:
上面的鐘形曲線有100個(gè)均值和1個(gè)標(biāo)準(zhǔn)差
平均值是曲線的中心。這是曲線的最高點(diǎn),因?yàn)榇蠖鄶?shù)點(diǎn)都是平均值。
曲線的每一側(cè)有相同數(shù)量的點(diǎn)。曲線的中心具有最多的點(diǎn)數(shù)。
曲線下的總面積是變量可以采用的所有值的總概率。
因此總曲線面積為100%
所有點(diǎn)中約68.2%在-1至1標(biāo)準(zhǔn)偏差的范圍內(nèi)。
所有點(diǎn)中約95.5%在-2至2個(gè)標(biāo)準(zhǔn)偏差的范圍內(nèi)。
所有點(diǎn)中約99.7%在-3至3個(gè)標(biāo)準(zhǔn)偏差的范圍內(nèi)。
這使我們可以輕松估計(jì)變量的易變性,并給出置信水平,它的可能值是多少。
例如,在上面的灰色鐘形曲線中,變量值在66-99之間的可能性為68.2%。
想象一下,在使用該信息做出未來決策時(shí),您現(xiàn)在可以擁有的信心!
正態(tài)概率分布函數(shù)
正態(tài)分布的概率密度函數(shù)是:
概率密度函數(shù)基本上是連續(xù)隨機(jī)變量取值的概率。
正態(tài)分布是鐘形曲線,其中mean = mode = median。
如果使用其計(jì)算的概率密度函數(shù)繪制概率分布曲線,則給定范圍的曲線下面積給出目標(biāo)變量在該范圍內(nèi)的概率。
該概率分布曲線基于概率分布函數(shù),該概率分布函數(shù)本身是根據(jù)諸如平均值或變量的標(biāo)準(zhǔn)偏差的多個(gè)參數(shù)計(jì)算的。
我們可以使用這個(gè)概率分布函數(shù)來找出隨機(jī)變量取一個(gè)范圍內(nèi)的值的相對概率。作為一個(gè)例子,我們可以記錄股票的每日回報(bào),將它們分組到適當(dāng)?shù)耐爸校缓笳业焦善痹谖磥慝@得20-40%收益的概率。
標(biāo)準(zhǔn)偏差越大,樣品中的揮發(fā)性越大。
如何在Python中查找功能分發(fā)?
我遵循的最簡單的方法是加載數(shù)據(jù)框中的所有功能,然后編寫此腳本:
使用Python Pandas libarary:
DataFrame.hist(bins = 10)#制作DataFrame的直方圖。
它向我們展示了所有變量的概率分布。
變量具有正態(tài)分布意味著什么?
現(xiàn)在更令人著迷的是,一旦你添加了大量具有不同分布的隨機(jī)變量,你的新變量將最終具有正態(tài)分布。這基本上稱為中心極限定理。
表現(xiàn)出正態(tài)分布的變量總是表現(xiàn)出正態(tài)分布。作為一個(gè)例子,如果A和B是兩個(gè)具有正態(tài)分布的變量,那么:
A x B是正態(tài)分布的
A + B通常是分布式的
結(jié)果,由于眾所周知的概率分布函數(shù),預(yù)測變量并在一定范圍內(nèi)找到它的概率非常簡單。
如果樣品分布不正常怎么辦?
您可以將要素的分布轉(zhuǎn)換為正態(tài)分布。
我使用了許多技術(shù)來使功能正常分布:
1.線性變換
一旦我們收集變量的樣本,我們就可以通過使用上面的公式線性轉(zhuǎn)換樣本來計(jì)算Z得分:
計(jì)算平均值
計(jì)算標(biāo)準(zhǔn)偏差
對于每個(gè)值x,使用以下方法計(jì)算Z:
2.使用Boxcox轉(zhuǎn)換
您可以使用SciPy Python包將數(shù)據(jù)轉(zhuǎn)換為正態(tài)分布:
scipy.stats.boxcox(x ,lmbda =無,alpha =無)
3.使用Y eo-Johnson轉(zhuǎn)換
另外,可以使用電力變壓器yeo-johnson。Python的sci-kit learn提供了相應(yīng)的功能:
sklearn.preprocessing.PowerTransformer(method ='yeo-johnson',standardize = True,copy = True)
注意,建議了解何時(shí)使用每個(gè)電源變壓器。對Box-Cox和Yeo Johnson等電力變壓器及其用例的解釋超出了本文的范圍。
常態(tài)問題
由于正態(tài)分布簡單且易于理解,因此它也在預(yù)測項(xiàng)目中過度使用。假設(shè)正常有其自身的缺陷。作為一個(gè)例子,我們不能假設(shè)股票價(jià)格遵循正態(tài)分布,因?yàn)閮r(jià)格不能為負(fù)。因此,股票價(jià)格可能跟隨正態(tài)分布的對數(shù),以確保它永遠(yuǎn)不會(huì)低于零。
我們知道回報(bào)可能是負(fù)數(shù),因此回報(bào)可以遵循正態(tài)分布。
假設(shè)變量遵循正態(tài)分布而不進(jìn)行任何分析是不明智的。
變量可以遵循Poisson,Student-t或Binomial分布作為實(shí)例,并錯(cuò)誤地假設(shè)變量遵循正態(tài)分布可能導(dǎo)致不準(zhǔn)確的結(jié)果。
總結(jié)
本文闡述了正態(tài)分布是什么以及為什么它如此重要,特別是對于數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)專家。
希望能幫助到你。
需要學(xué)習(xí)AI或者Python請加微信號:Aspencore6,將會(huì)定期邀請入群。
總結(jié)
本文闡述了正態(tài)分布是什么以及為什么它如此重要,特別是對于數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)專家。
希望能幫助到你。
需要學(xué)習(xí)AI或者Python請加微信號:Aspencore6,將會(huì)定期邀請入群。
來源:https://medium.com/fintechexplained/ever-wondered-why-normal-distribution-is-so-important-110a482abee3