国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
為什么正態(tài)分布在AI中如此重要?

普通概率分布有什么特別之處?為什么這么多數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)文章圍繞正態(tài)概率分布?


我決定寫一篇文章試圖以一種易于理解的方式解釋正態(tài)概率分布的概念。

機(jī)器學(xué)習(xí)的世界圍繞概率分布,概率分布的核心集中在正態(tài)分布上。本文說明了正態(tài)分布是什么以及為什么它被廣泛使用,特別是對于數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)專家。

我將從基礎(chǔ)知識中解釋一切,以便讀者理解為什么正態(tài)分布非常重要

文章結(jié)構(gòu)

本文將解釋:

概率分布是什么?
什么正態(tài)分布意味著什
哪些變量表現(xiàn)出正態(tài)分布?
如何在Python中檢查數(shù)據(jù)集的分布?
如何使變量在Python中正常分布?
正常問題

照片由TimJ在Unsplash上拍攝

首先是一點(diǎn)背景
首先,最重要的一點(diǎn)是正態(tài)分布也稱為高斯分布。
它以Carl Friedrich Gauss天才命名。

正態(tài)分布也稱為高斯分布。

最后,需要注意的一點(diǎn)是,簡單的預(yù)測模型通常是最常用的模型,因?yàn)樗鼈兛梢员唤忉尣⑶冶怀浞掷斫狻,F(xiàn)在補(bǔ)充一點(diǎn); 正態(tài)分布很簡單,因此它的簡單性使它非常受歡迎。

因此,值得了解正態(tài)概率分布是什么。

但首先,概率分布意味著什么?

讓我先解釋一下構(gòu)建適當(dāng)?shù)臉?gòu)建塊。

考慮我們可能有興趣在我們的數(shù)據(jù)科學(xué)項(xiàng)目中構(gòu)建的預(yù)測模型。

如果我們想要準(zhǔn)確地預(yù)測變量,那么我們需要執(zhí)行的第一項(xiàng)任務(wù)就是了解目標(biāo)變量的基本行為。

我們首先需要做的是確定目標(biāo)變量的可能結(jié)果,以及潛在結(jié)果是離散的(不同的值)還是連續(xù)的(無限值)。為簡單起見,如果我們估計(jì)骰子的行為,那么第一步是知道它可以取1到6的任何值(離散)。

然后,下一步是開始為事件(值)分配概率。因此,如果不能發(fā)生值,則為其分配概率為0%。

概率越高,事件發(fā)生的可能性越大。

攝影:Brett Jordan,來自Unsplash

作為一個(gè)例子,我們可以開始重復(fù)實(shí)驗(yàn)很多次并開始注意我們?yōu)樽兞繖z索的值。

現(xiàn)在我們可以做的是將值分組到類別/桶中。對于每個(gè)存儲桶,我們可以開始記錄變量具有存儲桶值的次數(shù)。例如,我們可以擲骰子10000次,因?yàn)轺蛔涌梢杂?個(gè)可能的值,我們可以創(chuàng)建6個(gè)桶。并開始記錄每個(gè)值的出現(xiàn)次數(shù)。

我們可以繪制圖表,它將形成一條曲線。該曲線稱為概率分布曲線,目標(biāo)變量獲得值的可能性是變量的概率分布。

一旦我們理解了值的分布情況,我們就可以開始估計(jì)事件的概率,即使是通過使用公式(稱為概率分布函數(shù))。因此,我們可以更好地了解其行為。概率分布取決于樣本的時(shí)刻,例如平均值,標(biāo)準(zhǔn)偏差,偏度和kertosis。

如果添加所有概率,則總計(jì)將達(dá)到100%。

存在大量概率分布,并且最廣泛使用的概率分布被稱為“正態(tài)分布”。


讓我們現(xiàn)在轉(zhuǎn)向正態(tài)概率分布

如果繪制概率分布并形成鐘形曲線并且樣本的均值,模式和中值相等,則變量具有正態(tài)分布。

這是正態(tài)分布鐘形曲線的示例:


理解和估計(jì)目標(biāo)變量的概率分布非常重要。

以下變量接近正態(tài)分布變量:

人口的高度
成年人的血壓
經(jīng)歷擴(kuò)散的粒子的位置
測量誤差
回歸中的殘差
鞋子大小的人口
員工到家的時(shí)間
大量的教育措施

此外,我們周圍有大量的變量是正常的,ax%置信度; x <100。

攝影:Mathew Schwartz在Unsplash上

什么是正態(tài)分布?

正態(tài)分布是僅依賴于數(shù)據(jù)集的兩個(gè)參數(shù)的分布:其平均值和樣本的標(biāo)準(zhǔn)偏差。

平均值 - 這是樣本中所有點(diǎn)的平均值。
標(biāo)準(zhǔn)偏差 - 表示數(shù)據(jù)集偏離樣本平均值的程度。

分布的這種特性使統(tǒng)計(jì)人員非常簡單,因此任何具有正態(tài)分布的變量都可以以更高的精度進(jìn)行預(yù)測。

現(xiàn)在,需要注意的是,一旦你發(fā)現(xiàn)大多數(shù)變量在自然界中的概率分布,那么它們都大致遵循正態(tài)分布。

正態(tài)分布很容易解釋。原因是:

分布的均值,模式和中位數(shù)相等。
我們只需要使用均值和標(biāo)準(zhǔn)差來解釋整個(gè)分布。

正態(tài)分布只是......我們熟悉的正常行為

但是,如此多的變量大致正態(tài)分布?它背后的邏輯是什么?

這個(gè)想法圍繞著這樣的定理:當(dāng)你在大量隨機(jī)變量上重復(fù)實(shí)驗(yàn)很多次時(shí),它們的分布總和將非常接近正態(tài)性。

由于人的身高是一個(gè)隨機(jī)變量,并且基于其他隨機(jī)變量,例如一個(gè)人消耗的營養(yǎng)量,他們所處的環(huán)境,他們的遺傳等等,這些變量的分布總和最終是非常接近正常。

這被稱為中心極限定理。


這將我們帶到了文章的核心:

我們從上面的部分可以理解,正態(tài)分布是許多隨機(jī)分布的總和。如果我們繪制正態(tài)分布密度函數(shù),它的曲線具有以下特征:

上面的鐘形曲線有100個(gè)均值和1個(gè)標(biāo)準(zhǔn)差

平均值是曲線的中心。這是曲線的最高點(diǎn),因?yàn)榇蠖鄶?shù)點(diǎn)都是平均值。
曲線的每一側(cè)有相同數(shù)量的點(diǎn)。曲線的中心具有最多的點(diǎn)數(shù)。
曲線下的總面積是變量可以采用的所有值的總概率。
因此總曲線面積為100%

所有點(diǎn)中約68.2%在-1至1標(biāo)準(zhǔn)偏差的范圍內(nèi)。
所有點(diǎn)中約95.5%在-2至2個(gè)標(biāo)準(zhǔn)偏差的范圍內(nèi)。
所有點(diǎn)中約99.7%在-3至3個(gè)標(biāo)準(zhǔn)偏差的范圍內(nèi)。

這使我們可以輕松估計(jì)變量的易變性,并給出置信水平,它的可能值是多少。

例如,在上面的灰色鐘形曲線中,變量值在66-99之間的可能性為68.2%。

想象一下,在使用該信息做出未來決策時(shí),您現(xiàn)在可以擁有的信心!


正態(tài)概率分布函數(shù)

正態(tài)分布的概率密度函數(shù)是:


概率密度函數(shù)基本上是連續(xù)隨機(jī)變量取值的概率。

 正態(tài)分布是鐘形曲線,其中mean = mode = median。

如果使用其計(jì)算的概率密度函數(shù)繪制概率分布曲線,則給定范圍的曲線下面積給出目標(biāo)變量在該范圍內(nèi)的概率。


該概率分布曲線基于概率分布函數(shù),該概率分布函數(shù)本身是根據(jù)諸如平均值或變量的標(biāo)準(zhǔn)偏差的多個(gè)參數(shù)計(jì)算的。


我們可以使用這個(gè)概率分布函數(shù)來找出隨機(jī)變量取一個(gè)范圍內(nèi)的值的相對概率。作為一個(gè)例子,我們可以記錄股票的每日回報(bào),將它們分組到適當(dāng)?shù)耐爸校缓笳业焦善痹谖磥慝@得20-40%收益的概率。

標(biāo)準(zhǔn)偏差越大,樣品中的揮發(fā)性越大。


如何在Python中查找功能分發(fā)?

我遵循的最簡單的方法是加載數(shù)據(jù)框中的所有功能,然后編寫此腳本:

使用Python Pandas libarary:

DataFrame.hist(bins = 10)#制作DataFrame的直方圖。

它向我們展示了所有變量的概率分布。


變量具有正態(tài)分布意味著什么?

現(xiàn)在更令人著迷的是,一旦你添加了大量具有不同分布的隨機(jī)變量,你的新變量將最終具有正態(tài)分布。這基本上稱為中心極限定理。

表現(xiàn)出正態(tài)分布的變量總是表現(xiàn)出正態(tài)分布。作為一個(gè)例子,如果A和B是兩個(gè)具有正態(tài)分布的變量,那么:

    A x B是正態(tài)分布的
    A + B通常是分布式的

結(jié)果,由于眾所周知的概率分布函數(shù),預(yù)測變量并在一定范圍內(nèi)找到它的概率非常簡單。


如果樣品分布不正常怎么辦?


您可以將要素的分布轉(zhuǎn)換為正態(tài)分布。

我使用了許多技術(shù)來使功能正常分布:


1.線性變換

一旦我們收集變量的樣本,我們就可以通過使用上面的公式線性轉(zhuǎn)換樣本來計(jì)算Z得分:

計(jì)算平均值
計(jì)算標(biāo)準(zhǔn)偏差
對于每個(gè)值x,使用以下方法計(jì)算Z:

2.使用Boxcox轉(zhuǎn)換

您可以使用SciPy Python包將數(shù)據(jù)轉(zhuǎn)換為正態(tài)分布:

scipy.stats.boxcox(x ,lmbda =無,alpha =無)

3.使用Y eo-Johnson轉(zhuǎn)換

另外,可以使用電力變壓器yeo-johnson。Python的sci-kit learn提供了相應(yīng)的功能:

sklearn.preprocessing.PowerTransformer(method ='yeo-johnson',standardize = True,copy = True)

注意,建議了解何時(shí)使用每個(gè)電源變壓器。對Box-Cox和Yeo Johnson等電力變壓器及其用例的解釋超出了本文的范圍。


常態(tài)問題


由于正態(tài)分布簡單且易于理解,因此它也在預(yù)測項(xiàng)目中過度使用。假設(shè)正常有其自身的缺陷。作為一個(gè)例子,我們不能假設(shè)股票價(jià)格遵循正態(tài)分布,因?yàn)閮r(jià)格不能為負(fù)。因此,股票價(jià)格可能跟隨正態(tài)分布的對數(shù),以確保它永遠(yuǎn)不會(huì)低于零。

我們知道回報(bào)可能是負(fù)數(shù),因此回報(bào)可以遵循正態(tài)分布。

假設(shè)變量遵循正態(tài)分布而不進(jìn)行任何分析是不明智的。

變量可以遵循Poisson,Student-t或Binomial分布作為實(shí)例,并錯(cuò)誤地假設(shè)變量遵循正態(tài)分布可能導(dǎo)致不準(zhǔn)確的結(jié)果。


總結(jié)

本文闡述了正態(tài)分布是什么以及為什么它如此重要,特別是對于數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)專家。

希望能幫助到你。

需要學(xué)習(xí)AI或者Python請加微信號:Aspencore6,將會(huì)定期邀請入群。


總結(jié)

本文闡述了正態(tài)分布是什么以及為什么它如此重要,特別是對于數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)專家。

希望能幫助到你。

需要學(xué)習(xí)AI或者Python請加微信號:Aspencore6,將會(huì)定期邀請入群。

來源:https://medium.com/fintechexplained/ever-wondered-why-normal-distribution-is-so-important-110a482abee3

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
Python學(xué)習(xí)教程:正態(tài)你還不會(huì)嗎?這期的Python教程你肯定能學(xué)會(huì)
淺談隨機(jī)振動(dòng)試驗(yàn)2 隨機(jī)振動(dòng)試驗(yàn)4個(gè)域描述1
如何使用Excel的NORMINV功能?
數(shù)學(xué)天才必學(xué)的12大概率分布
概率論和統(tǒng)計(jì)學(xué)中重要的分布函數(shù)
高中就開始學(xué)的正態(tài)分布,原來如此重要 | 機(jī)器之心
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服