清纯美女视频,赵丽颖靠逼视频

普通概率分布有什么特別之處？為什么這么多數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)文章圍繞正態(tài)概率分布？

我決定寫一篇文章試圖以一種易于理解的方式解釋正態(tài)概率分布的概念。

機(jī)器學(xué)習(xí)的世界圍繞概率分布，概率分布的核心集中在正態(tài)分布上。本文說明了正態(tài)分布是什么以及為什么它被廣泛使用，特別是對于數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)專家。

我將從基礎(chǔ)知識中解釋一切，以便讀者理解為什么正態(tài)分布非常重要

文章結(jié)構(gòu)

本文將解釋：

概率分布是什么？
什么正態(tài)分布意味著什
哪些變量表現(xiàn)出正態(tài)分布？
如何在Python中檢查數(shù)據(jù)集的分布？
如何使變量在Python中正常分布？
正常問題

照片由TimJ在Unsplash上拍攝

首先是一點(diǎn)背景
首先，最重要的一點(diǎn)是正態(tài)分布也稱為高斯分布。
它以Carl Friedrich Gauss天才命名。

正態(tài)分布也稱為高斯分布。

最后，需要注意的一點(diǎn)是，簡單的預(yù)測模型通常是最常用的模型，因?yàn)樗鼈兛梢员唤忉尣⑶冶怀浞掷斫狻，F(xiàn)在補(bǔ)充一點(diǎn); 正態(tài)分布很簡單，因此它的簡單性使它非常受歡迎。

因此，值得了解正態(tài)概率分布是什么。

但首先，概率分布意味著什么？

讓我先解釋一下構(gòu)建適當(dāng)?shù)臉?gòu)建塊。

考慮我們可能有興趣在我們的數(shù)據(jù)科學(xué)項(xiàng)目中構(gòu)建的預(yù)測模型。

如果我們想要準(zhǔn)確地預(yù)測變量，那么我們需要執(zhí)行的第一項(xiàng)任務(wù)就是了解目標(biāo)變量的基本行為。

我們首先需要做的是確定目標(biāo)變量的可能結(jié)果，以及潛在結(jié)果是離散的（不同的值）還是連續(xù)的（無限值）。為簡單起見，如果我們估計(jì)骰子的行為，那么第一步是知道它可以取1到6的任何值（離散）。

然后，下一步是開始為事件（值）分配概率。因此，如果不能發(fā)生值，則為其分配概率為0％。

概率越高，事件發(fā)生的可能性越大。

攝影：Brett Jordan，來自Unsplash

作為一個(gè)例子，我們可以開始重復(fù)實(shí)驗(yàn)很多次并開始注意我們?yōu)樽兞繖z索的值。

現(xiàn)在我們可以做的是將值分組到類別/桶中。對于每個(gè)存儲桶，我們可以開始記錄變量具有存儲桶值的次數(shù)。例如，我們可以擲骰子10000次，因?yàn)轺蛔涌梢杂?個(gè)可能的值，我們可以創(chuàng)建6個(gè)桶。并開始記錄每個(gè)值的出現(xiàn)次數(shù)。

我們可以繪制圖表，它將形成一條曲線。該曲線稱為概率分布曲線，目標(biāo)變量獲得值的可能性是變量的概率分布。

一旦我們理解了值的分布情況，我們就可以開始估計(jì)事件的概率，即使是通過使用公式（稱為概率分布函數(shù)）。因此，我們可以更好地了解其行為。概率分布取決于樣本的時(shí)刻，例如平均值，標(biāo)準(zhǔn)偏差，偏度和kertosis。

如果添加所有概率，則總計(jì)將達(dá)到100％。

存在大量概率分布，并且最廣泛使用的概率分布被稱為“正態(tài)分布”。

讓我們現(xiàn)在轉(zhuǎn)向正態(tài)概率分布

如果繪制概率分布并形成鐘形曲線并且樣本的均值，模式和中值相等，則變量具有正態(tài)分布。

這是正態(tài)分布鐘形曲線的示例：

理解和估計(jì)目標(biāo)變量的概率分布非常重要。

以下變量接近正態(tài)分布變量：

人口的高度
成年人的血壓
經(jīng)歷擴(kuò)散的粒子的位置
測量誤差
回歸中的殘差
鞋子大小的人口
員工到家的時(shí)間
大量的教育措施

此外，我們周圍有大量的變量是正常的，ax％置信度; x <100。

攝影：Mathew Schwartz在Unsplash上

什么是正態(tài)分布？

正態(tài)分布是僅依賴于數(shù)據(jù)集的兩個(gè)參數(shù)的分布：其平均值和樣本的標(biāo)準(zhǔn)偏差。

平均值 - 這是樣本中所有點(diǎn)的平均值。
標(biāo)準(zhǔn)偏差 - 表示數(shù)據(jù)集偏離樣本平均值的程度。

分布的這種特性使統(tǒng)計(jì)人員非常簡單，因此任何具有正態(tài)分布的變量都可以以更高的精度進(jìn)行預(yù)測。

現(xiàn)在，需要注意的是，一旦你發(fā)現(xiàn)大多數(shù)變量在自然界中的概率分布，那么它們都大致遵循正態(tài)分布。

正態(tài)分布很容易解釋。原因是：

分布的均值，模式和中位數(shù)相等。
我們只需要使用均值和標(biāo)準(zhǔn)差來解釋整個(gè)分布。

正態(tài)分布只是......我們熟悉的正常行為

但是，如此多的變量大致正態(tài)分布？它背后的邏輯是什么？

這個(gè)想法圍繞著這樣的定理：當(dāng)你在大量隨機(jī)變量上重復(fù)實(shí)驗(yàn)很多次時(shí)，它們的分布總和將非常接近正態(tài)性。

由于人的身高是一個(gè)隨機(jī)變量，并且基于其他隨機(jī)變量，例如一個(gè)人消耗的營養(yǎng)量，他們所處的環(huán)境，他們的遺傳等等，這些變量的分布總和最終是非常接近正常。

這被稱為中心極限定理。

這將我們帶到了文章的核心：

我們從上面的部分可以理解，正態(tài)分布是許多隨機(jī)分布的總和。如果我們繪制正態(tài)分布密度函數(shù)，它的曲線具有以下特征：

上面的鐘形曲線有100個(gè)均值和1個(gè)標(biāo)準(zhǔn)差

平均值是曲線的中心。這是曲線的最高點(diǎn)，因?yàn)榇蠖鄶?shù)點(diǎn)都是平均值。
曲線的每一側(cè)有相同數(shù)量的點(diǎn)。曲線的中心具有最多的點(diǎn)數(shù)。
曲線下的總面積是變量可以采用的所有值的總概率。
因此總曲線面積為100％

所有點(diǎn)中約68.2％在-1至1標(biāo)準(zhǔn)偏差的范圍內(nèi)。
所有點(diǎn)中約95.5％在-2至2個(gè)標(biāo)準(zhǔn)偏差的范圍內(nèi)。
所有點(diǎn)中約99.7％在-3至3個(gè)標(biāo)準(zhǔn)偏差的范圍內(nèi)。

這使我們可以輕松估計(jì)變量的易變性，并給出置信水平，它的可能值是多少。

例如，在上面的灰色鐘形曲線中，變量值在66-99之間的可能性為68.2％。

想象一下，在使用該信息做出未來決策時(shí)，您現(xiàn)在可以擁有的信心！

正態(tài)概率分布函數(shù)

正態(tài)分布的概率密度函數(shù)是：

概率密度函數(shù)基本上是連續(xù)隨機(jī)變量取值的概率。

正態(tài)分布是鐘形曲線，其中mean = mode = median。

如果使用其計(jì)算的概率密度函數(shù)繪制概率分布曲線，則給定范圍的曲線下面積給出目標(biāo)變量在該范圍內(nèi)的概率。

該概率分布曲線基于概率分布函數(shù)，該概率分布函數(shù)本身是根據(jù)諸如平均值或變量的標(biāo)準(zhǔn)偏差的多個(gè)參數(shù)計(jì)算的。

我們可以使用這個(gè)概率分布函數(shù)來找出隨機(jī)變量取一個(gè)范圍內(nèi)的值的相對概率。作為一個(gè)例子，我們可以記錄股票的每日回報(bào)，將它們分組到適當(dāng)?shù)耐爸校缓笳业焦善痹谖磥慝@得20-40％收益的概率。

標(biāo)準(zhǔn)偏差越大，樣品中的揮發(fā)性越大。

如何在Python中查找功能分發(fā)？

我遵循的最簡單的方法是加載數(shù)據(jù)框中的所有功能，然后編寫此腳本：

使用Python Pandas libarary：

DataFrame.hist（bins = 10）＃制作DataFrame的直方圖。

它向我們展示了所有變量的概率分布。

變量具有正態(tài)分布意味著什么？

現(xiàn)在更令人著迷的是，一旦你添加了大量具有不同分布的隨機(jī)變量，你的新變量將最終具有正態(tài)分布。這基本上稱為中心極限定理。

表現(xiàn)出正態(tài)分布的變量總是表現(xiàn)出正態(tài)分布。作為一個(gè)例子，如果A和B是兩個(gè)具有正態(tài)分布的變量，那么：

A x B是正態(tài)分布的
A + B通常是分布式的

結(jié)果，由于眾所周知的概率分布函數(shù)，預(yù)測變量并在一定范圍內(nèi)找到它的概率非常簡單。

如果樣品分布不正常怎么辦？

您可以將要素的分布轉(zhuǎn)換為正態(tài)分布。

我使用了許多技術(shù)來使功能正常分布：

1.線性變換

一旦我們收集變量的樣本，我們就可以通過使用上面的公式線性轉(zhuǎn)換樣本來計(jì)算Z得分：

計(jì)算平均值
計(jì)算標(biāo)準(zhǔn)偏差
對于每個(gè)值x，使用以下方法計(jì)算Z：

2.使用Boxcox轉(zhuǎn)換

您可以使用SciPy Python包將數(shù)據(jù)轉(zhuǎn)換為正態(tài)分布：

scipy.stats.boxcox（x ，lmbda =無，alpha =無）

3.使用Y eo-Johnson轉(zhuǎn)換

另外，可以使用電力變壓器yeo-johnson。Python的sci-kit learn提供了相應(yīng)的功能：

sklearn.preprocessing.PowerTransformer（method ='yeo-johnson'，standardize = True，copy = True）

注意，建議了解何時(shí)使用每個(gè)電源變壓器。對Box-Cox和Yeo Johnson等電力變壓器及其用例的解釋超出了本文的范圍。

常態(tài)問題

由于正態(tài)分布簡單且易于理解，因此它也在預(yù)測項(xiàng)目中過度使用。假設(shè)正常有其自身的缺陷。作為一個(gè)例子，我們不能假設(shè)股票價(jià)格遵循正態(tài)分布，因?yàn)閮r(jià)格不能為負(fù)。因此，股票價(jià)格可能跟隨正態(tài)分布的對數(shù)，以確保它永遠(yuǎn)不會(huì)低于零。

我們知道回報(bào)可能是負(fù)數(shù)，因此回報(bào)可以遵循正態(tài)分布。

假設(shè)變量遵循正態(tài)分布而不進(jìn)行任何分析是不明智的。

變量可以遵循Poisson，Student-t或Binomial分布作為實(shí)例，并錯(cuò)誤地假設(shè)變量遵循正態(tài)分布可能導(dǎo)致不準(zhǔn)確的結(jié)果。

總結(jié)

本文闡述了正態(tài)分布是什么以及為什么它如此重要，特別是對于數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)專家。

希望能幫助到你。

需要學(xué)習(xí)AI或者Python請加微信號：Aspencore6，將會(huì)定期邀請入群。

總結(jié)

本文闡述了正態(tài)分布是什么以及為什么它如此重要，特別是對于數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)專家。

希望能幫助到你。

需要學(xué)習(xí)AI或者Python請加微信號：Aspencore6，將會(huì)定期邀請入群。

來源：https://medium.com/fintechexplained/ever-wondered-why-normal-distribution-is-so-important-110a482abee3

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看