国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
正態(tài)分布的前世今生

神說,要有正態(tài)分布,就有了正態(tài)分布。
神看正態(tài)分布是好的,就讓隨機誤差就服從了正態(tài)分布。

創(chuàng)世紀-數(shù)理統(tǒng)計

一、正態(tài)分布

學過基礎(chǔ)統(tǒng)計學的同學大都對正態(tài)分布非常熟悉。這個鐘型的分布曲線不但形狀優(yōu)雅,其密度函數(shù)寫成數(shù)學表達式


也非常具有數(shù)學的美感。其標準化后的概率密度函數(shù)

更加的簡潔漂亮,兩個最重要的數(shù)學常量 \pi, e都出現(xiàn)在了公式之中。在我個人的審美之中,它也屬于 top-N 的最美麗的數(shù)學公式之一,如果有人問我數(shù)理統(tǒng)計領(lǐng)域哪個公式最能讓人感覺到上帝的存在,那我一定投正態(tài)分布的票。因為這個分布戴著神秘的面紗,在自然界中無處不在,讓你在紛繁蕪雜的數(shù)據(jù)背后看到隱隱的秩序。

正態(tài)分布又通常被稱為高斯分布,在科學領(lǐng)域,冠名權(quán)那是一個很高
的榮譽。去過德國的兄弟們還會發(fā)現(xiàn),德國的鋼镚和10馬克的紙幣上都留有高斯的頭像和正態(tài)密度曲線。正態(tài)分布被冠名高斯分布,我們也容易認為是高斯發(fā)現(xiàn)了正態(tài)分布,其實不然,不過高斯對于正態(tài)分布的歷史地位的確立是起到了決定性的作用。

正態(tài)曲線雖然看上去很美,卻不是一拍腦袋就能想到的。我在本科學習數(shù)理統(tǒng)計的時候,課本一上來介紹正態(tài)分布就給出密度分布函數(shù),卻從來不說明這個分布函數(shù)是通過什么原理推導出來的。所以我一直搞不明白數(shù)學家當年是怎么找到這個概率分布曲線的,又是怎么發(fā)現(xiàn)誤差服從這個奇妙的分布的。直到我讀研究生的時候我的導師給我介紹了陳希儒的《數(shù)理統(tǒng)計簡史》這本書,看了之后才了解了正態(tài)分布曲線從發(fā)現(xiàn)到被人們重視進而廣泛應(yīng)用,也是經(jīng)過了幾百年的歷史。

正態(tài)分布的這段歷史是很精彩的,我們通過講幾個故事來揭開她的神秘面紗。

二、邂逅,正態(tài)曲線的首次發(fā)現(xiàn)
第一個故事和概率論的發(fā)展密切相關(guān),主角是棣莫弗(De Moivre) 和拉普拉斯(Laplace)。

拉普拉斯是個大科學家,被稱為法國的牛頓;棣莫弗名氣可能不算很大,不過大家應(yīng)該都熟悉這個名字,因為我們在高中數(shù)學學復數(shù)的時候我們都學過棣莫弗定理(cos\theta + i sin\theta)^n = cos(n\theta) + i sin(n\theta)

古典概率論發(fā)源于賭博,惠更斯、帕斯卡、費馬、貝努力都是古典概率的奠基人,他們那會研究的概率問題大都來自賭桌上,最早的概率論問題是賭徒梅累在1654年向帕斯卡提出的如何分賭金的問題。統(tǒng)計學中的總體均值之所以被稱為期望(Expectation), 就是源自惠更斯、帕斯卡這些人研究平均情況下一個賭徒在賭桌上可以期望自己贏得多少錢。

有一天一個哥們,也許是個賭徒,向棣莫弗提了一個和賭博相關(guān)
的一個問題:A,B 兩人在賭場里賭博,A,B各自的獲勝概率是p, q=1-p,賭 n 局,若 A 贏的局數(shù) X > np, 則 A 付給賭場 X-np元,否則B 付給賭場 np-X元。 問賭場掙錢的期望值是多少。

問題并不復雜, 本質(zhì)上是一個二項分布,最后求出的理論結(jié)果是


其中 b(n,p,i) = \binom{n}{i}p^iq^{n-i}是常見的二項概率。 但是對具體的 n, 要把這個理論結(jié)果實際計算出數(shù)值結(jié)果可不容易, 因為其中的二項公式中有組合數(shù).這就驅(qū)動 De Moivre尋找近似計算的方法計算。

與此相關(guān)聯(lián)的另一個問題,是遵從二項分布的隨機變量 X \sim B(n,p), 求X 落在二項分布中心點一定范圍的概率 P_d = P(|X - np| \le d)

對于 p=1/2 的情形, 棣莫弗 做了一些計算并得到了一些近似結(jié)果,但是還不夠漂亮,幸運的是 棣莫弗 和 Stirling 處在同一個時代, 而且二人之間有聯(lián)系,Stirling 公式是在數(shù)學分析中必學的一個重要公式

1733 年,棣莫弗很快利用 Stirling 公式計算取得了重要的進展??紤] n 是偶數(shù)的情形,令二項概率


通過 Stirling 公式做一些簡單的計算容易得到,


于是有

使用上式的結(jié)果,并在二項概率累加求和的過程中近似的使用定積分代替求和,很容易就能得到

看,正態(tài)分布的密度函數(shù)的形式在積分公式中出現(xiàn)了!這也就是我們在數(shù)理統(tǒng)計課本上學到的二項分布的極限分布是正態(tài)分布。

以上只是討論了 p=1/2的情形, 棣莫弗也對 p \ne 1/2做了一些計算,后來拉普拉斯對 p \ne 1/2的情況做了更多的分析,并把二項分布的正態(tài)近似推廣到了任意 p的情況。 這是第一次正態(tài)密度函數(shù)被數(shù)學家勾畫出來,而且是以二項分布的極限分布的情形被推導出來的。 熟悉基礎(chǔ)概率統(tǒng)計的同學們都知道這個結(jié)果其實叫棣莫弗-拉普拉斯中心極限定理。

[De Moivre-Laplace 中心極限定理]
設(shè)隨機變量 X_n (n=1,2,\cdots)服從參數(shù)為 p的二項分布,則對任意的 x, 恒有

我在大學學習數(shù)理統(tǒng)計的時候,學習的過程都是先學習了正態(tài)分布,然后才學習中心極限定理。而學習到正態(tài)分布的時候,直接就描述了其概率密度的數(shù)學形式,雖然數(shù)學上很漂亮,但是當時很困惑數(shù)學家們是如何憑空就找到這個分布的。然而讀了陳希孺的《數(shù)理統(tǒng)計學簡史》之后,才發(fā)現(xiàn)正態(tài)分布的密度形式首次發(fā)現(xiàn)是在棣莫弗-拉普拉斯的中心極限定理中。數(shù)學家研究數(shù)學問題的進程很少是按照我們數(shù)學課本的安排順序推進的,現(xiàn)代的數(shù)學課本都是按照數(shù)學內(nèi)在的邏輯進行組織編排的,雖然邏輯結(jié)構(gòu)上嚴謹優(yōu)美,卻把數(shù)學問題研究的歷史痕跡抹得一干二凈,我們難以在數(shù)學課本上看到數(shù)學家對數(shù)學問題是如何研究推進的。DNA 雙螺旋結(jié)構(gòu)的發(fā)現(xiàn)者之一 Waston 在他的名著《DNA 雙螺旋》序言中說:“科學的發(fā)現(xiàn)很少會像門外漢所想象的一樣,按照直接了當合乎邏輯的方式進行的?!?/p>

棣莫弗 出他的發(fā)現(xiàn)后40年(大約是 1770), 拉普拉斯建立了中心極限定理較一般的形式,中心極限定理后續(xù)又被其它數(shù)學家們推廣到了其它任意分布的情形,而不限于二項分布。后續(xù)的統(tǒng)計學家發(fā)現(xiàn),一系列的重要統(tǒng)計量,在樣本量 N 趨于無窮的時候, 其極限分布都有正態(tài)的形式, 這構(gòu)成了數(shù)理統(tǒng)計學中大樣本理論的基礎(chǔ)。

棣莫弗在二項分布的計算中瞥見了正態(tài)曲線的模樣,不過他并沒有能展現(xiàn)這個曲線的美妙之處。棣莫弗的這個工作當時并沒有引起人們足夠的重視,原因在于棣莫弗 不是個統(tǒng)計學家,從未從統(tǒng)計學的角度去考慮其工作的意義。 正態(tài)分布(當時也沒有被命名為正態(tài)分布) 在當時也只是以極限分布的形式出現(xiàn),并沒有在統(tǒng)計學,尤其是誤差分析中發(fā)揮作用。這也就是正態(tài)分布最終沒有被冠名 棣莫弗分布的重要原因。 那Gauss 做了啥工作導致統(tǒng)計學家把正態(tài)分布的這頂桂冠戴在了他的頭上呢?這先得從最小二乘法的發(fā)展說起。下回分解:-)


三、最小二乘法,數(shù)據(jù)分析的瑞士軍刀

第二個故事的主角是歐拉(Euler), 拉普拉斯(Lapalace),勒讓德Legendre) 和高斯(Gauss),故事發(fā)生的時間是十八世紀中到十九世紀初。十七、十八世紀是科學發(fā)展的黃金年代,微積分的發(fā)展和牛頓萬有引力定律的建立,直接的推動了天文學和測地學的迅猛發(fā)展。當時的大科學家們都在考慮許多天文學上的問題。幾個典型的問題如下:

  • 土星和木星是太陽系中的大行星,由于相互吸引對各自的運動軌道產(chǎn)生了影響,許多大數(shù)學家,包括歐拉和拉普拉斯都在基于長期積累的天文觀測數(shù)據(jù)計算土星和木星的運行軌道。
  • 勒讓德承擔了一個政府給的重要任務(wù),測量通過巴黎的子午線的長度,
  • 海上航行經(jīng)緯度的定位。主要是通過對恒星和月面上的一些定點的觀測來確定經(jīng)緯度。

這些天文學和測地學的問題,無不涉及到數(shù)據(jù)的多次測量,數(shù)據(jù)的計算與分析;十七、十八世紀的天文觀測,也積累了大量的數(shù)據(jù)需要進行分析和計算。很多年以前,學者們就已經(jīng)經(jīng)驗性的認為,對于有誤差的測量數(shù)據(jù),多次測量取平均是比較好的處理方法,雖然缺乏理論上的論證,也不斷的受到一些人的質(zhì)疑。取平均作為一種異常直觀的方式,已經(jīng)被使用了千百年,在多年積累的數(shù)據(jù)的處理經(jīng)驗中也得到一定的驗證,被認為是一種良好的數(shù)據(jù)處理方法。

以上涉及的問題,我們直接關(guān)心的目標量往往無法直接觀測,但是一些相關(guān)的量是可以觀測到的,而通過建立數(shù)學模型,最終可以解出我們關(guān)心的量。這些天文學的問題大體都可以轉(zhuǎn)換為描述如下的問題:有我們想估計的量 \beta_0,\cdots,\beta_p, 另有若干個可以測量的量 x_1,\cdots,x_p, y, 這些量之間有線性關(guān)系

如何通過多組觀測數(shù)據(jù)求解出參數(shù)\beta_0,\cdots,\beta_p呢? 歐拉和拉普拉斯采用的都是求解線性方程組的方法。

\begin{eqnarray}\left\{\begin{array}{lll}y_1 = \beta_0 + \beta_1x_{11} + \cdots + \beta_px_{p1} \\y_2 = \beta_0 + \beta_1x_{12} + \cdots + \beta_px_{p2} \\\vdots \\y_n = \beta_0 + \beta_1x_{1n} + \cdots + \beta_px_{pn}\end{array}\right.\end{eqnarray}

但是面臨的一個問題是,有 n組觀測數(shù)據(jù),p + 1個變量, 如果 n > p + 1, 則得到的線性矛盾方程組,無法直接求解。 所以歐拉和拉普拉斯采用的方法都是通過一定的對數(shù)據(jù)的觀察,把n個線性方程分為 p+1組,然后把每個組內(nèi)的方程線性求和后歸并為一個方程,從而就把n個方程的方程組劃歸為p+1個方程的方程組,進一步解方程求解參數(shù)。這些方法初看有一些道理,但是都過于 adhoc, 無法形成統(tǒng)一處理這一類問題的一個通用解決框架。

以上求解線性矛盾方程的問題在現(xiàn)在的本科生看來都不困難,就是統(tǒng)計學中的線性回歸問題,直接用最小二乘法就解決了,可是即便如歐拉、拉普拉斯這些數(shù)學大牛,當時也未能對這些問題提出有效的解決方案??梢娫诳茖W研究中,要想在觀念上有所突破并不容易。有效的最小二乘法是勒讓德在 1805 年發(fā)表的,基本思想就是認為測量中有誤差,所以所有方程的累積誤差為

累積誤差 = \sum(觀測值 - 理論值 )^2

我們求解出導致累積誤差最小的參數(shù)即可。

\begin{eqnarray}\label{least-square-error} \begin{array}{lll}\hat{\beta}& = & \displaystyle argmin_{\beta} \sum_{i=1}^n e_i^2 \\& = & \displaystyleargmin_{\beta} \sum_{i=1}^n [y_i - (\beta_0 + \beta_1x_{1i} + \cdots + \beta_px_{pi})]^2\end{array} \end{eqnarray}

勒讓德在論文中對最小二乘法的優(yōu)良性做了幾點說明:

  •  最小二乘使得誤差平方和最小,并在各個方程的誤差之間建立了一種平衡,從而防止某一個極端誤差取得支配地位
  •  計算中只要求偏導后求解線性方程組,計算過程明確便捷
  • 最小二乘可以導出算術(shù)平均值作為估計值

對于最后一點,從統(tǒng)計學的角度來看是很重要的一個性質(zhì)。推理如下:假設(shè)真值為 \theta, x_1, \cdots, x_n為n次測量值, 每次測量的誤差為 e_i = x_i - \theta ,按最小二乘法,誤差累積為

求解\theta使得 L(\theta)達到最小,正好是算術(shù)平均 \bar{x} = \frac{\sum_{i=1}^n x_i}{n} 。

由于算術(shù)平均是一個歷經(jīng)考驗的方法,而以上的推理說明,算術(shù)平均是最小二乘的一個特例,所以從另一個角度說明了最小二乘方法的優(yōu)良性,使我們對最小二乘法更加有信心。

最小二乘法發(fā)表之后很快得到了大家的認可接受,并迅速的在數(shù)據(jù)分析實踐中被廣泛使用。不過歷史上又有人把最小二乘法的發(fā)明歸功于高斯,這又是怎么一回事呢。高斯在1809年也發(fā)表了最小二乘法,并且聲稱自己已經(jīng)使用這個方法多年。高斯發(fā)明了小行星定位的數(shù)學方法,并在數(shù)據(jù)分析中使用最小二乘方法進行計算,準確的預測了谷神星的位置。

扯了半天最小二乘法,沒看出和正態(tài)分布有任何關(guān)系啊,離題了吧?單就最小二乘法本身,雖然很實用,不過看上去更多的算是一個代數(shù)方法,雖然可以推導出最優(yōu)解,對于解的誤差有多大,無法給出有效的分析,而這個就是正態(tài)分布粉墨登場發(fā)揮作用的地方。勒讓德提出的最小二乘法,確實是一把在數(shù)據(jù)分析領(lǐng)域披荊斬棘的好刀,但是刀刃還是不夠鋒利;而這把刀的打造后來至少一半功勞被歸到高斯,是因為高斯不單獨自的給出了造刀的方法,而且把最小二乘這把利刀的刀刃造得無比鋒利,把最小二乘打造為了一把瑞士軍刀。高斯拓展了最小二乘法,把正態(tài)分布和最小二乘法聯(lián)系在一起,并使得正態(tài)分布在統(tǒng)計誤差分析中確立了自己的定位,否則正態(tài)分布就不會被稱為高斯分布了。 那高斯這位神人是如何把正態(tài)分布引入到誤差分析之中,打造最小二乘這把瑞士軍刀的呢?看下一個故事。

四、眾里尋她千百度,誤差分布曲線的確立

第三個故事有點長,主角是高斯和拉普拉斯,故事的主要內(nèi)容是猜測上帝的造物的旨意,尋找隨機誤差分布的規(guī)律。

天文學是第一個被測量誤差困擾的學科,從古代至十八世紀天文學一直是應(yīng)用數(shù)學最發(fā)達的領(lǐng)域, 到十八世紀,天文學的發(fā)展積累了大量的天文學數(shù)據(jù)需要分析計算,應(yīng)該如何來處理數(shù)據(jù)中的觀測誤差成為一個很棘手的問題。 我們在數(shù)據(jù)處理中經(jīng)常使用平均的常識性法則,千百來來的數(shù)據(jù)使用經(jīng)驗說明算術(shù)平均能夠消除誤差,提高精度。 平均有如此的魅力,道理何在,之前沒有人做過理論上的證明。 算術(shù)平均的合理性問題在天文學的數(shù)據(jù)分析工作中被提出來討論:測量中的隨機誤差服應(yīng)該服從怎樣的概率分布? 算術(shù)平均的優(yōu)良性和誤差的分布有怎樣的密切聯(lián)系?

伽利略在他著名的《關(guān)于兩個主要世界系統(tǒng)的對話》中,對誤差的分布做過一些定性的描述,主要包括:

  •  誤差是對稱分布的;
  •  大的誤差出現(xiàn)頻率低,小的誤差出現(xiàn)頻率高。

用數(shù)學的語言描述,也就是說誤差分布函數(shù) f(x)關(guān)于0對稱分布,概率密度隨 |x|增加而減小, 這兩個定性的描述都很符合常識。

許多天文學家和數(shù)學家開始了尋找誤差分布曲線的嘗試。 Thomas Simpson (1710-1761) 先走出了有意義的一步。 設(shè)真值為 \theta, x_1, \cdots, x_n為n次測量值, 每次測量的誤差為 e_i = x_i - \theta , 若用算術(shù)平均 \bar{x} = \frac{\sum_{i=1}^n x_i}{n} 去估計\theta, 其誤差為 \bar{e} = \frac{\sum_{i=1}^n e_i}{n} 。 Simpson 證明了, 對于如下的一個概率分布,

【Simpson 的誤差態(tài)分布曲線】

也就是說,|\bar{e}|相比于|e_1|取小值的機會更大。 Simpson 的這個工作很粗糙,但是這是第一次在一個特定情況下,從概率論的角度嚴格證明了算術(shù)平均的優(yōu)良性。

從 1772-1774 年, 拉普拉斯也加入到了尋找誤差分布函數(shù)的隊伍中。拉普拉斯假定誤差分布函數(shù)f(x)滿足如下性質(zhì)

由此最終求得的分布函數(shù)為

這個函數(shù)現(xiàn)在被稱為拉普拉斯分布。

【Laplace 的誤差態(tài)分布曲線】

以這個函數(shù)作為誤差分布,拉普拉斯開始考慮如何基于測量的結(jié)果去估計未知參數(shù)的值。 拉普拉斯可以算是一個貝葉斯主義者,他的參數(shù)估計的原則和現(xiàn)代貝葉斯方法非常相似,假設(shè)先驗分布是均勻的, 計算出參數(shù)的后驗分布后,取后驗分布的中值點,即1/2分位點,作為參數(shù)估計值??墒腔谶@個誤差分布函數(shù) 做了一些計算之后,拉普拉斯發(fā)現(xiàn)計算過于復雜,最終沒能給出什么有用的結(jié)果。

拉普拉斯可是概率論的大牛,寫過兩本極有影響力的《概率分析理論》, 不過以我的數(shù)學審美,實在無法理解拉普拉斯這樣的大牛怎么找了一個零點不可導的誤差的分布函數(shù), 拉普拉斯最終還是沒能搞定誤差分布的問題。

現(xiàn)在輪到高斯登場了,高斯在數(shù)學史中的地位極高,號稱數(shù)學史上的狐貍,數(shù)學家阿貝爾對他的評論是 "He is like the fox, who effaces his tracks in the sand with his tail." 我們的數(shù)學大師陳省身把黎曼和龐加萊稱為數(shù)學家中的菩薩,而稱自己為羅漢;高斯是黎曼的導師,數(shù)學圈里有些教授把高斯稱為數(shù)學家中的佛。 在數(shù)學家中上既能仰望理論數(shù)學的星空,又能腳踏應(yīng)用數(shù)學的實地的可不多見, 高斯是數(shù)學家中少有的頂”天“立”地“的人物,它既對純理論數(shù)學有深刻的洞察力,又極其重視數(shù)學在實踐中的應(yīng)用。 在誤差分布的處理中,高斯以及其簡單的手法確立了隨機誤差的概率分布,其結(jié)果成為數(shù)理統(tǒng)計發(fā)展史上的一塊里程碑。

高斯的介入首先要從天文學界的一個事件說起。1801年1月,天文學家Giuseppe Piazzi發(fā)現(xiàn)了一顆從未見過 的光度8等的星在移動, 這顆現(xiàn)在被稱作谷神星(Ceres)的小行星在夜空中出現(xiàn)6個星期,掃過八度角后在就在太陽的光芒下沒了蹤影,無法觀測。 而留下的觀測數(shù)據(jù)有限,難以計算出他的軌道,天文學家也因此無法確定這顆新星是彗星還是行星, 這個問題很快成了學術(shù)界關(guān)注的焦點。高斯當時已經(jīng)是很有名望的年輕數(shù)學家了, 這個問題引起了他的興趣。高斯以其卓越的數(shù)學才能創(chuàng)立了一種嶄新的 行星軌道的計算方法,一個小時之內(nèi)就計算出了行星的軌道,并預言了他在夜空中出現(xiàn)的時間和位置。 1801年12月31日夜,德國天文愛好者奧伯斯(Heinrich Olbers),在高斯預言的時間里,用望遠鏡對準了這片天空。 果然不出所料,谷神星出現(xiàn)了!

高斯為此名聲大震,但是高斯當時拒絕透露計算軌道的方法,原因可能是高斯認為自己的方法的理論基礎(chǔ)還不夠成熟, 而高斯一向治學嚴謹、精益求精,不輕易發(fā)表沒有思考成熟的理論。直到1809年高斯系統(tǒng)地完善了相關(guān)的數(shù)學理論后, 才將他的方法公布于眾,而其中使用的數(shù)據(jù)分析方法,就是以正態(tài)誤差分布為基礎(chǔ)的最小二乘法。 那高斯是如何推導出誤差分布為正態(tài)分布的?讓我們看看高斯是如何猜測上帝的意圖的。

設(shè)真值為 \theta, x_1, \cdots, x_n為n次獨立測量值, 每次測量的誤差為 e_i = x_i - \theta , 假設(shè)誤差e_i的密度函數(shù)為 f(e), 則測量值的聯(lián)合概率為n個誤差的聯(lián)合概率,記為

\begin{equation} L(\theta) = L(\theta;x_1,\cdots,x_n)=f(e_1)\cdots f(e_n) = f(x_1-\theta)\cdots f(x_n-\theta)\end{equation}

但是高斯不采用貝葉斯的推理方式,而是直接取L(\theta)達到最大值的 \hat{\theta}=\hat{\theta}(x_1,\cdots,x_n)作為\theta的估計值,即

現(xiàn)在我們把L(\theta)稱為樣本的似然函數(shù),而得到的估計值 \hat{\theta}稱為極大似然估計。 高斯首次給出了極大似然的思想,這個思想后來被統(tǒng)計學家 R.A.Fisher 系統(tǒng)的發(fā)展成為參數(shù)估計中的極大似然估計理論。

高斯接下來的想法特別牛,他開始揣度上帝的意圖,而這充分體現(xiàn)了高斯的數(shù)學天才。 高斯把整個問題的思考模式倒過來:既然千百年來大家都認為算術(shù)平均 是一個好的估計,那我就認為極大似然估計導出的就應(yīng)該是算術(shù)平均!所以高斯猜測上帝在創(chuàng)世紀中的旨意就是:

誤差分布導出的極大似然估計 = 算術(shù)平均值

然后高斯去找誤差密度函數(shù) f以迎合這一點。即尋找這樣的概率分布函數(shù) f, 使 得極大似然估計正好是算術(shù)平均 \hat{\theta} = \bar{x}。而高斯應(yīng)用數(shù)學技巧求解這個函數(shù)f, 高斯證明(證明不難,后續(xù)給出),所有的概率密度函數(shù)中,唯一滿足這個性質(zhì)的就是

瞧,正態(tài)分布的密度函數(shù) N(0, \sigma^2)被高斯他老人家給解出來了!

【正態(tài)誤差態(tài)分布律】

進一步,高斯基于這個誤差分布函數(shù)對最小二乘法給出了一個很漂亮的解釋。 對于每個誤差 e_i,有 e_i \sim N(0, \sigma^2), 則(e_1, \cdots, e_n)的聯(lián)合概率分布為

要使得這個概率最大,必須使得\sum_{i=1}^n e_i^2 取最小值,這正好就是最小二乘法的要求。

高斯所拓展的最小二乘法成為了十九世紀統(tǒng)計學的最重要成就,它在十九世紀統(tǒng)計學的重要性就相當于十八世紀的微積分之于數(shù)學。 而勒讓德和最小二乘的的發(fā)明權(quán)之爭,成了數(shù)學史上僅次于牛頓、萊布尼茨微積分發(fā)明的爭端。 相比于勒讓德1805給出的最小二乘法描述,高斯基于誤差正態(tài)分布的最小二乘理論顯然更高一籌, 高斯的工作中既提出了極大似然估計的思想,又解決了誤差的概率密度分布的問題, 由此我們可以對誤差的大小的影響進行統(tǒng)計度量了。高斯的這項工作對后世的影響極大,而正態(tài)分布也因此被冠名 高斯分布。估計高斯本人當時是完全沒有意識到他的這個工作給現(xiàn)代數(shù)理統(tǒng)計學帶來的深刻影響。 高斯在數(shù)學上的貢獻特多,去世前他是要求給自己的墓碑上雕刻上正十七邊形,以說明他在正十七邊形尺規(guī)作圖上的杰出工作。 而后世的德國鈔票和鋼镚上是以正態(tài)密度曲線來紀念高斯,這足以說明高斯的這項工作在當代科學發(fā)展中的分量。

17-18世紀科學界流行的做法,是盡可能從某種簡單明了的準則(first principle)出發(fā)進行推導, 高斯設(shè)定的準則“最大似然估計應(yīng)該導出優(yōu)良的算術(shù)平均”,并導出了誤差服從正態(tài)分布,推導的形式上非常簡潔優(yōu)美。 但是高斯給的準則在邏輯上并不足以讓人完全信服,因為算術(shù)平均的優(yōu)良性當時更多的是一個直覺經(jīng)驗,缺乏嚴格的理論支持。 高斯的推導存在循環(huán)論證的味道:因為算術(shù)平均是優(yōu)良的,推出誤差必須服從正態(tài)分布; 反過來,又基于正態(tài)分布推導出最小二乘和算術(shù)平均,來說明最小二乘法和算術(shù)平均的優(yōu)良性。 這陷入了一個雞生蛋蛋生雞的怪圈,邏輯上算術(shù)平均的優(yōu)良性到底有沒有自行成立的理由呢?

高斯的文章發(fā)表之后,拉普拉斯很快得知了高斯的工作。 拉普拉斯看到,正態(tài)分布既可以從作為拋鋼镚產(chǎn)生的序列和中生成出來,又可以被優(yōu)雅的作為誤差分布定律, 這難道是偶然現(xiàn)象?拉普拉斯不愧為概率論的大牛,他馬上將誤差的正態(tài)分布理論和中心極限定理聯(lián)系起來,提出了元誤差解釋。 他指出如果誤差可以看成許多量的疊加,則根據(jù)他的中心極限定理,則隨機誤差理所應(yīng)當是高斯分布。 而20世紀中心極限定理的進一步發(fā)展,也給這個解釋提供了更多的理論支持。因此有了這個解釋為出發(fā)點, 高斯的循環(huán)論證的圈子就可以打破。 估計拉普拉斯悟出這個結(jié)論之后一定想撞墻,自己辛辛苦苦尋尋覓覓 了這么久的誤差分布曲線就在自己的眼皮底下,自己卻長年來視而不見,被高斯給占了先機。

至此,誤差分布曲線的尋找塵埃落定,正態(tài)分布在誤差分析中確立了自己的地位,開始并在整個19世紀不斷的開疆擴土, 直至在統(tǒng)計學中鶴立雞群,傲世其它一切概率分布;而高斯和拉普拉斯的工作,為現(xiàn)代統(tǒng)計學的發(fā)展開啟了一扇大門。

在整個正態(tài)分布被發(fā)現(xiàn)與應(yīng)用的歷史中,棣莫弗、拉普拉斯、高斯各有貢獻,拉普拉斯從中心極限定理的角度解釋它, 高斯把它應(yīng)用在誤差分析中,殊途同歸。正態(tài)分布被人們發(fā)現(xiàn)有這么好的性質(zhì),各國人民都爭搶他的冠名權(quán)。 因為 Laplace 是法國人,所以當時在法國被稱為拉普拉斯分布; 而高斯是德國人, 所以在德國叫做高斯分布;第三中立國的人民稱他為拉普拉斯-高斯分布。后來法國的大數(shù)學家龐加萊(Henri Poincaré)建議改用正態(tài)分布這一中立名稱,而隨后統(tǒng)計學家卡爾.皮爾森使得這個名稱被廣泛接受:

Many years ago I called the Laplace-Gaussian curve the normal curve, which name, while it avoids an international question of priority, has the disadvantage of leading people to believe that all other distributions of frequency are in one sense or another "abnormal".}

 -Karl Pearson (1920) 

不過因為高斯在數(shù)學家中的名氣是在太大, 正態(tài)分布的桂冠還是更多的被戴在了高斯的腦門上,目前數(shù)學界通行的用語是正態(tài)分布高斯分布, 兩者并用。

正態(tài)分布在高斯的推動下,迅速在測量誤差分析中被廣泛使用,然而早期也僅限于測量誤差的分析中, 其重用性遠沒有被自然科學和社會科學領(lǐng)域中的人們所認識,那正態(tài)分布是如何從測量誤差分析的小溪, 沖向自然科學和社會科學的汪洋大海的呢?

 

(五)曲徑通幽處,禪房花木深,正態(tài)分布的各種推導

在介紹正態(tài)分布的后續(xù)發(fā)展之前,我們來多講一點數(shù)學,也許有些人會覺得枯燥,不過高斯曾經(jīng)說過:“數(shù)學是上帝的語言”。所以要想更加深入的理解正態(tài)分布的美,唯有通過上帝的語言。

造物主造物的準則往往是簡單明了的,只是在紛繁蕪雜的萬物之中,我們要發(fā)現(xiàn)并領(lǐng)會它并非易事。之前提到過,17-18世紀科學界流行的做法,是盡可能從某種簡單明了的準則(first principle)出發(fā)作為我們探求的起點,而后來的數(shù)學家和物理學家們研究發(fā)現(xiàn),屢次從一些給定的簡單的準則出發(fā),我們總是被引領(lǐng)到了正態(tài)分布的家門口,這讓人感覺到正態(tài)分布的美妙。

達爾文的表弟高爾頓是生物學家兼統(tǒng)計學家,他對正態(tài)分布非常的推崇與贊美:”我?guī)缀醪辉娺^像誤差呈正態(tài)分布這么激發(fā)人們無窮想象的宇宙秩序“。當代兩位偉大的概率學家 Levy 和 Kac 都曾經(jīng)說過, 正態(tài)分布是他們切入概率論的初戀情人,具有無窮的魅力。自從 1919 年以后,Levy 研究的主題曲就是正態(tài)分布,他一而再再而三的以他為出發(fā)點,并且屢次堅決的又回到她......如果古希臘人知道正態(tài)分布,想必奧林匹斯山的神殿里會多出一個正態(tài)女神,由她來掌管世間的混沌。

要拉下正態(tài)分布的神秘面紗展現(xiàn)她的美麗,需要高深的概率論知識,本人在數(shù)學方面知識淺薄,不能勝任。只能在極為有限的范圍內(nèi)嘗試掀開她的面紗的一角。棣莫弗和拉普拉斯以拋鋼镚的序列求和為出發(fā)點,沿著一條小徑把我們第一次領(lǐng)到了正態(tài)分布的家門口,這條路叫作中心極限定理,而這條路上風景秀麗,許多概率學家都為之傾倒,這條路在20世紀被概率學家們越拓越寬。而后數(shù)學家和物理學家們發(fā)現(xiàn):條條曲徑通正態(tài)。著名的物理學家 E.T.Jaynes 在他的名著《Probability Theory, the Logic of Science》(中文書名翻譯為《概率論沉思錄》)中,描繪了四條通往正態(tài)分布的小徑。曲徑通幽處,禪房花木深,讓我們一起來欣賞一下四條小徑上的風景吧。

1. 高斯的推導(1809)

第一條小徑是高斯找到的,高斯以如下準則作為小徑的出發(fā)點

誤差分布導出的極大似然估計 = 算術(shù)平均值

設(shè)真值為 \theta, x_1, \cdots, x_n為n次獨立測量值, 每次測量的誤差為 e_i = x_i - \theta

假設(shè)誤差e_i的密度函數(shù)為 f(e), 則測量值的聯(lián)合概率為n個誤差的聯(lián)合概率,記為

\begin{equation} L(\theta) = L(\theta;x_1,\cdots,x_n)=f(e_1)\cdots f(e_n) = f(x_1-\theta)\cdots f(x_n-\theta)\end{equation}

為求極大似然估計,令

整理后可以得到

g(x) = \frac{f'(x)}{f(x)},

由于高斯假設(shè)極大似然估計的解就是算術(shù)平均 \bar{x},把解帶入上式,可以得到

\begin{equation} \label{gauss-derivation}\sum_{i=1}^n g(x_i-\bar{x}) = 0     (*) \end{equation}

(*) 式中取 n=2, 有

由于此時有 x_1-\bar{x} = -(x_2-\bar{x}), 并且 x_1, x_2是任意的,有此得到

(*) 式中再取 n=m+1, 并且要求 x_1=\cdots=x_m=-x, x_{m+1} = mx, 則有 \bar{x} = 0, 并且

所以得到

而滿足上式的唯一的連續(xù)函數(shù)就是 g(x)=cx, 從而進一步可以求解出

由于f(x)是概率分布函數(shù),把f(x)正規(guī)化一下就得到正態(tài)分布函數(shù)。

2. Herschel(1850)和 Maxwell(1860) 的推導

第二條小徑是天文學家 Hershcel 和物理學家麥克斯韋(Maxwell) 發(fā)現(xiàn)的。1850年,天文學家 John Herschel 在對星星的位置進行測量的時候,需要考慮二維的誤差分布,為了推導這個誤差的概率密度分布 f(x,y),Herschel 設(shè)置了兩個準則:

  •  x 軸和 y 軸的誤差是相互獨立的,即誤差的概率在正交的方向上相互獨立
  • 誤差的概率分布在空間上具有旋轉(zhuǎn)對稱性,即誤差的概率分布和角度沒有關(guān)系

這兩個準則對于 Herschel 考慮的實際測量問題看起來都很合理。由準則1,可以得到 f(x,y)應(yīng)該具有如下形式

把這個函數(shù)轉(zhuǎn)換為極坐標,在極坐標下的概率密度函數(shù)設(shè)為 g(r,\theta), 有

由準則2, g(r,\theta)具有旋轉(zhuǎn)對稱性,也就是應(yīng)該和 \theta無關(guān), 所以 g(r,\theta)=g(r),
綜合以上,我們可以得到

y=0, 得到 g(x) = f(x)f(0), 所以上式變?yōu)?/p>

\log[\frac{f(x)}{f(0)}] = h(x) , 則有

從這個函數(shù)方程中容易求解出 h(x) = ax^2, 從而可以得到 f(x)的一般形式如下

f(x)就是正態(tài)分布 N(0, 1/\sqrt{2\alpha)}, 而 f(x,y)就是標準二維正態(tài)分布函數(shù)。

1860 年,我們偉大的物理學家麥克斯韋在考慮氣體分子的運動速度分布的時候,在三維空間中基于類似的準則推導出了氣體分子運動的分布是正態(tài)分布\rho(v_x,v_y,v_z) \propto exp\{-\alpha(v_x^2+v_y^2+v_z^2)\} 。這就是著名的麥克斯韋分子速率分布定律。大家還記得我們在普通物理中學過的麥克斯韋-波爾茲曼氣體速率分布定律嗎?

\begin{eqnarray} \label{maxwell}\begin{array}{lll}F(v) & = & \displaystyle (\frac{m}{2\pi kT})^{3/2} e^{-\frac{mv^2}{2kT}} \\& = & \displaystyle (\frac{m}{2\pi kT})^{1/2} e^{-\frac{mv_x^2}{2kT}} \times (\frac{m}{2\pi kT})^{1/2} e^{-\frac{mv_y^2}{2kT}} \times (\frac{m}{2\pi kT})^{1/2} e^{-\frac{mv_z^2}{2kT}} \end{array}\end{eqnarray}

所以這個分布其實是三個正態(tài)分布的乘積,你的物理老師是否告訴過你其實這個分布就是三維正態(tài)分布?反正我是一直不知道,直到今年才明白

Herschel-Maxwell 推導的神妙之處在于,沒有利用任何概率論的知識,只是基于空間幾何的不變性,就推導出了正態(tài)分布。

3. Landon 的推導(1941)

第三條道是一位電氣工程師,Vernon D. Landon 給出的。1941 年,Landon 研究通信電路中的噪聲電壓,通過分析經(jīng)驗數(shù)據(jù)他發(fā)現(xiàn)噪聲電壓的分布模式很相似,不同的是分布的層級,而這個層級可以使用方差 \sigma^2來刻畫。因此他推理認為噪聲電壓的分布函數(shù)形式是 p(x;\sigma^2)?,F(xiàn)在假設(shè)有一個相對于 \sigma而言很微小的誤差擾動 e,e的分布函數(shù)是 q(e), 那么新的噪聲電壓是 x' = x + e。Landon 提出了如下的準則

  •  隨機噪聲具有穩(wěn)定的分布模式
  • 累加一個微小的隨機噪聲,不改變其穩(wěn)定的分布模式,只改變分布的層級(用方差度量)

用數(shù)學的語言描述: 如果

則有

現(xiàn)在我們來推導滿足以上兩個準則的函數(shù)p(x;\sigma^2)應(yīng)該長成啥樣。按照兩個隨機變量和的分布的計算方式, x'的分布函數(shù)將是 x的分布函數(shù)和 e的分布函數(shù)的卷積,即有

p(x'-e; \sigma^2)x'處做泰勒級數(shù)展開(為了方便,展開后把自變量由 x'替換為 x), 上式可以展開為

p=p(x; \sigma^2),則有

對于微小的隨機擾動 e, 我們認為他取正值或者負值是對稱的,所以\bar{e} = 0 。所以有

\begin{equation} \label{landon-x}f(x) = p + \frac{1}{2} \frac{\partial^2 p}{\partial^2 x}\bar{e^2} + o(\bar{e^2})\end{equation}

對于新的噪聲電壓是 x' = x + e, 方差由\sigma^2增加為 \sigma^2 + var(e) = \sigma^2 + \bar{e^2},所以按照 Landon 的分布函數(shù)模式不變的假設(shè), 新的噪聲電壓的分布函數(shù)應(yīng)該為 f(x) = p(x; \sigma^2 + \bar{e^2})。把p(x; \sigma^2 + \bar{e^2})\sigma^2處做泰勒級數(shù)展開,得到

\begin{equation} \label{landon-sigma}\displaystyle f(x) = p + \frac{\partial p}{\partial \sigma^2}\bar{e^2} + o(\bar{e^2})\end{equation}

比較 以上 f(x)的兩個展開式,可以得到如下偏微分方程

而這個方程就是物理上著名的擴散方程(diffusion equation),求解該方程就得到

又一次,我們推導出了正態(tài)分布!

E.T. Jaynes對于這個推導的評價很高,認為Landon 的推導本質(zhì)上給出了自然界的噪音形成的過程。他指出這個推導這基本上就是中心極限定理的增量式版本,相比于中心極限定理是一次性累加所有的因素,Landon 的推導是每次在原有的分布上去累加一個微小的擾動。
而在這個推導中,我們看到,正態(tài)分布具有相當好的穩(wěn)定性;只要數(shù)據(jù)中正態(tài)的模式已經(jīng)形成,他就容易繼續(xù)保持正態(tài)分布,無論外部累加的隨機噪聲 q(e)是什么分布,正態(tài)分布就像一個黑洞一樣把這個累加噪聲吃掉。

4. 最大熵和正態(tài)分布

還有一條神妙的小徑是基于最大熵原理的, 物理學家 E.T.Jaynes 在最大熵原理上有非常重要的貢獻,他在《概率論沉思錄》里面對這個方法有描述和證明,沒有提到發(fā)現(xiàn)者,我不確認這條道的發(fā)現(xiàn)者是否是 E.T.Jaynes 本人。

熵在物理學中由來已久,信息論的創(chuàng)始人香農(nóng)(Claude Elwood Shannon)把這個概念引入了信息論,學習機器學習的同學們都知道目前機器學習中有一個非常好用的分類算法叫最大熵分類器。要想把熵和最大熵的來龍去脈說清楚可不容易,希望我后續(xù)能有時間整理一下。這條道的風景是相當獨特的,E.T.Jaynes 對這條道也是偏愛有加。

對于一個概率分布 p(e), 我們定義他的熵為

如果給定一個分布函數(shù) f(x)的均值 \mu和方差\sigma^2(給定均值和方差這個條件,也可以描述為給定一階原點矩和二階原點矩,這兩個條件是等價的)則在所有滿足這兩個限制的概率分布中,熵最大的概率分布 p(e|\mu, \sigma^2)就是正態(tài)分布 N(\mu, \sigma^2)

(Todo: 插入證明)

E.T.Jaynes 顯然對正態(tài)分布具有這樣的性質(zhì)極為贊賞,因為這從信息論的角度證明了正態(tài)分布的優(yōu)良性。而我們可以看到,熵的大小,取決于方差的大小。 這也容易理解, 因為正態(tài)分布的均值和密度函數(shù)的形狀無關(guān),而熵的大小反應(yīng)概率分布中的信息量,顯然和密度函數(shù)的形狀相關(guān),而正態(tài)分布的形狀是由其方差決定的。

好的,風景欣賞暫時告一段落。所謂橫看成嶺側(cè)成峰,遠近高低各不同,正態(tài)分布給人們提供了多種欣賞角度和想象空間。法國菩薩級別的大數(shù)學家龐加萊對正態(tài)分布說過一段有意思的話,引用來作為這個小節(jié)的結(jié)束:

Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics.

— Henri Poincaré

 

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
從數(shù)理統(tǒng)計簡史中看正態(tài)分布的歷史由來
科學松鼠會 ? 正態(tài)分布的前世今生(上)
概率論一些知識
正態(tài)分布的前世今生(2)
正態(tài)分布的前世今生(壹)
正態(tài)分布到底是怎么回事?
更多類似文章 >>
生活服務(wù)
分享 收藏 導長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服