簡(jiǎn)單來(lái)說(shuō),概率論和統(tǒng)計(jì)學(xué)解決的問(wèn)題是互逆的。假設(shè)有一個(gè)具有不確定性的過(guò)程(process),然后這個(gè)過(guò)程可以隨機(jī)的產(chǎn)生不同的結(jié)果(outcomes)。則概率論和統(tǒng)計(jì)學(xué)的區(qū)別可以描述為:
在概率論(probability theory)中,我們已知該過(guò)程的概率模型,該模型的不確定性由相應(yīng)的概率分布來(lái)描述;概率論要回答的問(wèn)題是該過(guò)程產(chǎn)生某個(gè)結(jié)果的可能性有多大這類問(wèn)題。
在統(tǒng)計(jì)學(xué)(statistics)中,該過(guò)程的概率模型對(duì)我們來(lái)說(shuō)是未知的,但是我們有一系列該過(guò)程產(chǎn)生的結(jié)果的觀測(cè)值;我們希望通過(guò)這些觀測(cè)值來(lái)推斷出這個(gè)過(guò)程中的不確定性是什么樣的。
總結(jié)來(lái)說(shuō)就是:通過(guò)已知的概率模型來(lái)精確的計(jì)算各種結(jié)果的可能性就是概率論;根據(jù)觀測(cè)的結(jié)果來(lái)推斷模型的不確定性就是統(tǒng)計(jì)學(xué)。
如果上面的描述依然晦澀,請(qǐng)看下面這個(gè)例子。假設(shè)桶里面有 100 個(gè)小球,小球分為白色和黑色。如果已知桶里面一共有 30 個(gè)白球和 70 個(gè)黑球,想回答隨機(jī)從桶中摸出一個(gè)白球(或者黑球)的概率是多少這樣的問(wèn)題,這就屬于概率論的范疇。而如果已知通過(guò)有放回的采樣抽出了 10 個(gè)球并且其中 4 個(gè)白球 6 個(gè)黑球,想要推斷的是小桶里面白球(或者黑球)的百分比(這些對(duì)我們來(lái)說(shuō)是未知的),這就是統(tǒng)計(jì)學(xué)的范疇。
對(duì)于概率論來(lái)說(shuō),每一個(gè)問(wèn)題都有唯一的答案。通過(guò)相關(guān)計(jì)算,總可以計(jì)算出我們關(guān)心的結(jié)果發(fā)生的概率。反觀統(tǒng)計(jì)學(xué),它更像是一門(mén)藝術(shù)。因?yàn)橐茢嗟哪P褪俏粗模虼撕茈y說(shuō)哪種推斷方法就優(yōu)于另一種方法,或者哪種推斷結(jié)果就比其他結(jié)果更加正確。就拿上面的例子來(lái)說(shuō),雖然觀測(cè)到的 10 個(gè)球中有 4 個(gè)白球和 6 個(gè)黑球,但我們?nèi)圆荒軘嘌酝袄锇浊蛘?40% 的推斷就一定比桶里白球占 50% 或者 30% 的推斷更加準(zhǔn)確。
統(tǒng)計(jì)學(xué)領(lǐng)域中有兩大學(xué)派:古典統(tǒng)計(jì)學(xué)(classical)和貝葉斯統(tǒng)計(jì)學(xué)(Bayesian,以英國(guó)數(shù)學(xué)家托馬斯·貝葉斯命名)。古典統(tǒng)計(jì)學(xué)又稱為頻率論(frequentist)。
關(guān)于這倆大學(xué)派孰優(yōu)孰劣已有一個(gè)世紀(jì)的爭(zhēng)論。它們的本質(zhì)區(qū)別在于對(duì)待未知模型或者參的方法是不同的:
古典統(tǒng)計(jì)學(xué)認(rèn)為,未知的模型或者參數(shù)是確定的,只不過(guò)我們不知道它確切的形式或者取值。
貝葉斯統(tǒng)計(jì)學(xué)認(rèn)為,未知的模型或者參數(shù)變量是不確定的,但是這種不確定性可以由一個(gè)概率分布來(lái)描述。
古典統(tǒng)計(jì)學(xué)通過(guò)進(jìn)行大量重復(fù)實(shí)驗(yàn)并統(tǒng)計(jì)某個(gè)特定結(jié)果出現(xiàn)的頻率作為對(duì)未知參數(shù)的估計(jì)。以猜桶中白球的比例為例,頻率論者會(huì)進(jìn)行大量的帶放回的獨(dú)立抽取實(shí)驗(yàn)(實(shí)驗(yàn)可以做到天荒地老??菔癄€),然后計(jì)算所有結(jié)果中白球出現(xiàn)的頻率,以此作為對(duì)小球中白球比例的推斷。古典統(tǒng)計(jì)學(xué)的核心在于通過(guò)大量的實(shí)驗(yàn)來(lái)消除模型或者參數(shù)估計(jì)中的不確定性(因?yàn)樗僭O(shè)未知模型或者參數(shù)是確定的)。
貝葉斯統(tǒng)計(jì)學(xué)則截然不同。貝葉斯統(tǒng)計(jì)學(xué)“使用概率的方法來(lái)解決統(tǒng)計(jì)學(xué)問(wèn)題”。如前所述,貝葉斯統(tǒng)計(jì)學(xué)認(rèn)為未知的模型或者參數(shù)是不確定的、符合某個(gè)概率分布。特別的,我們會(huì)首先根據(jù)主觀判斷或者過(guò)去的經(jīng)驗(yàn),對(duì)這個(gè)概率分布有一個(gè)猜測(cè),稱為先驗(yàn)分布(prior distribution);然后根據(jù)越來(lái)越多的觀測(cè)值(new data 或者 new evidence)來(lái)修正對(duì)該概率分布的猜測(cè),最后得到的概率分布稱為后驗(yàn)分布(posterior distribution)。貝葉斯統(tǒng)計(jì)學(xué)中的“概率”的概念可以被解釋為我們對(duì)未知變量不同取值的信心程度的測(cè)度(measure of confidence)。貝葉斯統(tǒng)計(jì)不消除未知變量的不確定性,而是通過(guò)越來(lái)越多的新的觀測(cè)點(diǎn)來(lái)持續(xù)更新我們對(duì)于該未知變量不確定性的認(rèn)知,提高我們對(duì)不確定性的判斷的信心。
對(duì)于上面這個(gè)例子,假設(shè)在觀測(cè)值出現(xiàn)之前,我們猜測(cè)桶中有 50% 的白球和 50% 的黑球。因此 50% 是我們對(duì)白球比例的先驗(yàn)信仰(prior belief)。隨著不斷進(jìn)行抽取實(shí)驗(yàn),我們會(huì)根據(jù)得到的觀測(cè)值更新我們的信仰。假設(shè) 10 次抽取后得到 4 個(gè)白球和 6 個(gè)黑球,那么此時(shí)我們對(duì)白球比例的信仰就會(huì)從最初的 50% 減少一些,這是因?yàn)槲覀兘Y(jié)合新的證據(jù)(即觀測(cè)的 10 個(gè)球中僅有 40% 是白球)更新了猜測(cè)。假設(shè) 100 次抽取后得到了 35 個(gè)白球和 65 個(gè)黑球,那么此時(shí)我們對(duì)白球比例的信仰又會(huì)繼續(xù)更新。隨著越來(lái)越多的觀測(cè)值,我們會(huì)持續(xù)更新猜測(cè),并且對(duì)該猜測(cè)的信心程度也會(huì)越來(lái)越高,即未知變量(在這里是白球比例)后驗(yàn)分布的標(biāo)準(zhǔn)差會(huì)越來(lái)越小(后面會(huì)通過(guò)一個(gè)扔硬幣的例子說(shuō)明)。
貝葉斯統(tǒng)計(jì)學(xué)派被古典統(tǒng)計(jì)學(xué)派詬病的核心問(wèn)題是對(duì)于未知變量的先驗(yàn)分布是非常主觀的。顯然,哪怕是一個(gè)最簡(jiǎn)單的問(wèn)題,不同的人也會(huì)有不同的考慮。比如桶中白球比例這個(gè)例子。一個(gè)普通人會(huì)同意 50% 是一個(gè)合理的先驗(yàn)猜測(cè)。但是,極端的人也許會(huì)使用 0% 或者 100% 白球作為他的先驗(yàn)猜測(cè)。不過(guò),盡管不同人可以有不同的先驗(yàn)分布,但是隨著他們結(jié)合新的觀測(cè)點(diǎn)來(lái)更新自己的信仰,我們會(huì)發(fā)現(xiàn)他們最終得到的后驗(yàn)分布是會(huì)逐漸收斂的。此外,對(duì)很多生活中的實(shí)際問(wèn)題,使用一個(gè)合理的猜測(cè)(educated guess)作為先驗(yàn)是很有好處的。
貝葉斯統(tǒng)計(jì)在生活以及量化投資中有著廣泛的應(yīng)用。從下面兩個(gè)意義上說(shuō),相對(duì)古典統(tǒng)計(jì),貝葉斯統(tǒng)計(jì)有明顯的優(yōu)勢(shì):
1. 雖然在上面抽小球的例子中我們進(jìn)行大量重復(fù)性的實(shí)驗(yàn)并計(jì)算白球的頻率(古典統(tǒng)計(jì)學(xué)手段),但對(duì)于是在生活中的很多實(shí)際問(wèn)題,大量重復(fù)實(shí)驗(yàn)是不現(xiàn)實(shí)的。比如我們想推斷川普當(dāng)選美國(guó)總統(tǒng)的概率。顯然,我們沒(méi)法讓美國(guó)人進(jìn)行成千上萬(wàn)次不同的投票選舉,然后計(jì)算川普獲勝的頻率。即便是通過(guò)民意調(diào)查的方式,進(jìn)行成千上萬(wàn)次也是不切實(shí)際的(簡(jiǎn)單從成本的角度考慮就不可能)。因此,對(duì)于這個(gè)問(wèn)題我們只能有非常有限的幾次民意調(diào)查結(jié)果。我們當(dāng)然可以只通過(guò)這些有限的結(jié)果利用古典統(tǒng)計(jì)學(xué)對(duì)川普獲勝的概率做出估計(jì),但是可以想象的是這個(gè)估計(jì)的誤差會(huì)非常大。而貝葉斯統(tǒng)計(jì)則提供了新的視角。
2. 合理的先驗(yàn)分布對(duì)未知量的估計(jì)是非常有益的。對(duì)生活中很多實(shí)際問(wèn)題的判斷都和人們的學(xué)識(shí)、經(jīng)驗(yàn)、見(jiàn)識(shí)有關(guān)。在這種情況下,如果我們把有限和觀測(cè)數(shù)據(jù)和根據(jù)知識(shí)和經(jīng)驗(yàn)得到的先驗(yàn)結(jié)合起來(lái),會(huì)得到對(duì)未知量更好的推斷。就拿對(duì)股票收益率的預(yù)測(cè)這件事來(lái)說(shuō),我們之前的文章《收益率預(yù)測(cè)的貝葉斯收縮》中提到了使用貝葉斯統(tǒng)計(jì)可以得到更小的估計(jì)誤差。而高盛著名的 Black–Litterman 收益率模型就是將從市場(chǎng)均衡假設(shè)推出的資產(chǎn)收益率作為先驗(yàn),將基金經(jīng)理的主觀判斷作為觀測(cè)值,通過(guò)把它們兩者結(jié)合來(lái)得到后驗(yàn)判斷。它的本質(zhì)也是貝葉斯統(tǒng)計(jì)。
可見(jiàn),掌握貝葉斯統(tǒng)計(jì)并且使用它做推斷,即貝葉斯推斷(Bayesian inference),十分重要。貝葉斯統(tǒng)計(jì)框架的核心無(wú)疑就是貝葉斯定理(Bayes’ rule)。
本節(jié)簡(jiǎn)要介紹貝葉斯定理,它是貝葉斯推斷的核心。(對(duì)數(shù)學(xué)不感興趣的讀者可以跳過(guò)本節(jié),這么做不會(huì)影響對(duì)后文的理解。)
貝葉斯定理的推導(dǎo)始于條件概率。條件概率可以定義為:在事件 B 發(fā)生的前提下,事件 A 發(fā)生的概率。數(shù)學(xué)上用 P(A|B) 來(lái)表示這個(gè)條件概率。
生活中條件概率屢見(jiàn)不鮮。比如在沒(méi)有趕上 8 點(diǎn)這趟地鐵,上班遲到的概率是多少?
條件概率 P(A|B) 的數(shù)學(xué)定義為:
這個(gè)公式的白話解釋為:“當(dāng) B 發(fā)生前提下 A 發(fā)生的概率”等于“A 和 B 同時(shí)發(fā)生的概率”除以“B 發(fā)生的概率”。用我們的例子來(lái)說(shuō),那就是“在沒(méi)有趕上 8 點(diǎn)這趟地鐵的前提下,上班遲到的概率”等于“沒(méi)趕上 8 點(diǎn)這趟地鐵且上班遲到的概率”除以“沒(méi)趕上 8 點(diǎn)這趟地鐵的概率”。將這個(gè)式子左右兩邊同時(shí)乘以 P(B) 得到 P(B)P(A|B) = P(A∩B)。
類似的,我們也可以求出 P(B|A),即在 A 發(fā)生的前提下,B 發(fā)生的概率是多少。在上面例子中,這對(duì)應(yīng)著“在上班遲到的前提下,沒(méi)有趕上 8 點(diǎn)這趟地鐵的概率是多少”?(上班遲到的原因可能很多,比如沒(méi)趕上這趟地鐵是一個(gè),又比如趕上地鐵了但是下地鐵后去辦公樓咖啡館里耽擱了 10 分鐘也是一個(gè),或者因?yàn)樵缟习l(fā)燒先去醫(yī)院了等等。)根據(jù)定義:
同樣,兩邊同時(shí)乘以 P(A) (并且由 P(A∩B) = P(B∩A))得到 P(A)P(B|A) = P(A∩B)。
由此可知 P(B)P(A|B) = P(A)P(B|A)。這個(gè)結(jié)果也可以寫(xiě)作如下形式,即大名鼎鼎的貝葉斯定理:
由貝葉斯定理可以順其自然得到貝葉斯推斷。前文提到,貝葉斯統(tǒng)計(jì)的核心是通過(guò)新的觀測(cè)數(shù)據(jù)(或者新的證據(jù))來(lái)不斷的更新我們對(duì)未知量的認(rèn)知。
考慮一個(gè)假想的例子。假設(shè)我們的先驗(yàn)認(rèn)知是明天太陽(yáng)不會(huì)升起(即明天太陽(yáng)不會(huì)升起的概率為 1)。然而,實(shí)際觀測(cè)到的證據(jù)是每天太陽(yáng)都照常升起。由此,我們會(huì)不斷的修正之前那個(gè)先驗(yàn),由此得到的后驗(yàn)認(rèn)知是下一天太陽(yáng)不會(huì)升起的概率越來(lái)越低。通過(guò)新證據(jù)或者數(shù)據(jù)來(lái)更新認(rèn)知的過(guò)程就是貝葉斯推斷。下面我們來(lái)正式的描述它。
假設(shè)我們有一個(gè)需要估計(jì)的未知量 θ,并且針對(duì)該變量有一個(gè)先驗(yàn)分布 P(θ)。令 D 為一系列觀測(cè)值或者證據(jù)。我們希望通過(guò) D 來(lái)修正對(duì) θ 的分布的認(rèn)知,即 P(θ|D) 是我們感興趣的。由貝葉斯定理可得:
在貝葉斯推斷的框架下,上面公式中的這些概率量都有約定俗成的名字:
可見(jiàn),通過(guò)使用貝葉斯推斷,我們可以合理的將先驗(yàn)認(rèn)知和實(shí)際證據(jù)結(jié)合在一起,得到一個(gè)更新的后驗(yàn)認(rèn)知。
此外,貝葉斯推斷框架的強(qiáng)大之處在于我們可以迭代的看問(wèn)題,即在每次有新觀測(cè)數(shù)據(jù)后我們可以得到一個(gè)新的后驗(yàn)分布,然后把它作為下個(gè)新數(shù)據(jù)出現(xiàn)前的(新的)先驗(yàn)分布。換句話說(shuō),在這個(gè)過(guò)程中我們通過(guò)反復(fù)迭代使用貝葉斯定理,持續(xù)更新對(duì)未知量的分布的認(rèn)知。
6 一個(gè)扔硬幣的例子
下面通過(guò)一個(gè)具體的例子來(lái)說(shuō)明貝葉斯推斷的過(guò)程。假設(shè)我們有一枚硬幣,并且想要推斷出扔硬幣時(shí)得到頭像(正面,heads)的概率 P(H) 是多少。用 θ 來(lái)表示這個(gè)概率。通過(guò)反復(fù)扔這枚硬幣便可以得到一個(gè)由正面和(或)反面結(jié)果組成的觀測(cè)序列,這就是觀測(cè)序列 D。
假設(shè)在開(kāi)始扔硬幣前,我們對(duì) θ 的分布 P(θ) 有如下先驗(yàn)猜想:θ 可以是 0 到 1 范圍內(nèi)的任何取值,并且均勻分布(比如 θ 等于 0 說(shuō)明該硬幣兩面都不是頭像;θ 等于 1 說(shuō)明該硬幣兩面都是頭像;θ 等于 0.5 意味著該硬幣一面頭像一面非頭像,且質(zhì)地均勻等)。在這個(gè)假設(shè)下,θ 的先驗(yàn)概率密度函數(shù)為 0 到 1 之間的一條水平線(下圖)。
下面我們就來(lái)說(shuō)說(shuō)如何通過(guò)貝葉斯定理、利用新的實(shí)驗(yàn)結(jié)果來(lái)更新這個(gè)先驗(yàn)分布。為此,引入一個(gè)非常有用的概念 —— 共軛先驗(yàn)(conjugate priors)。有點(diǎn)暈?別著急往下看。為了解釋它,我們先來(lái)介紹另一個(gè)應(yīng)用非常廣泛的分布 —— Beta 分布(Beta distribution)。
Beta 分布是一組定義在 0 到 1 區(qū)間上的連續(xù)概率分布,其具體形態(tài)由兩個(gè)參數(shù) α 和 β 決定,其概率密度函數(shù)為:
上式中 B(α, β) 是一個(gè)由 α 和 β 決定的系數(shù),以滿足 f 在 0 到 1 上的積分為 1。我們將上述概率密度函數(shù)簡(jiǎn)寫(xiě)為:Be(α, β)。前面說(shuō)過(guò),我們對(duì)于 θ 的先驗(yàn)分布猜測(cè)是 uniform distribution,而它是一種特殊的 Beta 分布,其對(duì)應(yīng) Beta 分布的參數(shù)為 α = 1 以及 β = 1,因此有 θ ~ Be(1, 1)。
當(dāng)我們拋擲概率為 θ 的硬幣時(shí),得到正面的概率為 θ,反面的概率為 1 - θ。因此,假如我們拋擲 n 次,得到 m 次正面的概率實(shí)際上是一個(gè)二項(xiàng)分布(binomial distribution),且滿足(以下 D 代表拋擲 n 次中得到 m 次正面這件事):
上式中
是一個(gè)系數(shù)。
一般的,當(dāng)先驗(yàn)滿足參數(shù)為 α 和 β 的 Beta 分布時(shí),由貝葉斯定理可知, 后驗(yàn)概率滿足:
可見(jiàn)此時(shí)后驗(yàn)滿足參數(shù)為 α m 和 β n - m 的 Beta 分布。在貝葉斯統(tǒng)計(jì)中,如果先驗(yàn)和后驗(yàn)屬于同類分布,則它們稱作共軛分布,而先驗(yàn)稱作是似然函數(shù)(本例中是二項(xiàng)分布)的共軛先驗(yàn)。
好了,數(shù)學(xué)基礎(chǔ)已經(jīng)打好,現(xiàn)在我們可以扔硬幣了。別忘了我們的先驗(yàn) uniform distribution 恰好是 Be(1, 1)。
下面我們開(kāi)始扔硬幣。假設(shè)扔了兩次后,得到了兩次頭像(n = m =2)。根據(jù)貝葉斯推斷,我們得到關(guān)于 θ 的更新后的后驗(yàn)概率密度函數(shù)為 Be(3, 1),如下圖所示??梢?jiàn)由于連續(xù)看到兩次頭像面的結(jié)果,我們開(kāi)始傾向于認(rèn)為 θ 的取值是越接近 1 越有可能。
讓我們繼續(xù)實(shí)驗(yàn)。假如我們?nèi)恿?10 次后得到 8 次正面,而扔了 20 次后得到了 11 次正面。根據(jù)這些結(jié)果,我們不斷更新 θ 的后驗(yàn)分布(下圖)。 當(dāng) 10 次中有 8 次正面時(shí),我們會(huì)認(rèn)為這個(gè)硬幣很有可能是不公平的,即正面和反面出現(xiàn)的概率不同(Be(9, 3))。而當(dāng) 20 次中出現(xiàn) 11 次正面時(shí),我們的認(rèn)知會(huì)再次根據(jù)新的結(jié)果得到修正,我們開(kāi)始認(rèn)為這個(gè)硬幣可能是公平的了(Be(12, 10))。
最后,下面兩張圖是經(jīng)過(guò)了 50 次(27 次正面)和 500 次(232 次正面)實(shí)驗(yàn)后的 θ 的后驗(yàn)分布(分別為 Be(28, 24) 和 Be(233, 269))。
隨著越來(lái)越多的新結(jié)果的出現(xiàn),我們對(duì)于 θ 的不確定性的認(rèn)知越來(lái)越清晰;對(duì)于 θ 的不同取值的信心越來(lái)越高。特別的,我們?cè)絹?lái)越有把握的說(shuō) θ 最有可能的取值是 0.5 附近。這體現(xiàn)在 500 次實(shí)驗(yàn)后,θ 的后驗(yàn)分布 P(θ|D) 已經(jīng)非常狹窄(換句話說(shuō),θ 的取值的標(biāo)準(zhǔn)差越來(lái)越?。?,且集中在 0.46 附近。假如這枚硬幣確實(shí)是一枚公平的硬幣,那么如果再進(jìn)行 500 此實(shí)驗(yàn),會(huì)發(fā)現(xiàn) P(θ|D) 會(huì)更加狹窄且 θ 的取值一定會(huì)集中在 0.5 附近。
這個(gè)例子完美的展示了貝葉斯推斷的強(qiáng)大。我們一開(kāi)始對(duì)未知量 θ 的猜測(cè)有非常大的不確定性(先驗(yàn)是 0 到 1 的均勻分布)。隨著越來(lái)越多的觀測(cè)值(500 個(gè)實(shí)驗(yàn)結(jié)果)的出現(xiàn),通過(guò)迭代使用貝葉斯定理,逐步細(xì)化、完善我們對(duì) θ 的不確定性的認(rèn)知,最終得到了關(guān)于 θ 的不確定性的非常自信的后驗(yàn)分布(即 θ 的分布以 0.5 為中心,標(biāo)準(zhǔn)差非常小,它最有可能的取值就是 0.5)。
貝葉斯統(tǒng)計(jì)是一個(gè)強(qiáng)大的工具;不熟悉它的人卻對(duì)其敬而遠(yuǎn)之。下面是網(wǎng)上關(guān)于貝葉斯統(tǒng)計(jì)的一個(gè)笑話。它可能代表著很多吃瓜群眾對(duì)貝葉斯統(tǒng)計(jì)的看法,以及貝葉斯統(tǒng)計(jì)學(xué)派的自嘲:
A Bayesian is one who, vaguely expecting a horse, and catching a glimpse of a donkey, strongly believes he has seen a mule.
譯:一個(gè)貝葉斯學(xué)派的學(xué)者是這樣的:他模糊的期待著一匹馬(先驗(yàn)),然而卻看到了一頭驢(證據(jù)),于是便自信的認(rèn)為那是一頭騾子(后驗(yàn))。