本文授權(quán)轉(zhuǎn)載自原點(diǎn)閱讀(ID:duhaoshu)
微信公眾號
如今,“概率”一詞在我們的生活中隨處可見,被人們使用得越來越廣泛和頻繁。
因?yàn)檫@是一個越來越多變的世界: 一切都在變化,一切都難以確定。我們的世界可以說是由變量構(gòu)成的,其中包括很多決定性變量。
比如新聞?wù)f: “北京時間2016年11月3日20時43分,長征五號在海南文昌成功發(fā)射”,這里的時間、地點(diǎn)都是確定的決定性變量。
然而,我們的生活中也有許多難以確定的隨機(jī)變量,比如明天霧霾的程度,或某公司的股票值,等等,都是不確定的隨機(jī)變量。隨機(jī)變量不是用固定的數(shù)值表達(dá),而是用某個數(shù)值出現(xiàn)的概率來描述。正因?yàn)樘幪幎加须S機(jī)變量,所以處處都聽見“概率”一詞。
你打開電視聽天氣預(yù)報(bào),看看今天會不會下雨,氣象預(yù)報(bào)員告訴你說: 今天早上8點(diǎn)鐘的“降水概率”是90%;你滿懷期望地買了50張彩票,朋友卻告訴你,不要白花這50塊錢,因?yàn)槟阒歇劦母怕手挥幸粌|分之一;你手臂上長了一個“肉瘤”,醫(yī)生初步檢查后安慰你,這塊東西是惡性瘤的概率只萬分之三而已……
生活中“概率”這個詞太常見了,以至于人們不細(xì)想也大概知道是個什么意思,比如說,最后一個例子中,0.03%的惡性概率的意思不就是說,“10000個這樣的肉瘤中,只有3個才會是惡性的”嗎?因此,在經(jīng)典意義上,概率就可以被粗糙地定義為事件發(fā)生的頻率,即發(fā)生次數(shù)與總次數(shù)的比值。更準(zhǔn)確地說,是總次數(shù)趨于無限時,這個比值趨近的極限。
雖然“概率”的定義不難懂,好像人人都會用,但你可能不知道,概率計(jì)算的結(jié)果經(jīng)常違背我們的直覺,概率論中有許多難以解釋、似是而非的悖論。
我們的思維過程中也有盲點(diǎn),需要通過計(jì)算和思考來澄清。概率論是一個經(jīng)常出現(xiàn)與直覺相悖的奇怪結(jié)論的領(lǐng)域,連數(shù)學(xué)家也是稍有不慎便會錯得一塌糊涂。
我們就舉例說明經(jīng)典概率中的一個悖論,叫作“基本比率謬誤(base rate fallacy)”。
從一個生活中的例子開始。王宏去醫(yī)院做化驗(yàn),檢查他患上某種疾病的可能性。其結(jié)果居然為陽性,他趕忙在網(wǎng)上查詢。
網(wǎng)上的資料說,檢查總是有誤差的,這種檢查有“1%的假陽性率和1%的假陰性率”。這句話的意思是說,在得病的人中做檢查,有1%的人是假陰性,99%的人是真陽性。而在未得病的人中做檢查,有1%的人是假陽性,99%的人是真陰性。于是,王宏估計(jì)他自己得了這種疾病的可能性為99%。王宏想,既然只有1%的假陽性率,99%都是真陽性,那我在人群中已被感染這種病的概率便應(yīng)該是99%。
可是,醫(yī)生卻告訴他,他在普通人群中被感染的概率只有9%左右。這是怎么回事呢?王宏的思路誤區(qū)在哪里?
醫(yī)生說: “99%?哪有那么大的感染概率啊。99%是測試的準(zhǔn)確性,不是你得病的概率。你忘了一件事: 被感染這種疾病的正常比例是不大的,1000個人中只有一個人患病?!?/p>
這位醫(yī)生經(jīng)常將概率方法用于醫(yī)學(xué)上。他的計(jì)算方法基本上是這樣的: 因?yàn)闇y試的誤報(bào)率是1%,1000個人將有10個被報(bào)為“假陽性”,而根據(jù)這種病在人口中的比例(1/1000=0.1%),真陽性只有1個,所以,大約11個測試為陽性的人中只有一個是真陽性的,因此,王宏被感染的概率大約是1/11,即9%。
王宏思來想去仍感到糊涂,但這件事激發(fā)了王宏去重溫他之前學(xué)過的概率論。經(jīng)過反復(fù)閱讀,再思考琢磨醫(yī)生的算法之后,他明白了自己犯了那種叫作“基本比率謬誤”的錯誤,即忘記使用“這種病在人口中的基本比例(1/1000)”這個事實(shí)。
談到基本比率謬誤,我們最好是先從概率論中著名的貝葉斯定理說起。托馬斯·貝葉斯(Thomas Bayes ,1701—1761)是英國統(tǒng)計(jì)學(xué)家。
托馬斯·貝葉斯
貝葉斯定理是他對概率論和統(tǒng)計(jì)學(xué)做出的最大貢獻(xiàn),是當(dāng)今人工智能中常用的機(jī)器學(xué)習(xí)的基礎(chǔ)框架,它的思想之深刻遠(yuǎn)超一般人所能認(rèn)知。
粗略地說,貝葉斯定理涉及兩個隨機(jī)變量A和B的相互影響,如果用一句話來概括,這個定理說的是: 利用B帶來的新信息,應(yīng)如何修改B不存在時A的“先驗(yàn)概率”P(A),從而得到B存在時的“條件概率”P(A|B),或稱后驗(yàn)概率,如果寫成公式:
這里先驗(yàn)、后驗(yàn)的定義是一種約定俗成,是相對的。比如說也可以將A、B反過來敘述,即如何從B的先驗(yàn)概率P(B),得到B的“條件概率”P(B|A),見圖中虛線所指。
不要害怕公式,通過例子,我們就能慢慢理解它。例如,對前面王宏看病的例子,隨機(jī)變量A表示“王宏得某種病”;隨機(jī)變量B表示“王宏的檢查結(jié)果”。先驗(yàn)概率P(A)指的是王宏在沒有檢查結(jié)果時得這種病的概率(即這種病在公眾中的基本概率0.1%);而條件概率(或后驗(yàn)概率)P(A|B)指的是王宏“檢查結(jié)果為陽性”的條件下得這種病的概率(9%)。如何從基本概率修正到后驗(yàn)概率的?我們待會兒再解釋。
貝葉斯定理是18世紀(jì)的產(chǎn)物,200來年用得好好的,卻不想在20世紀(jì)70年代遇到了挑戰(zhàn),該挑戰(zhàn)來自于丹尼爾·卡尼曼(Daniel Kahneman,1934—)和特維爾斯基(Tversky)提出的“基本比率謬誤”。前者是以色列裔美國心理學(xué)家,2002年諾貝爾經(jīng)濟(jì)學(xué)獎得主?;颈嚷手囌`并不是否定貝葉斯定理,而是探討一個使人困惑的問題: 為什么人的直覺經(jīng)常與貝葉斯公式的計(jì)算結(jié)果相違背?如同剛才的例子所示,人們在使用直覺的時候經(jīng)常會忽略基礎(chǔ)概率。
卡尼曼等人在他們的文章《思考,快與慢》中舉了一個出租車的例子,來啟發(fā)人們思考這個影響人們“決策”的原因。
我們不想在這里深談基本比率謬誤對“決策理論”的意義,只是借用此例來加深對貝葉斯公式的理解。
假如某城市有兩種顏色的出租車: 藍(lán)色和綠色(市場占有比例為15∶85)。一輛出租車夜間肇事后逃逸,但還好當(dāng)時有一位目擊證人,這位目擊者認(rèn)定肇事的出租車是藍(lán)色的。但是,他“目擊的可信度”如何呢?
公安人員在相同環(huán)境下對該目擊者進(jìn)行“藍(lán)綠”測試得到: 80%的情況下識別正確,20%的情況不正確。也許有讀者立刻就得出了結(jié)論: 肇事車是藍(lán)色的概率應(yīng)該是80%吧。如果你做此回答,便是犯了與上面例子中王宏同樣的錯誤,忽略了先驗(yàn)概率,沒有考慮在這個城市中“藍(lán)綠”車的基本比例。
那么,肇事車是藍(lán)色的(條件)概率到底應(yīng)該是多少呢?貝葉斯公式能給出正確的答案。首先我們必須考慮藍(lán)綠出租車的基本比例(15∶85)。
也就是說,在沒有目擊證人的情況下,肇事車是藍(lán)色的概率只有15%,這是“A=藍(lán)車肇事”的先驗(yàn)概率P(A)= 15%?,F(xiàn)在,有了一位目擊者,便改變了事件A出現(xiàn)的概率。目擊者看到車是“藍(lán)”色的。不過,他的目擊能力也要打折扣,只有80%的準(zhǔn)確率,即也是一個隨機(jī)事件(記為B)。
我們的問題是求出在有該目擊證人“看到藍(lán)車”的條件下肇事車“真正是藍(lán)色”的概率,即條件概率P(A|B)。后者應(yīng)該大于先驗(yàn)概率15%,因?yàn)槟繐粽呖吹健八{(lán)車”。如何修正先驗(yàn)概率?需要計(jì)算P(B|A)和P(B)。
因?yàn)锳=藍(lán)車肇事、B=目擊藍(lán)色,所以P(B|A)是在“藍(lán)車肇事”的條件下“目擊藍(lán)色”的概率,即P(B|A) =80%。最后還要算先驗(yàn)概率P(B),它的計(jì)算麻煩一點(diǎn)。P(B)指的是目擊證人看到一輛車為藍(lán)色的概率,等于兩種情況的概率相加: 一種是車為藍(lán),辨認(rèn)也正確;另一種是車為綠,錯看成藍(lán)。所以:
從貝葉斯公式:
可以算出在有目擊證人情況下肇事車輛是藍(lán)色的概率為41%,同時也可求得肇事車輛是綠車的概率為59%。被修正后的“肇事車輛為藍(lán)色”的條件概率41%大于先驗(yàn)概率15%很多,但是仍然小于肇事車為綠色的概率0.59。
回到對王宏測試某種病的例子,我們也不難得出正確的答案: