国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
迷人又詭異的辛普森悖論:

大數(shù)據(jù)文摘出品

編譯:胡笳、狗小白、張弛、錢天培


想象一下下面這個場景。


你和你的小伙伴準備找個地方搓一頓,但在兩家餐廳的選擇上爭執(zhí)不休。


于是乎,秉持“數(shù)據(jù)驅(qū)動人生”的你倆搬出了小眾點評網(wǎng)的評分數(shù)據(jù)。


你發(fā)現(xiàn),你想去的這家餐廳的評分果然比另一家高。


正當你得意不已的時候,你的小伙伴宣布了TA的發(fā)現(xiàn):另一家餐廳的評分更高。


這是咋回事呢?莫非評論網(wǎng)站的數(shù)據(jù)還出錯了不成?


事實上,你和你的小伙伴都是對的,你們只是在不知不覺中掉進了辛普森悖論的詭計。


在辛普森悖論中,餐館可以同時比競爭對手更好或更差,鍛煉可以降低和增加疾病的風險,同樣的數(shù)據(jù)集能夠用于證明兩個完全相反的論點。


相比于晚上出去大餐,你和小伙伴也許更值得討論這個吸引人的統(tǒng)計現(xiàn)象。


辛普森悖論指的是,數(shù)據(jù)集分組呈現(xiàn)的趨勢與數(shù)據(jù)集聚合呈現(xiàn)的趨勢相反的現(xiàn)象。


在上面餐廳推薦的例子中,你可以通過看男性和女性各組的評分,也可以看整體的評分。如下圖所示。


Carlo’s 在男性和女性推薦率上都贏了,但卻輸在了總體推薦率上?。?!


圖中數(shù)據(jù)清楚地表明,當單獨考慮每組數(shù)據(jù)時,結(jié)果顯示Carlo’s 優(yōu)勝,但當合并數(shù)據(jù)后,結(jié)果卻是Sophia’s 優(yōu)勝!


這怎么可能呢?這里的問題在于,只查看單獨各組數(shù)據(jù)的百分比會忽略掉樣本的大小,也就是評論者的人數(shù)。每個百分比都由推薦用戶數(shù)與相對應的評論人數(shù)計算得到。Carlo’s 有更多的男性評論者,而Sophia’s 有更多的女性評論者,因此導致了矛盾的結(jié)果。


要想回答該去哪家餐廳的問題,我們需要考慮數(shù)據(jù)是否可以合并,或者是否應該單獨考慮。我們是否應該合并數(shù)據(jù)取決于數(shù)據(jù)的生成過程——即數(shù)據(jù)的因果模型。在下一個例子中,我們將介紹這一具體含義以及如何解決辛普森悖論。


相關(guān)性反轉(zhuǎn)


辛普森悖論的另一個有趣的現(xiàn)象表現(xiàn)在,分層組數(shù)據(jù)表現(xiàn)的相關(guān)性方向與整體數(shù)據(jù)表現(xiàn)的相關(guān)性方向截然相反。我們來看一個簡化后的例子。假設(shè)我們有每周運動小時數(shù)與兩組患者(分別為50歲以下和50歲以上的患者)患病風險的對比數(shù)據(jù)。以下是各組運動數(shù)據(jù)與患病可能性的散點圖。


根據(jù)年齡分層后的患病率與每周運動小時數(shù)據(jù)關(guān)系圖(左側(cè):小于50歲,右側(cè):大于50歲)


從圖中我們可以清楚地看到數(shù)據(jù)負相關(guān),表明增加每周運動量與兩組患者患病率的風險降低相關(guān)。下面讓我們將數(shù)據(jù)合并在一起再來看看他們的關(guān)系:

合并后的患病率與運動數(shù)據(jù)圖


相關(guān)性完全逆轉(zhuǎn)了!如果只給出這張圖結(jié)果,我們會得到這樣的結(jié)論:運動增加了患病風險,這與我們從分層數(shù)據(jù)散點圖中得到的結(jié)論完全相反。


運動如何既減少又增加疾病風險呢?其實并不然,要想弄清如何解決這個悖論,我們需要從數(shù)據(jù)的生成過程來考慮展示的數(shù)據(jù)和原因——是什么產(chǎn)生了這些結(jié)果。


解決悖論


為了避免辛普森悖論導致得出兩個相反的結(jié)論,我們需要選擇將數(shù)據(jù)分組還是合并。這聽起來似乎很簡單,但到底應該如何抉擇?答案就是因果性思考:數(shù)據(jù)是如何產(chǎn)生的?并且在此基礎(chǔ)上,哪些我們沒看到的因素在影響結(jié)果?


在運動與疾病的例子中,我們直觀地知道運動不是影響發(fā)病率的唯一因素。這里還有其他因素,如飲食、環(huán)境、遺傳因素等。但是,在上圖中,我們只看到了發(fā)病率與運動時間的關(guān)系。在這個假設(shè)的例子中,我們假設(shè)疾病是由運動和年齡引起的。用下面的疾病概率的因果模型來表示他們的關(guān)系。

發(fā)病率的因果模型中有兩個因素


數(shù)據(jù)中存在兩種不同的因素與發(fā)病率相關(guān),但對于匯總后的數(shù)據(jù),我們只觀察了發(fā)病率與運動時間的關(guān)系,卻完全忽略了第二個因素——年齡。如果我們進一步畫出發(fā)病率與年齡的關(guān)系,就能發(fā)現(xiàn)患者的年齡與發(fā)病率強相關(guān)。


按年齡分層后的發(fā)病率與年齡關(guān)系圖(左側(cè):小于50歲;右側(cè):大于50歲)


隨著患者年齡的增加,她/他患病的風險隨之增加,這表明即使運動量相同情況下,年長者也比年輕者更容易患病。因此,為了單獨評估運動對疾病的真正影響,我們希望保持患者的年齡不變,并改變每周運動量。


一種實現(xiàn)的方式是將數(shù)據(jù)分成幾組,通過這種方式,我們可以看到,對于給定年齡組,運動可以降低患病風險。也就是說,在控制年齡因素的情況下,運動與低患病率相關(guān)。根據(jù)數(shù)據(jù)生成過程和應用因果模型,我們可以通過數(shù)據(jù)分層來控制附加因素解決辛普森悖論。


思考需要回答的問題也可以幫助我們解決悖論。在餐廳的例子中,我們想知道哪家餐廳最有可能讓我和小伙伴都滿意。雖然除了餐廳本身質(zhì)量,還可能存在其他因素影響評論,但在沒有這些潛在數(shù)據(jù)的情況下,我們希望將所有評論結(jié)合在一起來看看整體平均結(jié)果。在這種情況下,分析合并后的數(shù)據(jù)更有意義。


在運動與疾病案例中需要提出的相關(guān)問題是,我們自己是否應該增加運動來減少個體患病風險?由于我們的年齡或者處于小于50/大于50兩個區(qū)間內(nèi)(這里不考慮年齡正好為50歲的情況),我們需要根據(jù)具體年齡觀察對應的數(shù)據(jù)組,而且無論我們屬于哪組,結(jié)論都顯示確實應該多鍛煉。


想想數(shù)據(jù)生成過程,要回答我們的問題所需要的不僅僅是觀察數(shù)據(jù)本身。這幾乎揭示了辛普森悖論中最關(guān)鍵的一點:數(shù)據(jù)本身是不夠的。數(shù)據(jù)從來都不是完全客觀的,特別是當我們只看最后展示的圖表時,我們需要考慮是否看到了全貌。


我們可以嘗試觀察得更全面,通過思考什么生成了數(shù)據(jù),又有哪些未展示因素對數(shù)據(jù)產(chǎn)生了影響。這些問題的回答常常揭示著我們實際應該得出完全相反的結(jié)論!


現(xiàn)實生活中的辛普森悖論


辛普森悖論與其它一些統(tǒng)計概念不同,它并非是人為發(fā)明的純理論概念,在現(xiàn)實生活中會實實在在地發(fā)生。


事實上,已經(jīng)有很多著名的辛普森悖論案例了。


其中一個案例是關(guān)于兩種腎結(jié)石治療效果的數(shù)據(jù)。單獨看治療效果方面的數(shù)據(jù),A療法對治療兩種大小的腎結(jié)石的效果都更好,但是將數(shù)據(jù)合并后發(fā)現(xiàn),B療法針對所有情況的療效更優(yōu)。下表展示了康復率:


治療腎結(jié)石的數(shù)據(jù)


這怎么可能呢?這個悖論可以用涉及相關(guān)專業(yè)知識的數(shù)據(jù)生成過程,或者說因果模型,來解決。若小結(jié)石被視為不嚴重的病癥,那么A療法相較B療法開的創(chuàng)口更大。因此,對于小結(jié)石,醫(yī)生們常推薦B療法,由于病情本身也不嚴重,因此病人康復率也較高。但對于嚴重的大結(jié)石,醫(yī)生們常選用創(chuàng)口更大、療效也更好的A療法。雖然A療法在針對這些病癥時表現(xiàn)得更好,但由于情況更嚴重,整體的康復率還是比B療法要差一些。


在這則現(xiàn)實例子中,腎結(jié)石的大小,或者說病癥的嚴重性,被稱為混淆因子;它對自變量(治療方法)和因變量(康復率)都有影響。我們在數(shù)據(jù)表里是看不到混淆因子的,但它們可以體現(xiàn)在因果關(guān)系圖中:


含混淆因子的因果關(guān)系圖


這個例子中的結(jié)果,康復率,受到療法和結(jié)石大?。ú“Y嚴重性)的雙重影響。此外,療法的選擇取決于結(jié)石的大小,從而結(jié)石大小是一個混淆因子。要找到究竟哪種療法效果更好,我們需要控制混淆因子,進行分組對比康復率,而非對不同的群組數(shù)據(jù)進行簡單合并。這樣,我們得出結(jié)論,A療法更優(yōu)秀。


或者還可以這樣看待這個問題:對小結(jié)石而言,A療法更優(yōu);嚴重一些的大結(jié)石,依然是A療法更優(yōu)。因此,不論結(jié)石的大小程度,A療法總是最優(yōu)——悖論解決。


合并數(shù)據(jù)有時很有用,但有些情況下卻對真實情況產(chǎn)生了干擾。


證明一個論點,又能證明其相反的觀點


辛普森悖論也是政客們的常用伎倆。



下面這個例證展示了,辛普森悖論是如何證明兩個相反的政治觀點的。


下表表明,在福特總統(tǒng)的1974~1978年的任期中,他對每個收入人群都進行了減稅,但此期間全國性的稅收額有明顯上漲。數(shù)據(jù)展示如下:


所有個人稅率都下降了,但整體稅率有所上升


我們可以清晰地看到1974-1978年間,每個納稅區(qū)間的稅率都有所下降,但整體稅率卻上升了?,F(xiàn)在,我們知道了如何解決悖論:尋找影響整體稅率的其它因素。整體稅率不僅受每個納稅區(qū)間影響,還取決于每個納稅區(qū)間的可征稅收入數(shù)額。因通貨膨脹影響(名義工資上漲),1978年有更多的收入落入更高稅率的稅收區(qū)間,而收入落入較低稅率的稅收區(qū)間有所下降,因此整體稅率有所上漲。


是否要合并數(shù)據(jù),取決于在數(shù)據(jù)生成過程之外,還包括我們想了解什么問題,又或者是我們的政治觀點究竟是什么。從個人角度來說,我們只是一個個體,關(guān)心的是在個人的稅收區(qū)間內(nèi)的稅率。要搞清楚從1974年到1978年間,個人所得稅到底有沒有增長,必須要弄清楚我們稅收區(qū)間的稅率是否發(fā)生了變化,以及我們的稅收區(qū)間是否到了一個新的區(qū)間中。個人所得稅受兩個因素影響,但這張表格的數(shù)據(jù)只展示了其中一個。


辛普森悖論有何意義


辛普森悖論的重要性在于它揭示了我們看到的數(shù)據(jù)并非全貌。我們不能滿足于展示的數(shù)字或圖表,我們需要考慮整個數(shù)據(jù)生成過程,考慮因果模型。一旦我們理解了數(shù)據(jù)產(chǎn)生的機制,我們就能從圖表之外的角度來考慮問題,找到其它影響因素。大部分數(shù)據(jù)科學家并沒有學習因果思考的模式,而這種思考模式對我們而言至關(guān)重要,因為它能防范我們從數(shù)據(jù)中得出錯誤結(jié)論。除了使用數(shù)據(jù),我們需要運用經(jīng)驗和業(yè)務知識,或者向?qū)<覍W習,來更好地進行決策。


此外,雖然我們的直覺常常很準,但在現(xiàn)有信息不全的情況下直覺還是會不準。我們傾向于對只關(guān)注眼前的東西(所見即所得)而不是用我們理性而遲緩的思考去挖掘更深層的東西。我們需要對數(shù)字本身持懷疑態(tài)度,尤其是當別人想向我們營銷產(chǎn)品或項目計劃時。


數(shù)據(jù)是一個有力的武器,它既能被用來澄清現(xiàn)實,也能被用來混淆是非。


相關(guān)報道:

https://towardsdatascience.com/simpsons-paradox-how-to-prove-two-opposite-arguments-using-one-dataset-1c9c917f5ff9



【今日機器學習概念】

Have a Great Definition

本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
辛普森悖論:如何用同一數(shù)據(jù)證明相反的論點
辛普森悖論和樸素貝葉斯
膽結(jié)石的病因與療法.
視頻|辛普森一家中的數(shù)學-Apu的悖論
統(tǒng)計學陷阱——辛普森悖論
王孟源:邏輯——一個重要的統(tǒng)計悖論
更多類似文章 >>
生活服務
分享 收藏 導長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服