作者:Matthew Mayo
翻譯:馮羽
校對(duì):陳雨琳
本文長(zhǎng)度約為2500字,建議閱讀5分鐘
本文介紹了數(shù)據(jù)科學(xué)家應(yīng)該避免的五種統(tǒng)計(jì)陷阱。
標(biāo)簽:偏見(jiàn),謬誤,辛普森悖論,統(tǒng)計(jì)
這篇文章講了五種統(tǒng)計(jì)謬誤,也可以稱(chēng)為數(shù)據(jù)陷阱,數(shù)據(jù)科學(xué)家應(yīng)該重視并絕對(duì)避免它們。謬誤就是我們所說(shuō)的錯(cuò)誤推理的結(jié)果。統(tǒng)計(jì)謬誤是統(tǒng)計(jì)誤用的一種形式,其統(tǒng)計(jì)推理能力極差;或許你擁有的數(shù)據(jù)正確,但無(wú)論你的意圖多么純粹,你所使用的方法和解釋都不正確。因此,你基于這些錯(cuò)誤舉動(dòng)做出的任何決定都必然是錯(cuò)誤的。
有無(wú)數(shù)種基于數(shù)據(jù)進(jìn)行錯(cuò)誤推理的方法,其中某些方法比其他方法錯(cuò)得更加明顯。由于人們一直犯這類(lèi)錯(cuò)誤,許多統(tǒng)計(jì)謬論已經(jīng)被識(shí)別并被解釋。好消息是,一旦識(shí)別并研究了它們,我們就可以避免它們。讓我們看看其中一些相對(duì)更常見(jiàn)的謬誤,看看如何避免它們。
當(dāng)誤用統(tǒng)計(jì)是無(wú)意的,這個(gè)過(guò)程類(lèi)似于認(rèn)知偏見(jiàn),維基百科將其定義為“以特定方式進(jìn)行思考的傾向,可能導(dǎo)致系統(tǒng)性地偏離理性或良好判斷標(biāo)準(zhǔn)”。前者建立在數(shù)據(jù)之上不正確的推理和對(duì)數(shù)據(jù)進(jìn)行顯式和主動(dòng)的分析,而后者則更隱式和被動(dòng)地達(dá)到了類(lèi)似的結(jié)果。但是,這并不是絕對(duì)的,因?yàn)檫@兩種現(xiàn)象之間肯定存在重疊。最終結(jié)果是相同的:錯(cuò)誤。
這里有五個(gè)統(tǒng)計(jì)謬誤,或者稱(chēng)之為陷阱,數(shù)據(jù)科學(xué)家應(yīng)該重視并絕對(duì)避免它們。做不到這一點(diǎn)對(duì)數(shù)據(jù)結(jié)果和數(shù)據(jù)科學(xué)家的信譽(yù)的打擊都是災(zāi)難性的。
1、挑選櫻桃
為了說(shuō)明統(tǒng)計(jì)謬誤多么明顯和簡(jiǎn)單,讓我們從每個(gè)人都應(yīng)該知道的經(jīng)典謬論開(kāi)始:挑選櫻桃。我們可以將其歸類(lèi)為其他容易識(shí)別的謬誤,例如“賭徒謬誤”“虛假因果關(guān)系”“偏見(jiàn)抽樣”“過(guò)度概括”等等。
挑選櫻桃的想法很簡(jiǎn)單,你之前肯定已經(jīng)做過(guò)這樣的事情:有意選擇那些有助于支持你的假設(shè)的數(shù)據(jù)點(diǎn),而犧牲其他不支持你的假設(shè)或積極反對(duì)你的假設(shè)的數(shù)據(jù)點(diǎn)。你聽(tīng)過(guò)政客講話嗎?那么你一定會(huì)聽(tīng)到“挑選櫻桃”。另外,如果你是一個(gè)活生生的呼吸的人類(lèi),那么在生命中的某個(gè)時(shí)刻你已經(jīng)選擇了挑選櫻桃的數(shù)據(jù)。你知道你有這么做過(guò)。它往往很誘人,是一種很容易獲得的成果,可以在辯論中贏得或混淆對(duì)手,或者以反對(duì)的觀點(diǎn)為代價(jià)來(lái)幫助推動(dòng)議程。
為什么不好?因?yàn)檫@是不誠(chéng)實(shí)的,這就是原因。如果數(shù)據(jù)是事實(shí),并且使用統(tǒng)計(jì)工具分析數(shù)據(jù)將有助于發(fā)掘事實(shí),那么“挑選櫻桃”就是尋求事實(shí)的對(duì)立面。不要這樣做。
2、麥克納馬拉謬誤
麥克納馬拉謬誤以美國(guó)前國(guó)防部部長(zhǎng)羅伯特·麥克納馬拉的名字命名,在越南戰(zhàn)爭(zhēng)期間,他的有關(guān)決定基于那些很容易獲得的定量度量,而忽略其他定量度量。這導(dǎo)致他將個(gè)體計(jì)數(shù)(容易獲得的指標(biāo))作為成功的唯一指標(biāo),而以其他所有定量指標(biāo)為代價(jià)。
不用花很多腦力,你就會(huì)發(fā)現(xiàn),簡(jiǎn)單的個(gè)體計(jì)數(shù)很可能使你在評(píng)估戰(zhàn)場(chǎng)表現(xiàn)時(shí)誤入歧途。舉一個(gè)簡(jiǎn)單的例子,也許敵人正以不成比例的戰(zhàn)斗人員進(jìn)入你的領(lǐng)土,并控制領(lǐng)土,但陣亡人數(shù)比己方略多。另外,也許敵人比例囚禁你的戰(zhàn)士的比例高于你殺死敵人的比例,等等。
增加統(tǒng)計(jì)盲點(diǎn)并把所有信任放在一個(gè)簡(jiǎn)單的度量上,不足以全面了解越南正在發(fā)生的事情,也無(wú)法全面了解你所做的事情。
3、眼鏡蛇效應(yīng)
眼鏡蛇效應(yīng)被認(rèn)為是一個(gè)問(wèn)題解決方案的意外后果,但這反而使問(wèn)題變得更糟。該名稱(chēng)來(lái)自在英國(guó)殖民統(tǒng)治下發(fā)生在印度的這一現(xiàn)象的特定實(shí)例,其中包括,你肯定猜到了,眼鏡蛇。
維基百科頁(yè)面上有一些眼鏡蛇效應(yīng)的例子,我最喜歡的是在1980年代末嘗試減少墨西哥城污染物的例子。政府打算根據(jù)車(chē)牌的最后一位數(shù)字,將特定周內(nèi)可行駛的車(chē)輛數(shù)量限制為20%,以減少車(chē)輛的排放。為了規(guī)避這項(xiàng)政策,該市居民購(gòu)買(mǎi)了其他帶有不同車(chē)牌的車(chē)輛,以期在禁止其主要車(chē)輛使用之日起能夠駕駛其他允許的駕駛車(chē)輛。這導(dǎo)致相對(duì)便宜的汽車(chē)泛濫成災(zāi),最終使污染問(wèn)題惡化。
鑒于意外后果的性質(zhì)是潛在的,并且很難預(yù)測(cè),因此這比挑選櫻桃要難應(yīng)對(duì)得多。團(tuán)隊(duì)采用數(shù)據(jù)科學(xué)方法,以及更多人員帶來(lái)額外思考過(guò)程,是對(duì)抗眼鏡蛇效應(yīng)的好方法。
4、辛普森悖論
這種悖論以英國(guó)統(tǒng)計(jì)學(xué)家愛(ài)德華·辛普森命名(盡管先前已被其他人識(shí)別),是指觀察到數(shù)據(jù)集子集中的某些趨勢(shì),但這些趨勢(shì)隨著子集的合并就消失了。從這個(gè)意義上講,可以將其視為無(wú)意中的挑選櫻桃。棒球的例子可以幫助說(shuō)明這種悖論。
如果我們比較兩位職業(yè)球手在他們整個(gè)職業(yè)生涯的平均擊球率,你可能會(huì)發(fā)現(xiàn)在某些年份子集,球員A的擊球平均值高于球員B,甚至可能更高。但是,完全有可能的是,在整個(gè)職業(yè)生涯查看擊球平均數(shù),球員B實(shí)際上比球員A擁有更高的擊球平均數(shù),甚至可能更高。
如果你提前知道這一點(diǎn),并有選擇地選擇了X,Y和Z年份作為A是更好球員的證據(jù),那就是挑選櫻桃。如果你不了解聚合統(tǒng)計(jì)信息,但偶然碰到了那些孤立的年份,并把它們作為整個(gè)職業(yè)生涯的代表,但是(希望)在查看了全部統(tǒng)計(jì)信息后發(fā)現(xiàn)了另外的情況,那將是辛普森悖論的一個(gè)例子。
兩種情況都導(dǎo)致錯(cuò)誤的結(jié)果,其中一種是導(dǎo)致錯(cuò)誤理解的更無(wú)辜的方式。不過(guò),這仍然是錯(cuò)誤的,應(yīng)該加以防范。全面的統(tǒng)計(jì)分析應(yīng)成為數(shù)據(jù)科學(xué)家的工作方案的一部分,并且是確保你不屈服于這種現(xiàn)象的一種有效方法。
5、數(shù)據(jù)疏浚
數(shù)據(jù)疏浚還有其他更加不好的名字,例如 p-hacking,它是“誤用數(shù)據(jù)分析以查找數(shù)據(jù)中具有統(tǒng)計(jì)學(xué)意義的模式,而這些模式實(shí)際上沒(méi)有任何真實(shí)潛在影響?!?這相當(dāng)于對(duì)數(shù)據(jù)進(jìn)行廣泛的統(tǒng)計(jì)測(cè)試,并從重大結(jié)果中挑選櫻桃,以提高敘事效果(真正的挑選櫻桃?)。雖然統(tǒng)計(jì)分析應(yīng)該從假設(shè)轉(zhuǎn)移到檢驗(yàn),但數(shù)據(jù)疏浚利用統(tǒng)計(jì)檢驗(yàn)的結(jié)果強(qiáng)制獲得一個(gè)一致的假設(shè)。這相當(dāng)于“我認(rèn)為是這樣,現(xiàn)在我將測(cè)試我是否正確”與“讓我們看看數(shù)據(jù)可以通過(guò)測(cè)試說(shuō)出什么,然后提出一個(gè)有助于支持這個(gè)結(jié)果的想法”之差。
但是為什么這樣做是錯(cuò)的呢?為什么我們要首先形成假設(shè)然后進(jìn)行檢驗(yàn),而不是僅僅讓數(shù)據(jù)決定我們從未想到要尋找的發(fā)現(xiàn)呢?有了足夠的數(shù)據(jù)和足夠的變量,我們就可以測(cè)試相關(guān)性,不需要很長(zhǎng)時(shí)間我們就可以發(fā)現(xiàn)足夠多的顯著的個(gè)體組合。如果我們忽略所有反事實(shí)證據(jù),而將注意力集中在這些一致的測(cè)試結(jié)果上,那么似乎那里確實(shí)有東西,而實(shí)際上卻沒(méi)有。它們只是偶然出現(xiàn)的結(jié)果。抓住機(jī)會(huì)并證明機(jī)會(huì)的合理性顯然不是科學(xué)應(yīng)有的意義。
對(duì)于相關(guān)概念以及“機(jī)會(huì)確定線”的確定方法,請(qǐng)參閱Bonferroni校正。
Bonferroni校正
https://en.wikipedia.org/wiki/Bonferroni_correction
原文標(biāo)題:
5 Statistical Traps Data Scientists Should Avoid
原文鏈接:
https://www.kdnuggets.com/2019/10/statistical-traps-data-scientists-avoid.html
編輯:王菁
校對(duì):呂艷芹
譯者簡(jiǎn)介
馮羽,算法工程師。負(fù)責(zé)設(shè)計(jì)個(gè)人或企業(yè)信用風(fēng)險(xiǎn)評(píng)估算法、市場(chǎng)風(fēng)險(xiǎn)評(píng)估算法、仿真優(yōu)化算法等。數(shù)據(jù)派志愿者。
聯(lián)系客服