国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
概率論的入門指南

本文是如何七周成為數(shù)據(jù)分析師》的第十四篇教程,如果想要了解寫作初衷,可以先行閱讀七周指南。溫馨提示:如果您已經(jīng)熟悉概率,大可不必再看這篇文章,或只挑選部分。


概率是度量一件事發(fā)生的可能性,它是介于0到1之間的數(shù)值。


我們拋一枚硬幣,它有正面朝上和反面朝上兩種結(jié)果,通常用樣本空間S表示,S={正面,反面}。


如果把硬幣拋兩次呢?它擁有四種結(jié)果,S={(正面,正面),(反面,反面),(正面,反面),(反面,正面)}。拋三次則是六種。


現(xiàn)實中的概率事件更復(fù)雜,比如六合彩,它會有多少種可能性?這時不能再像硬幣一樣心算了,要用到組合的知識。


  組合和排列


組合是高中課本的內(nèi)容,當需要從N個物體中選取n個物體,可以通過組合公式計算出可能的結(jié)果數(shù)量。



公式或許和大家印象中的有差異,因為中國國內(nèi)的數(shù)學教材以蘇聯(lián)為主,N和n的上下位置與歐美教材是相反的。我這里以歐美規(guī)范為主。


從五個顏色各異的小球中隨機抽取兩個時,將數(shù)值帶入到公式,得出答案為10種。


排列是組合的特殊情況,當要考慮選取的順序時,相同的n個物體,因為不同的順序會有不同的結(jié)果,公式變?yōu)椋?/span>



依舊是五種顏色的小球,這時需要考慮選取的小球顏色先后次序,代入求出答案變?yōu)?0種。


在Excel的函數(shù)中,COMBIN和PERMUT函數(shù)分別對應(yīng)組合和排列。


  事件及概率


前面我們已經(jīng)定義了樣本空間S,稱事件為樣本空間的一個子集,它是概率論的基礎(chǔ)。


硬幣正面朝上是一個事件,反面朝上也是一個事件。當硬幣扔兩次時,也可以定義一個事件叫至少有一次正面朝上,此時事件為{(正面,正面),(正面,反面),(反面,正面)}。


單純的事件沒有意義,要結(jié)合概率來思考。比如至少有一次正面朝上,它由(正面,正面),(正面,反面),(反面,正面)三個事件求和得出,概率為75%。


通常,如果能確定一個試驗的所有樣本點并且能夠知曉每個樣本點的概率,那么我們就能求出事件的概率。


雖然大量的樣本點會造成計算的繁瑣,但是通過一些基本公式和定理能快速計算。


事件A的補指所有不屬于事件A的樣本點組成的事件。概率中有一個可視化技巧叫文氏圖/維恩圖。



事件的補可以定義為P(A-),有P(A-)+P(A)=1。針對拋兩次硬幣至少有一次朝上的概率為75%,它的補集為一次朝上都沒有,其概率為1-75%=25%。


  概率的公式


事件的組合有兩個概念:并和交。事件A和B的并,可以用SQL中的Full join理解,即包含了事件A和事件B的所有樣本點。記作A∪B。



兩個圓形區(qū)域所在的部分就是事件A和B的并,其中重疊的部分說明有一些樣本點即屬于A又屬于B,它可以稱之為交,可以用SQL中的Inner Join理解。記作A∩B。


通過交和并,引申出概率中的加法公式:


P(A∪B) = P(A)+P(B) - P(A∩B)。P(A∪B) 是兩個圓形面積,P(A)是藍色圓面積,P(B)是橙色圓面積,當兩者相加時,會多出一塊重疊區(qū)域,于是減去P(A∩B)進行修正,得出正確的結(jié)果。


再來考慮事件中的一種特殊情況,互斥事件。事件A和事件B中,當一個發(fā)生另外一個肯定不發(fā)生,則稱為互斥事件。此時,P(A∪B) = P(A)+P(B) 。


生活中很多概率處處相互關(guān)聯(lián)和影響。某個事件A發(fā)生的可能性受到另外一個事件B的影響,此時A發(fā)生的可能性叫做條件概率,記作P(A|B)。表明我們是在B條件已經(jīng)發(fā)生的條件下考慮A發(fā)生的可能性,統(tǒng)計學中稱為給定條件B下事件A的概率。


對于任何條件概率,存在:



這個公式依舊可以用文氏圖解釋。橙色圓表示事件B已經(jīng)發(fā)生,如果想要知道B已經(jīng)發(fā)生的情況下事件A發(fā)生的概率,則只能考慮橙色圓和藍色元的交集部分即P(A∩B)。此時P(A∩B) 除以P(B)即給定條件B下事件A發(fā)生的概率。



當某一事件受另外事件的影響,我們稱其為條件概率。相反,某一事件完全不受另外事件的影響則為獨立事件。如果事件A和事件B相互獨立,則P(A|B)=P(A)。


互斥事件和獨立事件不是一回事,獨立事件是完全不相關(guān)的情況,而互斥是某一事件發(fā)生另外一個事件必然不發(fā)生,它們是相關(guān)的。


  貝葉斯公式


條件概率既然是通過一個事件發(fā)生了來計算另外一件事發(fā)生的可能性,那么如何計算呢?不妨先看一個經(jīng)典案例。


如果某種疾病的發(fā)病率為千分之一?,F(xiàn)在有一種試紙,它在患者得病的情況下,有99%的準確率判斷患者得病,在患者沒有得病的情況下,有5%的可能誤判患者得病?,F(xiàn)在試紙說一個患者得了病,那么患者真的得病的概率是多少?


在下意識的判斷中,我們可能認為是50%左右的數(shù)據(jù),或者更高。然而實際并不是。


將求解策略轉(zhuǎn)換為樹形圖的方式。按照患病率為千分之一,將人群劃分成健康人群和患者,分別是99900個和100個。然后再根據(jù)試紙對不同人群的概率求解。



最終健康人群中誤測出有病的是4995個,而真正患者中測出來是99個。所以當遇到一個患者被測出來有病,實際上真正得病的概率是99/(4995+99)=1.9%。


這個概率非常低,試紙絕大部分的判斷都是誤診,它產(chǎn)生的原因在于患病率千分之一這個前提條件。在統(tǒng)計學中把它稱為先驗概率,即事件發(fā)生的因,根據(jù)先驗概率的變化,得到所謂的后驗概率,即事件發(fā)生的果,貝葉斯定理就是其中的一種計算方法。數(shù)據(jù)推導過程大家有興趣可以自行查閱,都是基礎(chǔ)上文公式的簡單應(yīng)用



P(A1)代表是真實患者的概率,P(A2)代表是健康人群的概率,P(B)代表試紙查出患者的概率。于是得出:


P(B|A1)為真實患者條件下試紙查出患者的概率,即99%。


P(B|A2)為健康人群條件下試紙誤判為患者的概率,即5%。


P(A1)為真實患病率千分之一,P(A2)為健康率千分之九九九。


P(A1|B)是在B發(fā)生的情況下A發(fā)生的可能性。應(yīng)用在上文的例子中,就是試紙查出其為患者的情況下,他是真的患者的概率。將數(shù)字都代入公式計算。



和我們用樹形圖計算出的答案一樣。不妨思考一下,如果試紙獲得了改進,對真實患者的判斷準確率優(yōu)化到99.9%,對健康人群的誤判率降低到0.1%。此時P(A1|B)為多少?其實還是不到50%,大家有興趣可以計算一下。


上文列舉的公式是兩事件模型,當先驗概率A是多個時,正式表達為:



貝葉斯在Excel中并沒有簡化的函數(shù),需要手動處理,新手可能對概念還是有些模糊,多做幾次練習就好了??梢越柚鷺湫螆D輔助判斷。


再來做一道練習題:中國五百位富豪,其中,讀過大學的只有30%,是否能說明讀書無用論?


并不能,因為它涉及了一個先驗概率即所有中國人中讀大學的比例,更準確地說,是富豪們讀大學年代的讀大學比例。不妨大家自己查閱資料作出解答。


上文談及的都是理論,數(shù)據(jù)的應(yīng)用場景呢?比如拼寫檢查,我輸入了一個字典中沒有的英文單詞:thi,這時候機器就要猜測是the,還是this?這個問題就轉(zhuǎn)換成概率中的P(機器猜測的單詞 | thi ),當單詞為thi時,機器所猜測的單詞準確率是多少?


應(yīng)用貝葉斯公式轉(zhuǎn)換:P( this | thi ) = P( this )P( thi | this ),以及P( the | thi ) = P( the )P( thi | the )。因為分母是樣本空間常數(shù)所以可以略去,P( this )代表的是this這個單詞在全體文本中出現(xiàn)的概率,P( thi | this )代表的是this這個單詞打錯為thi的概率,結(jié)果為這兩個概率的乘積,以此類推。


P輸出的都是概率,假設(shè)計算后the的概率為80%,this的概率為75%,此時輸入法糾正就把the排在第一,this排在第二。


貝葉斯定理在數(shù)據(jù)分析中是一種常用的手段,除了對日常生活中違背經(jīng)驗主義的各種數(shù)據(jù)陷阱,它也能廣泛應(yīng)用在機器學習諸如郵件識別、文本分詞、拼寫檢查等場景中。



————

上半部分的內(nèi)容比較簡單,下半部分跨越大了些,而它又是不少機器學習的基礎(chǔ),大家配合其他資料加深學習。下一章講解概率中的離散和連續(xù)隨機變量。




本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
賭徒謬誤
劉堅強麻將學《麻將與科學》1-1 概率的公式計算
深度學習中的概率論與信息論基礎(chǔ)
原創(chuàng)筆記|關(guān)乎每個人的交易邏輯:認識概率的偽命題
§115 三大分布--二項分布
3.2.1 古典概型優(yōu)質(zhì)優(yōu)秀課件ppt
更多類似文章 >>
生活服務(wù)
分享 收藏 導長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服