国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
數據分析師入門:數據科學家必學必會的 5 個基本統(tǒng)計概念

新手必須要知道,在數據科學的世界里,如果數據科學家是魔法師,那統(tǒng)計學就是他們的魔杖。

總的來說,統(tǒng)計,就是利用數學對數據進行技術性分析。當然,像條形圖這樣的簡單可視化圖像也能給你提供一些高等級的信息,但利用統(tǒng)計學,我們將能以一種更有針對性,更”信息驅動“的方式來處理數據。這其中涉及的數學知識能幫助我們形成關于數據的具體結論,而不僅僅是猜測。

使用統(tǒng)計數據,我們可以獲得更深入、更細微的洞察能力,可以了解我們的數據是如何構建的。在了解結構的基礎上,我們將能發(fā)現應用其他數據科學技術的最佳方式,并以此獲取更多信息。

今天,我們將一起了解數據科學家必學必會的5個基本統(tǒng)計概念,以及如何最有效地應用它們!

統(tǒng)計特征

統(tǒng)計特征可能是數據科學中最常用的統(tǒng)計概念之一。它通常是你在探索數據集時使用的第一種統(tǒng)計技術。常見的統(tǒng)計特征包括偏差、方差、均值、中位數、百分位數等等。它們其實非常容易理解,也很容易在代碼中實現!

讓我們看看下面這個圖吧:


一個簡單的箱形圖

中間的這條橫線是數據的中位數。相對于平均數,中位數在數據中有異常值的時候能更加忠實地反應數據的特征。下四分位數基本上是數據的 25% 點,也就是數據中 25% 的點低于該值。上四分位數是數據的 75% 點,也就是數據中 75% 的點低于該值。最小值和最大值表示數據范圍的上端和下端。

箱形圖能很好地表現出基本統(tǒng)計特征的用途:

  • 如果箱形圖很短,就意味著你的大部分數據點都很相似,因為很多數據都集中在很小的范圍內

  • 如果箱形圖很長,就意味著你的大部分數據點都差異很大,因為這些值分布在很寬的范圍內

  • 如果中位數接近底部,那么我們就能知道大多數數據具有較低的值。如果中位數接近頂部,那么我們就能知道大多數數據具有更高的值?;旧?,如果中位數不在框的中間,則表明數據存在偏斜。

  • 圖中方框上下的“胡須”會不會很長?這意味著數據具有較高的標準差和方差,也就是說數值分散且變化很大。如果方框的一側有“胡須”,而另一側沒有,那么數據可能只在一個方向上變化很大。

上面這些信息,都來自這幾個易于計算的簡單統(tǒng)計特征!如果你需要對數據進行快速又翔實的分析,請務必先試著分析一下統(tǒng)計特征。

概率分布

我們可以將概率定義為某個事件發(fā)生的幾率。在數據科學中,這個幾率通常被量化成在 0 到 1 之間的數字。其中 0 表示我們確定它不會發(fā)生,1 表示我們確定它肯定發(fā)生。那么,概率分布就是表示實驗中所有可能值的概率的函數。 讓我們看看下面這三張圖:

常見概率分布:均勻分布(上)、正態(tài)分布(中)、泊松分布(下)

  • 均勻分布是上面 3 張圖中最簡單的。它有一個值,而且只出現在一定范圍內,超出該范圍的都是 0。這是一種“開關”分布——每個點要么有數據,要么是0。我們還可以將其視為只有 0 和某個數值的分類變量。同樣,如果某個分類變量具有除 0 以外的多個值,我們也可以將其視為多個均勻分布組成的分段函數。

  • 正態(tài)分布,通常也稱為高斯分布,是由其平均值和標準差定義的。平均值改變分布的空間高度,而標準差控制分布的擴散程度。 與其他分布(例如泊松分布)的重要區(qū)別在于,正態(tài)分布的標準差在所有方向上是相同的。 因此,利用高斯分布,我們能了解到數據的平均水平,以及數據的散布范圍——比如它是分散在較大范圍里,還是高度集中在幾個值附近。

  • 泊松分布類似于正態(tài)分布,但具有附加的偏斜量。 當偏斜量很低的時候,泊松分布將在所有方向上都具有相對均勻的擴展,就像正態(tài)分布一樣。但是當偏斜量較大時,數據在不同方向上的分散程度會有所不同——在一個方向上它將非常分散,而在另一個方向上它將高度集中。

除此之外,還有更多不同的概率分布值得你深入研究,但目前這 3 個分布模式已經很有用啦。比如,我們可以使用平均分布模型來快速查看并解釋分類變量。如果看到數據呈高斯分布,那么我們就應該選擇那些特別適用于高斯分布的算法來處理它們。而對泊松分布,我們就必須特別小心地選擇算法,以便在空間分布不均勻的時候也能可靠地處理數據。

降維技術

降維這個詞應該不難理解,大家應該都聽過“降維打擊”吧?沒錯,就是拍扁(誤。

舉例來說,對一個很復雜的數據集,我們希望減少它的維度。在數據科學中,這主要是特征變量的數量。以下圖為例:


一個降維的示意圖

上面這個立方體代表了一個 3 維的數據集,里面大約有 1000 個特征點。當然,以現在的計算能力,分析 1000 個點基本上是小菜一碟,但對于更大尺度上的數據集,還是可能碰到一些問題的。然而,如果我們從 2 維角度來分析其中的數據——就像只從立方體的某個面看進去——我們就能從這個角度很輕易地區(qū)分各種不同顏色的數據點。在降維技術的幫助下,我們就像是把 3 維的數據集投影到一個 2 維平面上,再進行操作。這能相當有效地減少需要計算的特征點的數量——現在只剩 100 個啦!

另外一種降維的思路,是特征修剪。在進行特征修剪的時候,我們希望能去除那些對分析結果無關的特征。舉例來說,假如在探索數據的時候,我們發(fā)現有 10 個特征,其中 7 個與輸出有很高的相關性,另外 3 個的相關性很低。那么,這 3 個低相關的特征或許并不值得我們分析,可能可以直接從分析中去掉,而不影響最后的輸出。

在降維操作中,最常見的統(tǒng)計技術是 PCA(Principal Component Analysis,主成分分析)。它實際上是通過創(chuàng)建各種特征的矢量,標明它們對輸出結果的重要性,即它們的相關性。PCA 在上面討論的兩種降維方式中都發(fā)揮著重要的作用。 在這里你能看到更多關于 PCA 的詳細介紹。

過采樣和欠采樣

過采樣(Over Sampling)和欠采樣(Under Sampling)是用于分類問題的統(tǒng)計技術。有時,我們的分類數據集可能會太過偏向其中的一側。例如,我們在第1類中有2000個樣本,但在第2類中只有200個。這將嚴重影響我們嘗試用于建模和預測的許多機器學習技術!因此,我們可以使用過采樣和欠采樣技術來解決這個問題。請看下面的示意圖:


欠采樣(左)和過采樣(右)

在上面的兩張圖中,藍色的樣本數量都大大超過了橙色。在這種情況下,我們可以通過兩種預處理方法對樣本進行處理,以構建機器學習所需的模型。

欠采樣意味著對于量多的一類,我們只抽取其中的一部分數據,組成一個和量少的那類相當的數據集。如果你需要保持樣本概率分布的一致性,那你就該選擇這種采樣方式。是不是很簡單?這樣兩類樣本的數量就平衡了!

過采樣就剛好相反,我們將總量較少的那類樣本復制多次,以便該類樣本的總數和多的那類一致。在復制的過程中,應當保證不改變這類樣本的分布情況。這樣,我們在沒有引入額外數據的情況下,使兩類樣本的數量平衡了!

貝葉斯統(tǒng)計學

要想完全理解我們?yōu)槭裁词褂秘惾~斯統(tǒng)計學,首先就得了解頻率統(tǒng)計的問題在哪里。頻率統(tǒng)計是大多數人在聽到“概率”一詞時所考慮的統(tǒng)計數據類型。它涉及到應用數學來分析某些事件發(fā)生的概率,具體而言,我們計算的唯一數據是先驗數據。

拿骰子做例子吧。假設我給了你一個骰子,并問你扔出6的幾率有多大,我想大多數人都會直接說出是六分之一。事實上,如果我們要按頻率統(tǒng)計的方法進行分析,就得真的統(tǒng)計 10000 次擲骰的結果,并計算每個數字的頻率——最后結果差不多在 1/6 上下!

但如果有人告訴你,給你的這個特定的骰子其實灌了鉛,保證每次都會投出 6,那又會如何呢?既然頻率統(tǒng)計只考慮先驗數據,那么這條關于骰子的信息并不會被納入統(tǒng)計結果中。

而貝葉斯統(tǒng)計會將這些證據納入統(tǒng)計計算中。看看貝葉斯定理公式吧:

在上面這個公式中,P(H) 的概率就是頻率統(tǒng)計分析的結果,按照先驗數據統(tǒng)計得出事件 H 發(fā)生的概率;而 P(E|H) 被稱為`似然性`,也就是這個證據正確與否的概率,也是根據頻率分析提供的信息得來的。

在上面灌鉛骰子的例子中,假設你想要投 10000 次骰子,然后投出的前 1000 個值都是 6——那么你應該不可能不覺得這個骰子有問題吧。

最后,P(E) 則是這個證據本身出現的概率。如果我告訴你骰子是灌鉛的,你能在多大程度上相信我,還是你會覺得這只是一個陷阱呢?

如果我們的頻率統(tǒng)計沒有問題,那么統(tǒng)計結果就會支持“每骰必 6”的猜測。而于此同時,我們又將灌鉛骰子這個證據納入考量,這個證據的正確與否都基于它本身的頻率統(tǒng)計先驗數據。

從方程的結構,我們可以看出,貝葉斯統(tǒng)計將上述的一切可能性都考慮在內了。所以,如果你認為先前的數據不能很好地代表未來的數據和結果,請考慮使用貝葉斯統(tǒng)計方法。

怎么樣,今天提到的 5 個統(tǒng)計學概念,大家都了解了嗎?

最后,我想用一個我最喜歡的數據科學笑話結尾,希望大家喜歡:

“世界上有兩種類型的數據科學家:一是可以從不完整的數據中推斷出結果的人?!?/p>

本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現有害或侵權內容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
人人都需要掌握的 5 個基本統(tǒng)計概念
數據分析中常用的五個統(tǒng)計學基本概念
做數據分析應該知道的五個統(tǒng)計基本概念
數據科學家都應該知道這5個概率分布
高斯!為什么又是你?
白話空間統(tǒng)計三十:地統(tǒng)計學(2)前提假設
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服