數(shù)據(jù)分析與統(tǒng)計(jì)的骨干知識(shí)點(diǎn)集合。
1 數(shù)據(jù)分析概述
數(shù)據(jù)分析是基于某種業(yè)務(wù)目的,有目的的處理數(shù)據(jù),提取有價(jià)值的信息,解決各種業(yè)務(wù)問題的過程。
- 目的/出發(fā)點(diǎn):設(shè)立目標(biāo)或業(yè)務(wù)需求,明確問題
- 方法:根據(jù)不同場景選定分析方法
- 結(jié)果:目標(biāo)解釋或業(yè)務(wù)應(yīng)用(to do),創(chuàng)造價(jià)值
1.1 數(shù)據(jù)分析流程
- 目的和內(nèi)容:明確項(xiàng)目整體框架或業(yè)務(wù)問題
- 數(shù)據(jù)收集:根據(jù)假設(shè)或問題樹收集相應(yīng)數(shù)據(jù),要求數(shù)據(jù)準(zhǔn)確、有效;SQL、業(yè)務(wù)調(diào)整信息
- 數(shù)據(jù)預(yù)處理:檢驗(yàn)-清理,可比(例如標(biāo)準(zhǔn)化、得分轉(zhuǎn)換等),論證
- 數(shù)據(jù)分析:方法、工具的選取
- 數(shù)據(jù)表達(dá):圖表
- 數(shù)據(jù)報(bào)告:結(jié)論、建議&解決方案
1.2 數(shù)據(jù)分析方法
- 預(yù)處理加工:描述性統(tǒng)計(jì)分析(數(shù)據(jù)分布、數(shù)據(jù)趨勢)、相關(guān)分析(正負(fù)相關(guān)、擬合、相關(guān)系數(shù))
- 基于數(shù)理統(tǒng)計(jì):方差分析、回歸分析、因子分析
- 數(shù)據(jù)挖掘:聚類(層次分析、K均值、模糊聚類、高斯回歸)、分類(決策樹、神經(jīng)網(wǎng)絡(luò)、貝葉斯分類、SVM、隨機(jī)森林)、回歸分析(線性回歸、logistic回歸)
1.3 數(shù)據(jù)分析工具
Excel-SQL、R、Python、BI、HADOOP、Spark......
2 數(shù)據(jù)趨勢
2.1 計(jì)量尺度
計(jì)量尺度是刻畫或比較數(shù)據(jù)的標(biāo)準(zhǔn),分為四類:
- 定類尺度:分類,例如性別;可用 = 或 != 進(jìn)行運(yùn)算
- 定序尺度:有序列分類,例如職稱級(jí)別(講師、副教授、教授);可用=、!= 或 <、>進(jìn)行運(yùn)算
- 定距尺度:例如溫度;可用=、!= 或 <、>或 、- 進(jìn)行運(yùn)算
- 定比尺度:可用于數(shù)據(jù)大小、屬性、加減乘除等;可用=、!= 或 <、>或 、- 、*、/ 進(jìn)行運(yùn)算
其中,定類、定序用于刻畫定性數(shù)據(jù);定距、定比用于刻畫定量數(shù)據(jù)。
2.2 數(shù)據(jù)集中趨勢
- 平均數(shù):算法平均數(shù)、加權(quán)平均數(shù)、幾何算法平均數(shù)(幾何平均數(shù)是n個(gè)變量值連乘積的n次方根:對(duì)比率、指數(shù)等進(jìn)行平均;復(fù)利下的平均年利率;連續(xù)作業(yè)的車間求產(chǎn)品的平均合格率)
- 眾數(shù):頻數(shù)最大的數(shù)據(jù)
- 分位數(shù):1/4;中位數(shù);3/4位數(shù)
2.3 數(shù)據(jù)離中趨勢
- 極值:d = max - min,可粗略檢查產(chǎn)品質(zhì)量和穩(wěn)定程度
- 四分位點(diǎn)內(nèi)距:IQR = Q_3 - Q_1,反映數(shù)據(jù)中間部分的差距
- 方差variance:觀察值的離均差平方和的算術(shù)平均數(shù);刻畫數(shù)據(jù)的波動(dòng)程度和穩(wěn)定性;區(qū)分總體方差和樣本方差
- 標(biāo)準(zhǔn)差standard deviation:方差的平方根;與原始數(shù)據(jù)單位相同,較方差更易于解釋
- 變異系數(shù)/離散系數(shù)cofficient of variation:標(biāo)準(zhǔn)差/均值 * 100;百分比形式;去量綱、比較多組數(shù)據(jù)波動(dòng)程度
3 數(shù)據(jù)分布和展示
3.1 數(shù)據(jù)分布
數(shù)據(jù)分布用來描述變量的概率分布,即數(shù)據(jù)在各個(gè)區(qū)間分布的多少。
可用數(shù)據(jù)偏態(tài)、數(shù)據(jù)峰度對(duì)數(shù)據(jù)分布進(jìn)行描述。
3.1.1 數(shù)據(jù)偏態(tài)
- 對(duì)稱分布:平均數(shù)=中位數(shù)=眾數(shù)
- 非對(duì)稱分布時(shí)即存在偏態(tài),分為右向偏態(tài)和左向偏態(tài)
- 右向偏態(tài):平均數(shù)>眾數(shù),極端值在右側(cè),曲線向右延伸
- 左向偏態(tài):平均數(shù)<眾數(shù),極端值在左側(cè),曲線向左延伸
- 偏態(tài)的描述方法:偏態(tài)系數(shù)SK(=0對(duì)稱分布,>0正偏態(tài),<0負(fù)偏態(tài))
3.2.1 數(shù)據(jù)峰度
數(shù)據(jù)峰度用于刻畫數(shù)據(jù)的尖峭程度。
- 標(biāo)準(zhǔn)峰度:正態(tài)分布對(duì)應(yīng)的標(biāo)準(zhǔn)峰度
- 尖頂峰度:數(shù)據(jù)在眾數(shù)周圍分布較集中
- 平頂峰度:數(shù)據(jù)在眾數(shù)周圍分布相對(duì)分散,扁平
- 峰度描述方法:峰度系數(shù)K(=0標(biāo)準(zhǔn)峰度,>0尖頂峰度分布,<0平頂峰度分布)
3.2 數(shù)據(jù)展示
- 條形圖:分組后統(tǒng)計(jì)結(jié)果的展示
- 扇形圖:各類別占比的分布
- 折線圖:表示統(tǒng)計(jì)數(shù)據(jù)的增長變化,主要用于展示時(shí)間序列的數(shù)據(jù)
- 直方圖:用于表示數(shù)據(jù)的分布情況
- 盒式圖:顯示數(shù)據(jù)的離散情況,中位數(shù)、四分位數(shù)、上下邊緣、異常值(四分位與邊緣間為溫和異常值,上下邊緣以外為異常值)
- 上下邊緣不是極大極小值,上邊緣 = Q3 1.5(Q3-Q1),下邊緣 = Q1 - 1.5(Q3-Q1)
- 使用箱式圖判斷異常值無需假設(shè)數(shù)據(jù)服從正態(tài)分布(相比3sigma方法),并且數(shù)據(jù)抗耐高
4 數(shù)理統(tǒng)計(jì)基礎(chǔ)知識(shí)
4.1 隨機(jī)變量及其概率描述
- 隨機(jī)現(xiàn)象:具有偶然性,并不總出現(xiàn)相同結(jié)果的事件
- 隨機(jī)事件:隨機(jī)現(xiàn)象的某些基本結(jié)果組成的集合(不能確定是否發(fā)生,多次試驗(yàn)結(jié)果具有規(guī)律性),使用隨機(jī)變量對(duì)隨機(jī)事件的可能性進(jìn)行描述
- 概率:預(yù)測事件發(fā)生的可能性,試驗(yàn)中事件的發(fā)生次數(shù)/總試驗(yàn)次數(shù)
- 隨機(jī)變量的分布
- 離散型:有限個(gè)點(diǎn)或可列出,分布類型包含二項(xiàng)分布、泊松分布
- 連續(xù)型:區(qū)間;均勻分布、指數(shù)分布、正態(tài)分布
- 條件概率:B發(fā)生時(shí)A發(fā)生的概率=AB同時(shí)發(fā)生概率/B發(fā)生的概率
- 相互獨(dú)立事件:P(A|B)=P(A) & P(B|A)=P(B) & P(AB)=P(A) x P(B) ,例如有放回抽樣
4.2 常見分布類型介紹
正態(tài)分布
正態(tài)分布是對(duì)稱的,概率曲線最高點(diǎn)在均值處,標(biāo)準(zhǔn)正態(tài)分布是指均值為0,標(biāo)準(zhǔn)差為1的正態(tài)分布、
3sigma準(zhǔn)則:質(zhì)量檢測、剔除異常值
z標(biāo)準(zhǔn)化:將正態(tài)分布轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布
卡方分布
用于卡方檢驗(yàn)
若n個(gè)相互獨(dú)立的隨機(jī)變量ξ?,ξ?,...,ξn ,均服從標(biāo)準(zhǔn)正態(tài)分布(也稱獨(dú)立同分布于標(biāo)準(zhǔn)正態(tài)分布),則這n個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量的平方和構(gòu)成一新的隨機(jī)變量,其分布規(guī)律稱為卡方分布
t分布
t分布是一簇曲線,其形態(tài)變化與n(確切地說與自由度df)大小有關(guān)。自由度df越小,t分布曲線越低平;自由度df越大,t分布曲線越接近標(biāo)準(zhǔn)正態(tài)分布(u分布)曲線。
t檢驗(yàn)、獨(dú)立性檢驗(yàn)等
F分布
用于方差分析、方差檢驗(yàn)
4.3 大數(shù)定律&中心極限定理
大數(shù)定律
在隨機(jī)事件的大量重復(fù)出現(xiàn)中,往往呈現(xiàn)幾乎必然的規(guī)律,這個(gè)規(guī)律就是大數(shù)定律。
中心極限定理
對(duì)于任何分布的總體,若樣本容量較大,能夠用正態(tài)概率分布來近似樣本均值的抽樣分布。
通常樣本容量達(dá)到30(樣本中的單位數(shù)達(dá)到30)即可滿足定理的大樣本條件。
5 抽樣估計(jì)
5.1 抽樣概念引入
抽樣:使用局部估計(jì)整體
總體相關(guān)概念
- 總體:根據(jù)研究目標(biāo)確定的對(duì)象全體,未必是全量用戶
- 總體指標(biāo):均值、比重結(jié)構(gòu)等
- 個(gè)體:總體中的每個(gè)元素,具有同質(zhì)性(滿足同一研究目標(biāo))、大量、差異性;個(gè)體總數(shù)稱為總體容量N
樣本相關(guān)概念
- 樣本:隨機(jī)從總體中抽取的部分個(gè)體
- 樣本指標(biāo):樣本均值、樣本方差
- 樣本容量:樣本中的個(gè)體數(shù)量
抽樣估計(jì):利用樣本指標(biāo)估計(jì)總體值班表
要求:隨機(jī)性、獨(dú)立性
5.2 區(qū)間估計(jì)
相關(guān)指標(biāo)
- 置信區(qū)間:精確性
- 置信系數(shù):可靠性
- 顯著性水平:alpha,表示不可靠概率
檢驗(yàn)統(tǒng)計(jì)量
根據(jù)樣本容量不同、估計(jì)均值或比例的不同,選取不同的檢驗(yàn)統(tǒng)計(jì)量
大樣本——z分布
小樣本——t分布
6 假設(shè)檢驗(yàn)
6.1 概念
通過樣本數(shù)據(jù)檢驗(yàn)對(duì)總體的假設(shè)。
基本思想:反證法,基于小概率時(shí)間不發(fā)生的準(zhǔn)則和總體的假設(shè),根據(jù)樣本數(shù)據(jù)獲得的樣本統(tǒng)計(jì)量分布,得到抽樣過程中的極端或錯(cuò)誤現(xiàn)象的小概率時(shí)間,從而做出對(duì)假設(shè)的否定判斷。
假設(shè):原假設(shè)、備擇假設(shè)
6.2 假設(shè)檢驗(yàn)方法
- 建立假設(shè):通常希望證偽的假設(shè)作為原假設(shè),反之為備擇假設(shè)
- 選擇檢驗(yàn)統(tǒng)計(jì)量:
- 確定拒絕域:給定顯著性水平,從而確定拒絕域
- 計(jì)算檢驗(yàn)統(tǒng)計(jì)量,做出判斷:計(jì)算結(jié)果落在拒絕域中,則表明小概率事件發(fā)生,拒絕原假設(shè)
6.3 常見檢驗(yàn)統(tǒng)計(jì)量
- Z檢驗(yàn):統(tǒng)計(jì)量滿足正態(tài)分布。用于單個(gè)正態(tài)總體均值檢驗(yàn);兩個(gè)正態(tài)總體均值之差檢驗(yàn),方差已知;
- t檢驗(yàn):統(tǒng)計(jì)量滿足t分布。單個(gè)正態(tài)總體均值檢驗(yàn),方差未知;兩個(gè)正態(tài)總體均值/比例檢驗(yàn),方差相等但未知(同一群體的兩次實(shí)驗(yàn));兩個(gè)正態(tài)總體均值/比例檢驗(yàn),方差不等且未知(AB測試)
- 卡方檢驗(yàn):統(tǒng)計(jì)量服從卡方分布,樣本來自正態(tài)總體,用于單個(gè)正態(tài)總體方差檢驗(yàn);
- F檢驗(yàn):統(tǒng)計(jì)量服從F分布,樣本數(shù)據(jù)來自兩個(gè)正態(tài)總體,用于兩個(gè)正態(tài)總體方差檢驗(yàn)。
Z、t檢驗(yàn)用于均值或比例檢驗(yàn),卡方和F檢驗(yàn)用于方差檢驗(yàn)
7 方差分析
方差分析用來描述多個(gè)總體的差異性,檢驗(yàn)多個(gè)總體均值是否相同。
通過檢驗(yàn)各總體均值是否相等來判斷分類型自變量對(duì)數(shù)值型因變量是否有顯著性影響。