數(shù)據(jù)分析與統(tǒng)計(jì)的骨干知識(shí)點(diǎn)集合。

1 數(shù)據(jù)分析概述

數(shù)據(jù)分析是基于某種業(yè)務(wù)目的，有目的的處理數(shù)據(jù)，提取有價(jià)值的信息，解決各種業(yè)務(wù)問題的過程。

目的/出發(fā)點(diǎn)：設(shè)立目標(biāo)或業(yè)務(wù)需求，明確問題
方法：根據(jù)不同場景選定分析方法
結(jié)果：目標(biāo)解釋或業(yè)務(wù)應(yīng)用（to do），創(chuàng)造價(jià)值

1.1 數(shù)據(jù)分析流程

目的和內(nèi)容：明確項(xiàng)目整體框架或業(yè)務(wù)問題
數(shù)據(jù)收集：根據(jù)假設(shè)或問題樹收集相應(yīng)數(shù)據(jù)，要求數(shù)據(jù)準(zhǔn)確、有效；SQL、業(yè)務(wù)調(diào)整信息
數(shù)據(jù)預(yù)處理：檢驗(yàn)-清理，可比（例如標(biāo)準(zhǔn)化、得分轉(zhuǎn)換等），論證
數(shù)據(jù)分析：方法、工具的選取
數(shù)據(jù)表達(dá)：圖表
數(shù)據(jù)報(bào)告：結(jié)論、建議&解決方案

1.2 數(shù)據(jù)分析方法

預(yù)處理加工：描述性統(tǒng)計(jì)分析（數(shù)據(jù)分布、數(shù)據(jù)趨勢）、相關(guān)分析（正負(fù)相關(guān)、擬合、相關(guān)系數(shù)）
基于數(shù)理統(tǒng)計(jì)：方差分析、回歸分析、因子分析
數(shù)據(jù)挖掘：聚類（層次分析、K均值、模糊聚類、高斯回歸）、分類（決策樹、神經(jīng)網(wǎng)絡(luò)、貝葉斯分類、SVM、隨機(jī)森林）、回歸分析（線性回歸、logistic回歸）

1.3 數(shù)據(jù)分析工具

Excel-SQL、R、Python、BI、HADOOP、Spark......

2 數(shù)據(jù)趨勢

2.1 計(jì)量尺度

計(jì)量尺度是刻畫或比較數(shù)據(jù)的標(biāo)準(zhǔn)，分為四類：

定類尺度：分類，例如性別；可用 = 或 != 進(jìn)行運(yùn)算
定序尺度：有序列分類，例如職稱級(jí)別（講師、副教授、教授）；可用=、!= 或 <、>進(jìn)行運(yùn)算
定距尺度：例如溫度；可用=、!= 或 <、>或、- 進(jìn)行運(yùn)算
定比尺度：可用于數(shù)據(jù)大小、屬性、加減乘除等；可用=、!= 或 <、>或、- 、*、/ 進(jìn)行運(yùn)算

其中，定類、定序用于刻畫定性數(shù)據(jù)；定距、定比用于刻畫定量數(shù)據(jù)。

2.2 數(shù)據(jù)集中趨勢

平均數(shù)：算法平均數(shù)、加權(quán)平均數(shù)、幾何算法平均數(shù)（幾何平均數(shù)是n個(gè)變量值連乘積的n次方根：對(duì)比率、指數(shù)等進(jìn)行平均；復(fù)利下的平均年利率；連續(xù)作業(yè)的車間求產(chǎn)品的平均合格率）
眾數(shù)：頻數(shù)最大的數(shù)據(jù)
分位數(shù)：1/4；中位數(shù)；3/4位數(shù)

2.3 數(shù)據(jù)離中趨勢

極值：d = max - min，可粗略檢查產(chǎn)品質(zhì)量和穩(wěn)定程度
四分位點(diǎn)內(nèi)距：IQR = Q_3 - Q_1，反映數(shù)據(jù)中間部分的差距
方差variance：觀察值的離均差平方和的算術(shù)平均數(shù)；刻畫數(shù)據(jù)的波動(dòng)程度和穩(wěn)定性；區(qū)分總體方差和樣本方差
標(biāo)準(zhǔn)差standard deviation：方差的平方根；與原始數(shù)據(jù)單位相同，較方差更易于解釋
變異系數(shù)/離散系數(shù)cofficient of variation：標(biāo)準(zhǔn)差/均值 * 100；百分比形式；去量綱、比較多組數(shù)據(jù)波動(dòng)程度

3 數(shù)據(jù)分布和展示

3.1 數(shù)據(jù)分布

數(shù)據(jù)分布用來描述變量的概率分布，即數(shù)據(jù)在各個(gè)區(qū)間分布的多少。

可用數(shù)據(jù)偏態(tài)、數(shù)據(jù)峰度對(duì)數(shù)據(jù)分布進(jìn)行描述。

3.1.1 數(shù)據(jù)偏態(tài)

對(duì)稱分布：平均數(shù)=中位數(shù)=眾數(shù)
非對(duì)稱分布時(shí)即存在偏態(tài)，分為右向偏態(tài)和左向偏態(tài)

右向偏態(tài)：平均數(shù)>眾數(shù)，極端值在右側(cè)，曲線向右延伸
左向偏態(tài)：平均數(shù)<眾數(shù)，極端值在左側(cè)，曲線向左延伸

偏態(tài)的描述方法：偏態(tài)系數(shù)SK（=0對(duì)稱分布，>0正偏態(tài)，<0負(fù)偏態(tài)）

3.2.1 數(shù)據(jù)峰度

數(shù)據(jù)峰度用于刻畫數(shù)據(jù)的尖峭程度。

標(biāo)準(zhǔn)峰度：正態(tài)分布對(duì)應(yīng)的標(biāo)準(zhǔn)峰度
尖頂峰度：數(shù)據(jù)在眾數(shù)周圍分布較集中
平頂峰度：數(shù)據(jù)在眾數(shù)周圍分布相對(duì)分散，扁平
峰度描述方法：峰度系數(shù)K（=0標(biāo)準(zhǔn)峰度，>0尖頂峰度分布，<0平頂峰度分布）

3.2 數(shù)據(jù)展示

條形圖：分組后統(tǒng)計(jì)結(jié)果的展示
扇形圖：各類別占比的分布
折線圖：表示統(tǒng)計(jì)數(shù)據(jù)的增長變化，主要用于展示時(shí)間序列的數(shù)據(jù)
直方圖：用于表示數(shù)據(jù)的分布情況
盒式圖：顯示數(shù)據(jù)的離散情況，中位數(shù)、四分位數(shù)、上下邊緣、異常值（四分位與邊緣間為溫和異常值，上下邊緣以外為異常值）

上下邊緣不是極大極小值，上邊緣 = Q3 1.5（Q3-Q1），下邊緣 = Q1 - 1.5（Q3-Q1）
使用箱式圖判斷異常值無需假設(shè)數(shù)據(jù)服從正態(tài)分布（相比3sigma方法），并且數(shù)據(jù)抗耐高

4 數(shù)理統(tǒng)計(jì)基礎(chǔ)知識(shí)

4.1 隨機(jī)變量及其概率描述

隨機(jī)現(xiàn)象：具有偶然性，并不總出現(xiàn)相同結(jié)果的事件
隨機(jī)事件：隨機(jī)現(xiàn)象的某些基本結(jié)果組成的集合（不能確定是否發(fā)生，多次試驗(yàn)結(jié)果具有規(guī)律性），使用隨機(jī)變量對(duì)隨機(jī)事件的可能性進(jìn)行描述
概率：預(yù)測事件發(fā)生的可能性，試驗(yàn)中事件的發(fā)生次數(shù)/總試驗(yàn)次數(shù)
隨機(jī)變量的分布

離散型：有限個(gè)點(diǎn)或可列出，分布類型包含二項(xiàng)分布、泊松分布
連續(xù)型：區(qū)間；均勻分布、指數(shù)分布、正態(tài)分布

條件概率：B發(fā)生時(shí)A發(fā)生的概率=AB同時(shí)發(fā)生概率/B發(fā)生的概率
相互獨(dú)立事件：P(A|B)=P(A) & P(B|A)=P(B) & P(AB)=P(A) x P(B) ，例如有放回抽樣

4.2 常見分布類型介紹

正態(tài)分布

正態(tài)分布是對(duì)稱的，概率曲線最高點(diǎn)在均值處，標(biāo)準(zhǔn)正態(tài)分布是指均值為0，標(biāo)準(zhǔn)差為1的正態(tài)分布、

3sigma準(zhǔn)則：質(zhì)量檢測、剔除異常值

z標(biāo)準(zhǔn)化：將正態(tài)分布轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布

卡方分布

用于卡方檢驗(yàn)

若n個(gè)相互獨(dú)立的隨機(jī)變量ξ?，ξ?，...,ξn ，均服從標(biāo)準(zhǔn)正態(tài)分布（也稱獨(dú)立同分布于標(biāo)準(zhǔn)正態(tài)分布），則這n個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量的平方和構(gòu)成一新的隨機(jī)變量，其分布規(guī)律稱為卡方分布

t分布

t分布是一簇曲線，其形態(tài)變化與n（確切地說與自由度df）大小有關(guān)。自由度df越小，t分布曲線越低平；自由度df越大，t分布曲線越接近標(biāo)準(zhǔn)正態(tài)分布（u分布）曲線。

t檢驗(yàn)、獨(dú)立性檢驗(yàn)等

F分布

用于方差分析、方差檢驗(yàn)

4.3 大數(shù)定律&中心極限定理

大數(shù)定律

在隨機(jī)事件的大量重復(fù)出現(xiàn)中，往往呈現(xiàn)幾乎必然的規(guī)律，這個(gè)規(guī)律就是大數(shù)定律。

中心極限定理

對(duì)于任何分布的總體，若樣本容量較大，能夠用正態(tài)概率分布來近似樣本均值的抽樣分布。

通常樣本容量達(dá)到30（樣本中的單位數(shù)達(dá)到30）即可滿足定理的大樣本條件。

5 抽樣估計(jì)

5.1 抽樣概念引入

抽樣：使用局部估計(jì)整體

總體相關(guān)概念

總體：根據(jù)研究目標(biāo)確定的對(duì)象全體，未必是全量用戶
總體指標(biāo)：均值、比重結(jié)構(gòu)等
個(gè)體：總體中的每個(gè)元素，具有同質(zhì)性（滿足同一研究目標(biāo)）、大量、差異性；個(gè)體總數(shù)稱為總體容量N

樣本相關(guān)概念

樣本：隨機(jī)從總體中抽取的部分個(gè)體
樣本指標(biāo)：樣本均值、樣本方差
樣本容量：樣本中的個(gè)體數(shù)量

抽樣估計(jì)：利用樣本指標(biāo)估計(jì)總體值班表

要求：隨機(jī)性、獨(dú)立性

5.2 區(qū)間估計(jì)

相關(guān)指標(biāo)

置信區(qū)間：精確性
置信系數(shù)：可靠性
顯著性水平：alpha，表示不可靠概率

檢驗(yàn)統(tǒng)計(jì)量

根據(jù)樣本容量不同、估計(jì)均值或比例的不同，選取不同的檢驗(yàn)統(tǒng)計(jì)量

大樣本——z分布

小樣本——t分布

6 假設(shè)檢驗(yàn)

6.1 概念

通過樣本數(shù)據(jù)檢驗(yàn)對(duì)總體的假設(shè)。

基本思想：反證法，基于小概率時(shí)間不發(fā)生的準(zhǔn)則和總體的假設(shè)，根據(jù)樣本數(shù)據(jù)獲得的樣本統(tǒng)計(jì)量分布，得到抽樣過程中的極端或錯(cuò)誤現(xiàn)象的小概率時(shí)間，從而做出對(duì)假設(shè)的否定判斷。

假設(shè)：原假設(shè)、備擇假設(shè)

6.2 假設(shè)檢驗(yàn)方法

建立假設(shè)：通常希望證偽的假設(shè)作為原假設(shè)，反之為備擇假設(shè)
選擇檢驗(yàn)統(tǒng)計(jì)量：
確定拒絕域：給定顯著性水平，從而確定拒絕域
計(jì)算檢驗(yàn)統(tǒng)計(jì)量，做出判斷：計(jì)算結(jié)果落在拒絕域中，則表明小概率事件發(fā)生，拒絕原假設(shè)

6.3 常見檢驗(yàn)統(tǒng)計(jì)量

Z檢驗(yàn)：統(tǒng)計(jì)量滿足正態(tài)分布。用于單個(gè)正態(tài)總體均值檢驗(yàn)；兩個(gè)正態(tài)總體均值之差檢驗(yàn)，方差已知；
t檢驗(yàn)：統(tǒng)計(jì)量滿足t分布。單個(gè)正態(tài)總體均值檢驗(yàn)，方差未知；兩個(gè)正態(tài)總體均值/比例檢驗(yàn)，方差相等但未知（同一群體的兩次實(shí)驗(yàn)）；兩個(gè)正態(tài)總體均值/比例檢驗(yàn)，方差不等且未知（AB測試）
卡方檢驗(yàn)：統(tǒng)計(jì)量服從卡方分布，樣本來自正態(tài)總體，用于單個(gè)正態(tài)總體方差檢驗(yàn)；
F檢驗(yàn)：統(tǒng)計(jì)量服從F分布，樣本數(shù)據(jù)來自兩個(gè)正態(tài)總體，用于兩個(gè)正態(tài)總體方差檢驗(yàn)。

Z、t檢驗(yàn)用于均值或比例檢驗(yàn)，卡方和F檢驗(yàn)用于方差檢驗(yàn)

7 方差分析

方差分析用來描述多個(gè)總體的差異性，檢驗(yàn)多個(gè)總體均值是否相同。

通過檢驗(yàn)各總體均值是否相等來判斷分類型自變量對(duì)數(shù)值型因變量是否有顯著性影響。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。