国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
不懂統(tǒng)計(jì)和數(shù)據(jù)分析講的是什么?看這篇就夠了,干貨值得收藏

數(shù)據(jù)分析與統(tǒng)計(jì)的骨干知識(shí)點(diǎn)集合。


1 數(shù)據(jù)分析概述

數(shù)據(jù)分析是基于某種業(yè)務(wù)目的,有目的的處理數(shù)據(jù),提取有價(jià)值的信息,解決各種業(yè)務(wù)問題的過程。

  • 目的/出發(fā)點(diǎn):設(shè)立目標(biāo)或業(yè)務(wù)需求,明確問題
  • 方法:根據(jù)不同場景選定分析方法
  • 結(jié)果:目標(biāo)解釋或業(yè)務(wù)應(yīng)用(to do),創(chuàng)造價(jià)值

1.1 數(shù)據(jù)分析流程

  1. 目的和內(nèi)容:明確項(xiàng)目整體框架或業(yè)務(wù)問題
  2. 數(shù)據(jù)收集:根據(jù)假設(shè)或問題樹收集相應(yīng)數(shù)據(jù),要求數(shù)據(jù)準(zhǔn)確、有效;SQL、業(yè)務(wù)調(diào)整信息
  3. 數(shù)據(jù)預(yù)處理:檢驗(yàn)-清理,可比(例如標(biāo)準(zhǔn)化、得分轉(zhuǎn)換等),論證
  4. 數(shù)據(jù)分析:方法、工具的選取
  5. 數(shù)據(jù)表達(dá):圖表
  6. 數(shù)據(jù)報(bào)告:結(jié)論、建議&解決方案

1.2 數(shù)據(jù)分析方法

  1. 預(yù)處理加工:描述性統(tǒng)計(jì)分析(數(shù)據(jù)分布、數(shù)據(jù)趨勢)、相關(guān)分析(正負(fù)相關(guān)、擬合、相關(guān)系數(shù))
  2. 基于數(shù)理統(tǒng)計(jì):方差分析、回歸分析、因子分析
  3. 數(shù)據(jù)挖掘:聚類(層次分析、K均值、模糊聚類、高斯回歸)、分類(決策樹、神經(jīng)網(wǎng)絡(luò)、貝葉斯分類、SVM、隨機(jī)森林)、回歸分析(線性回歸、logistic回歸)

1.3 數(shù)據(jù)分析工具

Excel-SQL、R、Python、BI、HADOOP、Spark......

2 數(shù)據(jù)趨勢

2.1 計(jì)量尺度

計(jì)量尺度是刻畫或比較數(shù)據(jù)的標(biāo)準(zhǔn),分為四類:

  1. 定類尺度:分類,例如性別;可用 = 或 != 進(jìn)行運(yùn)算
  2. 定序尺度:有序列分類,例如職稱級(jí)別(講師、副教授、教授);可用=、!= 或 <、>進(jìn)行運(yùn)算
  3. 定距尺度:例如溫度;可用=、!= 或 <、>或 、- 進(jìn)行運(yùn)算
  4. 定比尺度:可用于數(shù)據(jù)大小、屬性、加減乘除等;可用=、!= 或 <、>或 、- 、*、/ 進(jìn)行運(yùn)算

其中,定類、定序用于刻畫定性數(shù)據(jù);定距、定比用于刻畫定量數(shù)據(jù)。

2.2 數(shù)據(jù)集中趨勢

  1. 平均數(shù):算法平均數(shù)、加權(quán)平均數(shù)、幾何算法平均數(shù)(幾何平均數(shù)是n個(gè)變量值連乘積的n次方根:對(duì)比率、指數(shù)等進(jìn)行平均;復(fù)利下的平均年利率;連續(xù)作業(yè)的車間求產(chǎn)品的平均合格率)
  2. 眾數(shù):頻數(shù)最大的數(shù)據(jù)
  3. 分位數(shù):1/4;中位數(shù);3/4位數(shù)

2.3 數(shù)據(jù)離中趨勢

  1. 極值:d = max - min,可粗略檢查產(chǎn)品質(zhì)量和穩(wěn)定程度
  2. 四分位點(diǎn)內(nèi)距:IQR = Q_3 - Q_1,反映數(shù)據(jù)中間部分的差距
  3. 方差variance:觀察值的離均差平方和的算術(shù)平均數(shù);刻畫數(shù)據(jù)的波動(dòng)程度和穩(wěn)定性;區(qū)分總體方差和樣本方差
  4. 標(biāo)準(zhǔn)差standard deviation:方差的平方根;與原始數(shù)據(jù)單位相同,較方差更易于解釋
  5. 變異系數(shù)/離散系數(shù)cofficient of variation:標(biāo)準(zhǔn)差/均值 * 100;百分比形式;去量綱、比較多組數(shù)據(jù)波動(dòng)程度

3 數(shù)據(jù)分布和展示

3.1 數(shù)據(jù)分布

數(shù)據(jù)分布用來描述變量的概率分布,即數(shù)據(jù)在各個(gè)區(qū)間分布的多少。

可用數(shù)據(jù)偏態(tài)、數(shù)據(jù)峰度對(duì)數(shù)據(jù)分布進(jìn)行描述。

3.1.1 數(shù)據(jù)偏態(tài)

  1. 對(duì)稱分布:平均數(shù)=中位數(shù)=眾數(shù)
  2. 非對(duì)稱分布時(shí)即存在偏態(tài),分為右向偏態(tài)和左向偏態(tài)
  • 右向偏態(tài):平均數(shù)>眾數(shù),極端值在右側(cè),曲線向右延伸
  • 左向偏態(tài):平均數(shù)<眾數(shù),極端值在左側(cè),曲線向左延伸
  1. 偏態(tài)的描述方法:偏態(tài)系數(shù)SK(=0對(duì)稱分布,>0正偏態(tài),<0負(fù)偏態(tài))

3.2.1 數(shù)據(jù)峰度

數(shù)據(jù)峰度用于刻畫數(shù)據(jù)的尖峭程度。

  1. 標(biāo)準(zhǔn)峰度:正態(tài)分布對(duì)應(yīng)的標(biāo)準(zhǔn)峰度
  2. 尖頂峰度:數(shù)據(jù)在眾數(shù)周圍分布較集中
  3. 平頂峰度:數(shù)據(jù)在眾數(shù)周圍分布相對(duì)分散,扁平
  4. 峰度描述方法:峰度系數(shù)K(=0標(biāo)準(zhǔn)峰度,>0尖頂峰度分布,<0平頂峰度分布)

3.2 數(shù)據(jù)展示

  1. 條形圖:分組后統(tǒng)計(jì)結(jié)果的展示
  2. 扇形圖:各類別占比的分布
  3. 折線圖:表示統(tǒng)計(jì)數(shù)據(jù)的增長變化,主要用于展示時(shí)間序列的數(shù)據(jù)
  4. 直方圖:用于表示數(shù)據(jù)的分布情況
  5. 盒式圖:顯示數(shù)據(jù)的離散情況,中位數(shù)、四分位數(shù)、上下邊緣、異常值(四分位與邊緣間為溫和異常值,上下邊緣以外為異常值)
  • 上下邊緣不是極大極小值,上邊緣 = Q3 1.5(Q3-Q1),下邊緣 = Q1 - 1.5(Q3-Q1)
  • 使用箱式圖判斷異常值無需假設(shè)數(shù)據(jù)服從正態(tài)分布(相比3sigma方法),并且數(shù)據(jù)抗耐高

4 數(shù)理統(tǒng)計(jì)基礎(chǔ)知識(shí)

4.1 隨機(jī)變量及其概率描述

  1. 隨機(jī)現(xiàn)象:具有偶然性,并不總出現(xiàn)相同結(jié)果的事件
  2. 隨機(jī)事件:隨機(jī)現(xiàn)象的某些基本結(jié)果組成的集合(不能確定是否發(fā)生,多次試驗(yàn)結(jié)果具有規(guī)律性),使用隨機(jī)變量對(duì)隨機(jī)事件的可能性進(jìn)行描述
  3. 概率:預(yù)測事件發(fā)生的可能性,試驗(yàn)中事件的發(fā)生次數(shù)/總試驗(yàn)次數(shù)
  4. 隨機(jī)變量的分布
  • 離散型:有限個(gè)點(diǎn)或可列出,分布類型包含二項(xiàng)分布、泊松分布
  • 連續(xù)型:區(qū)間;均勻分布、指數(shù)分布、正態(tài)分布
  1. 條件概率:B發(fā)生時(shí)A發(fā)生的概率=AB同時(shí)發(fā)生概率/B發(fā)生的概率
  2. 相互獨(dú)立事件:P(A|B)=P(A) & P(B|A)=P(B) & P(AB)=P(A) x P(B) ,例如有放回抽樣

4.2 常見分布類型介紹

正態(tài)分布

正態(tài)分布是對(duì)稱的,概率曲線最高點(diǎn)在均值處,標(biāo)準(zhǔn)正態(tài)分布是指均值為0,標(biāo)準(zhǔn)差為1的正態(tài)分布、

3sigma準(zhǔn)則:質(zhì)量檢測、剔除異常值

z標(biāo)準(zhǔn)化:將正態(tài)分布轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布

卡方分布

用于卡方檢驗(yàn)

若n個(gè)相互獨(dú)立的隨機(jī)變量ξ?,ξ?,...,ξn ,均服從標(biāo)準(zhǔn)正態(tài)分布(也稱獨(dú)立同分布于標(biāo)準(zhǔn)正態(tài)分布),則這n個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量的平方和構(gòu)成一新的隨機(jī)變量,其分布規(guī)律稱為卡方分布

t分布

t分布是一簇曲線,其形態(tài)變化與n(確切地說與自由度df)大小有關(guān)。自由度df越小,t分布曲線越低平;自由度df越大,t分布曲線越接近標(biāo)準(zhǔn)正態(tài)分布(u分布)曲線。

t檢驗(yàn)、獨(dú)立性檢驗(yàn)等

F分布

用于方差分析、方差檢驗(yàn)

4.3 大數(shù)定律&中心極限定理

大數(shù)定律

在隨機(jī)事件的大量重復(fù)出現(xiàn)中,往往呈現(xiàn)幾乎必然的規(guī)律,這個(gè)規(guī)律就是大數(shù)定律。

中心極限定理

對(duì)于任何分布的總體,若樣本容量較大,能夠用正態(tài)概率分布來近似樣本均值的抽樣分布。

通常樣本容量達(dá)到30(樣本中的單位數(shù)達(dá)到30)即可滿足定理的大樣本條件。

5 抽樣估計(jì)

5.1 抽樣概念引入

抽樣:使用局部估計(jì)整體

總體相關(guān)概念

  1. 總體:根據(jù)研究目標(biāo)確定的對(duì)象全體,未必是全量用戶
  2. 總體指標(biāo):均值、比重結(jié)構(gòu)等
  3. 個(gè)體:總體中的每個(gè)元素,具有同質(zhì)性(滿足同一研究目標(biāo))、大量、差異性;個(gè)體總數(shù)稱為總體容量N

樣本相關(guān)概念

  1. 樣本:隨機(jī)從總體中抽取的部分個(gè)體
  2. 樣本指標(biāo):樣本均值、樣本方差
  3. 樣本容量:樣本中的個(gè)體數(shù)量

抽樣估計(jì):利用樣本指標(biāo)估計(jì)總體值班表

要求:隨機(jī)性、獨(dú)立性

5.2 區(qū)間估計(jì)

相關(guān)指標(biāo)

  1. 置信區(qū)間:精確性
  2. 置信系數(shù):可靠性
  3. 顯著性水平:alpha,表示不可靠概率

檢驗(yàn)統(tǒng)計(jì)量

根據(jù)樣本容量不同、估計(jì)均值或比例的不同,選取不同的檢驗(yàn)統(tǒng)計(jì)量

大樣本——z分布

小樣本——t分布

6 假設(shè)檢驗(yàn)

6.1 概念

通過樣本數(shù)據(jù)檢驗(yàn)對(duì)總體的假設(shè)。

基本思想:反證法,基于小概率時(shí)間不發(fā)生的準(zhǔn)則和總體的假設(shè),根據(jù)樣本數(shù)據(jù)獲得的樣本統(tǒng)計(jì)量分布,得到抽樣過程中的極端或錯(cuò)誤現(xiàn)象的小概率時(shí)間,從而做出對(duì)假設(shè)的否定判斷。

假設(shè):原假設(shè)、備擇假設(shè)

6.2 假設(shè)檢驗(yàn)方法

  1. 建立假設(shè):通常希望證偽的假設(shè)作為原假設(shè),反之為備擇假設(shè)
  2. 選擇檢驗(yàn)統(tǒng)計(jì)量:
  3. 確定拒絕域:給定顯著性水平,從而確定拒絕域
  4. 計(jì)算檢驗(yàn)統(tǒng)計(jì)量,做出判斷:計(jì)算結(jié)果落在拒絕域中,則表明小概率事件發(fā)生,拒絕原假設(shè)

6.3 常見檢驗(yàn)統(tǒng)計(jì)量

  1. Z檢驗(yàn):統(tǒng)計(jì)量滿足正態(tài)分布。用于單個(gè)正態(tài)總體均值檢驗(yàn);兩個(gè)正態(tài)總體均值之差檢驗(yàn),方差已知;
  2. t檢驗(yàn):統(tǒng)計(jì)量滿足t分布。單個(gè)正態(tài)總體均值檢驗(yàn),方差未知;兩個(gè)正態(tài)總體均值/比例檢驗(yàn),方差相等但未知(同一群體的兩次實(shí)驗(yàn));兩個(gè)正態(tài)總體均值/比例檢驗(yàn),方差不等且未知(AB測試)
  3. 卡方檢驗(yàn):統(tǒng)計(jì)量服從卡方分布,樣本來自正態(tài)總體,用于單個(gè)正態(tài)總體方差檢驗(yàn);
  4. F檢驗(yàn):統(tǒng)計(jì)量服從F分布,樣本數(shù)據(jù)來自兩個(gè)正態(tài)總體,用于兩個(gè)正態(tài)總體方差檢驗(yàn)。

Z、t檢驗(yàn)用于均值或比例檢驗(yàn),卡方和F檢驗(yàn)用于方差檢驗(yàn)

7 方差分析

方差分析用來描述多個(gè)總體的差異性,檢驗(yàn)多個(gè)總體均值是否相同。

通過檢驗(yàn)各總體均值是否相等來判斷分類型自變量對(duì)數(shù)值型因變量是否有顯著性影響。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
干貨!統(tǒng)計(jì)學(xué)7種數(shù)據(jù)分析方法,超級(jí)實(shí)用
數(shù)據(jù)分析必掌握的統(tǒng)計(jì)學(xué)知識(shí)
心理統(tǒng)計(jì)學(xué)筆記
深入解讀A/B 測試的統(tǒng)計(jì)學(xué)原理
[數(shù)學(xué)/統(tǒng)計(jì)基礎(chǔ)] 簡明實(shí)用的統(tǒng)計(jì)學(xué)基礎(chǔ)問答
華東師大心理學(xué)統(tǒng)計(jì)筆記
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服