全文共6409字,預(yù)計(jì)學(xué)習(xí)時(shí)長(zhǎng)19分鐘
圖源:Unsplash
“數(shù)據(jù)科學(xué)家是程序員中最擅長(zhǎng)統(tǒng)計(jì)學(xué)、統(tǒng)計(jì)學(xué)家中最擅長(zhǎng)編程的人?!?br>
——喬什·威爾斯(Josh Wills)
數(shù)學(xué)很重要。
數(shù)學(xué)與我們周圍的一切事物息息相關(guān),從形狀、圖案、顏色到花朵中花瓣的數(shù)量。數(shù)學(xué)深深扎根于人類生活的各個(gè)方面。
數(shù)學(xué)和統(tǒng)計(jì)學(xué)對(duì)學(xué)習(xí)數(shù)據(jù)科學(xué)至關(guān)重要,因?yàn)檫@些學(xué)科構(gòu)成了所有機(jī)器學(xué)習(xí)算法的基礎(chǔ)。
成為一名數(shù)據(jù)科學(xué)家,除了對(duì)編程語言要有很好的了解,還必須要掌握機(jī)器學(xué)習(xí)算法、數(shù)據(jù)驅(qū)動(dòng)方法。但數(shù)據(jù)科學(xué)并不只涉及這些領(lǐng)域。在本文中,您將了解數(shù)學(xué)和統(tǒng)計(jì)學(xué)對(duì)數(shù)據(jù)科學(xué)的重要意義以及如何將其用于建立機(jī)器學(xué)習(xí)模型。
圖源:Unsplash
本文將涉及的主題列表如下:
成為一名成功的數(shù)據(jù)科學(xué)家,必須掌握一定的基礎(chǔ)知識(shí)。數(shù)學(xué)和統(tǒng)計(jì)學(xué)是機(jī)器學(xué)習(xí)算法的基礎(chǔ)。重要的是了解各種機(jī)器學(xué)習(xí)算法背后的技術(shù),進(jìn)而知道如何以及何時(shí)使用它們。那么統(tǒng)計(jì)學(xué)到底是什么?
統(tǒng)計(jì)學(xué)是一門與數(shù)據(jù)收集、分析、解釋和表示有關(guān)的數(shù)學(xué)科學(xué)。
統(tǒng)計(jì)學(xué)–數(shù)據(jù)科學(xué)的數(shù)學(xué)和統(tǒng)計(jì)學(xué)
統(tǒng)計(jì)學(xué)用于處理現(xiàn)實(shí)世界中的復(fù)雜問題,在此基礎(chǔ)上,數(shù)據(jù)科學(xué)家和分析師可以尋找有意義的數(shù)據(jù)趨勢(shì)和變化。簡(jiǎn)而言之,統(tǒng)計(jì)學(xué)就是對(duì)數(shù)據(jù)進(jìn)行數(shù)學(xué)計(jì)算,并從中得出有意義的結(jié)論。
可應(yīng)用幾種統(tǒng)計(jì)函數(shù)、原理和算法分析原始數(shù)據(jù)、建立統(tǒng)計(jì)模型并推斷或預(yù)測(cè)結(jié)果。
統(tǒng)計(jì)學(xué)應(yīng)用–數(shù)據(jù)科學(xué)的數(shù)學(xué)和統(tǒng)計(jì)學(xué)
統(tǒng)計(jì)學(xué)影響生活的各個(gè)方面,例如股票市場(chǎng)、生命科學(xué)、天氣,零售業(yè)、保險(xiǎn)和教育。
接下來,將討論統(tǒng)計(jì)學(xué)中的基本術(shù)語。
在學(xué)習(xí)數(shù)據(jù)科學(xué)中的統(tǒng)計(jì)學(xué)時(shí),應(yīng)注意了解一些關(guān)鍵的統(tǒng)計(jì)術(shù)語。下面將展示一些術(shù)語:
在進(jìn)一步討論統(tǒng)計(jì)學(xué)的具體類別之前,先來看一下分析的類型。
分析類型
對(duì)任何事件進(jìn)行分析都可以選擇以下兩種方式之一:
分析類型–數(shù)據(jù)科學(xué)的數(shù)學(xué)和統(tǒng)計(jì)學(xué)
例如,如果我想從星巴克購買杯咖啡,那么就可以在小杯、中杯、大杯中選擇。這是定性分析的一個(gè)例子。但是,如果一家商店每周售出70杯常規(guī)咖啡,該例子則變?yōu)槎糠治?,因?yàn)橛幸粋€(gè)數(shù)字能體現(xiàn)每周售出咖啡的數(shù)量。
盡管兩種分析的目的都是為了獲得結(jié)果,但定量分析的結(jié)果更清晰,因此在分析中占據(jù)了至關(guān)重要的地位。
統(tǒng)計(jì)學(xué)中有兩個(gè)主要類別,即:
1. 描述性統(tǒng)計(jì)
描述性統(tǒng)計(jì)使用來自數(shù)值計(jì)算、圖形或表格的數(shù)據(jù)進(jìn)行總體描述。
描述性統(tǒng)計(jì)有助于整合數(shù)據(jù)并關(guān)注參數(shù)數(shù)據(jù)的特征。
描述性統(tǒng)計(jì)–數(shù)據(jù)科學(xué)的數(shù)學(xué)和統(tǒng)計(jì)學(xué)
假設(shè)要研究教室中學(xué)生的平均身高,在描述性統(tǒng)計(jì)中需要記錄班級(jí)中所有學(xué)生的身高,然后找到班級(jí)中最高、最低和平均身高。
描述性統(tǒng)計(jì)示例–數(shù)據(jù)科學(xué)的數(shù)學(xué)和統(tǒng)計(jì)
2. 推斷性統(tǒng)計(jì)
推斷性統(tǒng)計(jì)會(huì)根據(jù)從總體中獲得的數(shù)據(jù)樣本對(duì)總體進(jìn)行推斷和預(yù)測(cè)。
推斷性統(tǒng)計(jì)對(duì)一大組數(shù)據(jù)集進(jìn)行概括,并應(yīng)用概率得出結(jié)論。推斷性統(tǒng)計(jì)可根據(jù)樣本統(tǒng)計(jì)信息推斷總體參數(shù)并在此基礎(chǔ)上構(gòu)建模型。
推斷性統(tǒng)計(jì)–數(shù)據(jù)科學(xué)的數(shù)學(xué)和統(tǒng)計(jì)學(xué)
還是以研究班級(jí)中學(xué)生的平均身高為例,在推斷性統(tǒng)計(jì)中需要獲取該班級(jí)的樣本集,即整個(gè)班級(jí)中的幾個(gè)人。之前已經(jīng)將班級(jí)劃分為高個(gè)子組、平均身高組和矮個(gè)子組,通過這種方法可以基本上建立一個(gè)統(tǒng)計(jì)模型,并將其擴(kuò)展應(yīng)用到班級(jí)總體中。
推斷性統(tǒng)計(jì)示例–數(shù)據(jù)科學(xué)的數(shù)學(xué)和統(tǒng)計(jì)
現(xiàn)在將注意力轉(zhuǎn)移到描述性統(tǒng)計(jì)上,看看如何借助描述性統(tǒng)計(jì)解決分析類問題。
描述性分析
當(dāng)嘗試以圖形形式表示數(shù)據(jù)時(shí),例如直方圖、折線圖等,數(shù)據(jù)根據(jù)某種集中趨勢(shì)得以呈現(xiàn)。集中趨勢(shì)度量(例如均值、中位數(shù)或分布度的度量等)一般用于統(tǒng)計(jì)分析。為更好地理解統(tǒng)計(jì),借助示例討論統(tǒng)計(jì)中的不同度量。
汽車數(shù)據(jù)集–數(shù)據(jù)科學(xué)的數(shù)學(xué)和統(tǒng)計(jì)學(xué)
這是包含變量的汽車樣本數(shù)據(jù)集:
在進(jìn)行下一步前,先定義中心的主要度量或集中趨勢(shì)度量。
使用描述性分析,可以分析樣本數(shù)據(jù)集中的每個(gè)變量的平均值、標(biāo)準(zhǔn)偏差、最小值和最大值。
平均值 = (110+110+93+96+90+110+110+110)/8 = 103.625
8輛汽車的mpg : 21,21,21.3,22.8,23,23,23,23
中位數(shù) = (22.8+23 )/2 =22.9
分布度的度量
就像中心度量一樣,分布度的度量同樣存在,主要包括以下度量
了解了描述性分析背后的統(tǒng)計(jì)數(shù)據(jù)和數(shù)學(xué)運(yùn)算后,現(xiàn)在可以嘗試在R中進(jìn)行計(jì)算。
R中的統(tǒng)計(jì)
世界走向R的原因有n種。下面列舉了其中的幾個(gè)原因:
下面繼續(xù)介紹R中的描述性統(tǒng)計(jì)。
R中的描述性統(tǒng)計(jì)
實(shí)際操作是更好地理解某個(gè)概念的最好方式。
本節(jié)中將會(huì)有一個(gè)小型演示,展示如何計(jì)算均值、中位數(shù)、眾數(shù)、方差、標(biāo)準(zhǔn)差以及如何通過繪制直方圖研究變量。這是一個(gè)非常簡(jiǎn)單的演示,但它構(gòu)成了每種機(jī)器學(xué)習(xí)算法的基礎(chǔ)。
步驟1:導(dǎo)入數(shù)據(jù)進(jìn)行計(jì)算
>set.seed(1)#Generate random numbers and store it in a variable called data>data = runif(20,1,10)
步驟2:計(jì)算數(shù)據(jù)的均值
#Calculate Mean>mean = mean(data)>print(mean)[1] 5.996504
步驟3:計(jì)算數(shù)據(jù)的中位數(shù)
#Calculate Median>median = median(data)>print(median)[1] 6.408853
步驟4:計(jì)算數(shù)據(jù)的眾數(shù)
#Create a function for calculating Mode
>mode <- function(x) { >ux <- unique(x) >ux[which.max(tabulate(match(x, ux)))]
}
>result <- mode(data) >print(data)
[1] 3.3895784.349115 6.1556809.173870 2.8151379.085507 9.5020776.947180 6.662026
[10] 1.556076 2.8537712.589011 7.1832064.456933 7.9285735.479293 7.4585679.927155
[19] 4.420317 7.997007
>cat('mode= {}', result)
mode={} 3.389578
步驟5:計(jì)算數(shù)據(jù)的方差和標(biāo)準(zhǔn)偏差
#Calculate Variance and std Deviation>variance = var(data)>standardDeviation = sqrt(var(data))>print(standardDeviation)[1] 2.575061
步驟6:繪制直方圖
#Plot Histogram>hist(data, bins=10, range= c(0,10), edgecolor='black')
直方圖用于顯示數(shù)據(jù)點(diǎn)的頻率:
到目前為止,您已經(jīng)了解了描述性統(tǒng)計(jì),現(xiàn)在來看下推斷性統(tǒng)計(jì)。
統(tǒng)計(jì)學(xué)家使用假設(shè)檢驗(yàn)對(duì)假設(shè)是否被接受進(jìn)行正式核查。假設(shè)檢驗(yàn)是一種推斷性統(tǒng)計(jì)技術(shù),用于確定數(shù)據(jù)樣本中是否有足夠證據(jù)推斷某個(gè)條件對(duì)總體成立。
為了解一般總體的特征,我們抽取一個(gè)隨機(jī)樣本并分析樣本的特性。我們需要檢測(cè)已經(jīng)確定的結(jié)論能否準(zhǔn)確代表總體,最后還要對(duì)結(jié)果進(jìn)行解讀。是否接受假設(shè)取決于我們從假設(shè)中獲得的百分比值。
為更好地理解這一點(diǎn),讓我們看一個(gè)例子。
尼克、約翰、鮑勃和哈里四個(gè)男孩逃課被抓,于是老師懲罰他們留在學(xué)校打掃教室。
推斷性分析–數(shù)據(jù)科學(xué)的數(shù)學(xué)和統(tǒng)計(jì)學(xué)– Edureka
因此,約翰決定四人將輪流打掃教室。他想出了一個(gè)計(jì)劃,將四人名字都寫在便箋上,放在碗里。每天他們要從碗里抽出一個(gè)打掃教室的人。
現(xiàn)在已經(jīng)是三天了,所有人的名字都被抽中過,除了約翰的名字!假設(shè)此事件是完全隨機(jī)的,我們也不要帶有任何偏見,那么你覺得約翰沒有作弊的可能性是多少?
首先計(jì)算約翰一天不被選中的概率:
P(約翰一天不被選中) = 3/4 = 75%
此處概率為75%,這是相當(dāng)高的。如果連續(xù)三天都未選中約翰,那么概率下降到42%
P(連續(xù)三天未選中約翰) = 3/4 ×3/4× 3/4 = 0.42 (approx)
現(xiàn)在,考慮一下連續(xù)12天都未選中約翰的情況!在這種情況下,概率下降到3.2%。因此可以得出,約翰作弊的可能性相當(dāng)高。
P(連續(xù)12天未選中約翰) = (3/4) ^12 = 0.032 <?.??
為得出結(jié)論,統(tǒng)計(jì)學(xué)家們定義了所謂的閾值。在上述情況中,將閾值設(shè)置為5%時(shí),如果得出的概率低于5%,那么說明John在欺騙他人,使自己逃脫留堂的懲罰。但是,如果概率高于閾值,那么就只能說明約翰是很幸運(yùn),從未被抽中。
概率檢驗(yàn)和假設(shè)檢驗(yàn)引出了兩個(gè)重要概念,即:
因此,在示例中,如果事件發(fā)生的概率小于5%,則它是一個(gè)有偏差的事件,因此它印證了另一種假設(shè)。
此演示使用Gapminder數(shù)據(jù)集進(jìn)行假設(shè)檢驗(yàn)。gapminder數(shù)據(jù)集的列表上包含了142個(gè)國家/地區(qū),包括他們從1952年到2007年每五年的預(yù)期壽命、人均GDP和人口值。
首先下載gapminder軟件包并將其加載到R中:
#Install and Load gapminder packageinstall.packages('gapminder')library(gapminder)data('gapminder')
現(xiàn)在,通過使用R中的View()函數(shù)查看數(shù)據(jù)集:
#Display gapminder datasetView(gapminder)
快速瀏覽一下數(shù)據(jù)集:
下一步是加載R提供的dplyr軟件包,該軟件包可謂臭名昭著。我們特別希望在dplyr軟件包中使用管道(%>%)運(yùn)算符。管道運(yùn)算符是什么?一般而言,您可以使用它將數(shù)據(jù)從左側(cè)管道傳輸?shù)接覀?cè)管道。這一點(diǎn)顯而易見。
#Install and Load dplyr packageinstall.packages('dplyr')library(dplyr)
下一步是比較兩個(gè)地方(愛爾蘭和南非)的預(yù)期壽命,并進(jìn)行t檢驗(yàn)以核查這項(xiàng)比較是否遵循零假設(shè)或替代假設(shè)。
#Comparing the variance in life expectancy in South Africa & Ireland
df1 <-gapminder %>%
select(country, lifeExp) %>%
filter(country == 'South Africa' | country =='Ireland')
因此,將t檢驗(yàn)應(yīng)用于數(shù)據(jù)框(df1)并比較預(yù)期壽命后,您可以看到以下結(jié)果:
#Perform t-test
t.test(data = df1, lifeExp ~ country)
Welch Two Sample t-test
data: lifeExp by country
t = 10.067, df = 19.109, p-value = 4.466e-09
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
15.0702222.97794
sample estimates:
meanin group Ireland mean in group South Africa
73.01725 53.99317
注意愛爾蘭和南非的均值,您可以看到預(yù)期壽命幾乎相差20個(gè)等級(jí)?,F(xiàn)在需要核查南非和愛爾蘭的預(yù)期壽命差值是否真實(shí)有效,而不僅僅只是偶然。因此,進(jìn)行t檢驗(yàn)。
請(qǐng)?zhí)貏e注意p值,也稱為概率值。在確保模型重要性方面,p值是非常重要的度量。僅當(dāng)p值小于預(yù)定統(tǒng)計(jì)顯著性水平(理想情況下為0.05)時(shí),我們才認(rèn)為模型具有統(tǒng)計(jì)顯著性。從輸出值中可以發(fā)現(xiàn),p值為4.466e-09,是一個(gè)非常小的值。
在模型概述中,請(qǐng)注意另一個(gè)稱為t值的重要參數(shù)。較大的t值表明替代假設(shè)是正確的,在運(yùn)氣好的情況下,預(yù)期壽命的差值不等于零。因此,在這一情況下,原假設(shè)被推翻。
在本演示的最后,將繪制每個(gè)大陸的圖表,通過該圖表顯示每個(gè)大陸的預(yù)期壽命會(huì)如何隨著該大陸人均GDP的變化而變化。
#Plotting a gdpPercap vs lifeExp graph for each continent
#Install and Load ggplot2 package
install.packages('ggplot2')
library(ggplot2)
gapminder%>%
filter(gdpPercap < 50000) %>%
ggplot(aes(x=log(gdpPercap), y=lifeExp, col=continent, size=pop))+
geom_point(alpha=0.3)+
geom_smooth(method = lm)+
facet_wrap(~continent)
在上圖中,幾乎可以看到每個(gè)大陸的預(yù)期壽命相對(duì)于人均GDP的線性變化。這也表明R語言可以很好地用于統(tǒng)計(jì)分析。
這些就是關(guān)于數(shù)據(jù)科學(xué)中數(shù)學(xué)和統(tǒng)計(jì)學(xué)的完全指南了,不知道大家GET到?jīng)]有?
圖源:Unsplash
聯(lián)系客服