在我們深入研究之前,讓我們回顧一下統(tǒng)計學(xué)習(xí)的一些重要方面。
自變量和因變量:
在統(tǒng)計學(xué)習(xí)的背景下,有兩種類型的數(shù)據(jù):
無法控制的數(shù)據(jù),即因變量需要預(yù)測或估計。
模型:
模型是一種轉(zhuǎn)換引擎,可幫助我們將因變量表示為自變量的函數(shù)。
參數(shù):
參數(shù)是添加到模型中用于估計輸出的成分。
線性回歸模型為監(jiān)督學(xué)習(xí)提供了一種簡單的方法。它們簡單而有效。
線性表示因變量和自變量之間的關(guān)系可以用直線表示。
回想一下幾何課程中一條線的等式是什么?
y = mx c
線性回歸只不過是這個簡單方程的一種表現(xiàn)。
英國著名統(tǒng)計學(xué)家喬治·博克曾說過:
“All models are wrong;some are useful。“
線性回歸模型并不完美。它試圖在直線上近似因變量和自變量之間的關(guān)系,近似會導(dǎo)致誤差,有些誤差可以減少,有些誤差是問題的本質(zhì)所固有的,這些誤差無法消除。它們被稱為不可約的錯誤,是真實關(guān)系中的噪聲項,不能被任何模型從根本上減少。
同一直線方程可以改寫為:
β0和β1是兩個未知常數(shù)代表截距和斜率。它們是參數(shù)。
ε是誤差項。
系統(tǒng)闡述
讓我們通過一個例子來解釋線性回歸模型的術(shù)語和工作原理。
費爾南多是一名數(shù)據(jù)科學(xué)家,他想買一輛車,他想估計或預(yù)測他將要支付的汽車價格,他在一家汽車經(jīng)銷公司有一位朋友,他詢問了其他各種汽車的價格以及汽車的一些特征,他的朋友向他提供了一些信息。
以下是提供給他的數(shù)據(jù):
首先,費爾南多想要評估他是否能根據(jù)發(fā)動機尺寸預(yù)測汽車價格。第一組分析尋求以下問題的答案:
費爾南多做了相關(guān)性分析。相關(guān)性是衡量兩個變量相關(guān)程度的指標(biāo)。它通過稱為相關(guān)系數(shù)的度量來衡量。它的值介于0和1之間。
如果相關(guān)系數(shù)很大(> 0.7) ve,則意味著當(dāng)一個變量增加時,另一個變量也會增加。一個大的-ve數(shù)表示當(dāng)一個變量增加時,另一個變量減少。
他進行了相關(guān)分析,他描繪了價格和發(fā)動機尺寸之間的關(guān)系。
他將數(shù)據(jù)分成訓(xùn)練集和測試集,75%的數(shù)據(jù)用于訓(xùn)練,其他的用于測試。
他構(gòu)建了一個線性回歸模型,他使用統(tǒng)計軟件包來創(chuàng)建模型,該模型創(chuàng)建了一個線性方程,表示汽車價格與發(fā)動機尺寸的關(guān)系。
以下是問題的答案:
費爾南多現(xiàn)在想建立一個線性回歸模型,該模型將根據(jù)發(fā)動機尺寸估算汽車價格。將這個等式疊加到汽車價格問題上,費爾南多為價格預(yù)測制定了以下等式。
價格=β0 β1*發(fā)動機尺寸
模型
回想一下前面的討論,關(guān)于如何將數(shù)據(jù)分成訓(xùn)練集和測試集。訓(xùn)練數(shù)據(jù)用于了解數(shù)據(jù),訓(xùn)練數(shù)據(jù)用于創(chuàng)建模型,測試數(shù)據(jù)用于評估模型性能。
費爾南多構(gòu)建了一個線性回歸模型,該模型產(chǎn)生一個線性方程,表示汽車價格與發(fā)動機尺寸的函數(shù)關(guān)系。
他將數(shù)據(jù)分成75%的訓(xùn)練數(shù)據(jù)集和25%的測試數(shù)據(jù)集。
他構(gòu)建了一個線性回歸模型。他使用統(tǒng)計軟件包來創(chuàng)建模型。該模型創(chuàng)建了一個線性方程,表示汽車價格與發(fā)動機尺寸的關(guān)系。
模型估計參數(shù):
線性方程估計如下:
價格= -6870.1 156.9 * 發(fā)動機尺寸
該模型為特定發(fā)動機尺寸下的汽車平均價格預(yù)測提供了方程。該等式表示以下內(nèi)容:
發(fā)動機尺寸每增加一個單位將使汽車的平均價格提高156.9個單位。
該模型已經(jīng)建成。需要評估模型的穩(wěn)健性。我們怎樣才能確定這個模型能夠預(yù)測出令人滿意的價格?該評估分兩部分完成。首先,測試以建立模型的穩(wěn)健性。其次,測試評估模型的準(zhǔn)確性。
費爾南多首先根據(jù)訓(xùn)練數(shù)據(jù)評估模型。他得到以下統(tǒng)計數(shù)據(jù)。
里面有很多統(tǒng)計數(shù)據(jù),讓我們專注于關(guān)鍵的(標(biāo)記為紅色方框)?;叵胍幌玛P(guān)于假設(shè)檢驗的討論,使用假設(shè)檢驗評估模型的穩(wěn)健性。
需要定義H0和Ha,它們的定義如下:
β1:β1的值決定價格與發(fā)動機尺寸之間的關(guān)系。如果β1=0則沒有關(guān)系。在這種情況下,β1是正的,這意味著價格和發(fā)動機尺寸之間存在某種關(guān)系。
t-stat: t-stat的值是多少個標(biāo)準(zhǔn)差系數(shù)估計(β1)遠(yuǎn)離零。此外,價格和發(fā)動機尺寸之間的關(guān)系遠(yuǎn)離零,在這種情況下,t-stat是21.09。他離零已經(jīng)足夠遠(yuǎn)了。
p-value: p-value是概率值。它表示在零假設(shè)為真的情況下看到給定t統(tǒng)計量的概率。如果p值很小,例如<0.0001,則意味著這是偶然的并且沒有關(guān)系的概率非常低。在這種情況下,p值很小,這意味著價格和發(fā)動機之間的關(guān)系不是偶然的。
通過這些指標(biāo),我們可以拒絕零假設(shè)并接受備擇假設(shè)。 價格與發(fā)動機尺寸之間存在穩(wěn)固的關(guān)系
建立了這種關(guān)系,準(zhǔn)確性怎么樣?模型的準(zhǔn)確度如何?為了了解模型的準(zhǔn)確性,一個名為R平方或決定系數(shù)的指標(biāo)非常重要。
R平方或決定系數(shù):要理解這些指標(biāo),讓我們將其分解為其組成部分。
我們來看一個例子。
在上面的示例中,RSS是基于三輛車的預(yù)測價格計算的。RSS值為41450201.63。實際價格的平均值是11,021。TSS計算為44,444,546。R平方計算為6.737%。對于這三個特定的數(shù)據(jù)點,該模型只能解釋6.73%的變化。
然而,對于費爾南多的模型,這是一個不同的故事。訓(xùn)練集的R平方為0.7503,即75.03%。這意味著該模型可以解釋更多75%的變化。
費爾南多現(xiàn)在有一個很好的模型。它在訓(xùn)練數(shù)據(jù)上表現(xiàn)令人滿意。但是,有25%的數(shù)據(jù)無法解釋。還有改進的余地。如何添加更多自變量來預(yù)測價格?當(dāng)添加多個自變量來預(yù)測因變量時,會創(chuàng)建一個多變量回歸模型,即多個變量。后續(xù)我們會繼續(xù)進行機器學(xué)習(xí)其他領(lǐng)域的講解。