我們在之前已經(jīng)講解了簡單的機器學(xué)習(xí)中統(tǒng)計學(xué)習(xí)和假設(shè)檢驗的概念。在本文中，我們將深入研究機器學(xué)習(xí)中的線性回歸模型。

在我們深入研究之前，讓我們回顧一下統(tǒng)計學(xué)習(xí)的一些重要方面。

自變量和因變量：

在統(tǒng)計學(xué)習(xí)的背景下，有兩種類型的數(shù)據(jù)：

自變量：可以直接控制的數(shù)據(jù)。
因變量：無法直接控制的數(shù)據(jù)。

無法控制的數(shù)據(jù)，即因變量需要預(yù)測或估計。

模型：

模型是一種轉(zhuǎn)換引擎，可幫助我們將因變量表示為自變量的函數(shù)。

參數(shù)：

參數(shù)是添加到模型中用于估計輸出的成分。

概念

線性回歸模型為監(jiān)督學(xué)習(xí)提供了一種簡單的方法。它們簡單而有效。

線性表示因變量和自變量之間的關(guān)系可以用直線表示。

回想一下幾何課程中一條線的等式是什么？

y = mx c

線性回歸只不過是這個簡單方程的一種表現(xiàn)。

y是因變量，即需要估計和預(yù)測的變量。
x是自變量，即可控的變量，這是輸入。
m是斜率，它決定了線的角度，參數(shù)表示為β。
c是截距，一個常數(shù)，它決定了x = 0時y的值。

英國著名統(tǒng)計學(xué)家喬治·博克曾說過：

“All models are wrong；some are useful。“

線性回歸模型并不完美。它試圖在直線上近似因變量和自變量之間的關(guān)系，近似會導(dǎo)致誤差，有些誤差可以減少，有些誤差是問題的本質(zhì)所固有的，這些誤差無法消除。它們被稱為不可約的錯誤，是真實關(guān)系中的噪聲項，不能被任何模型從根本上減少。

同一直線方程可以改寫為：

β0和β1是兩個未知常數(shù)代表截距和斜率。它們是參數(shù)。

ε是誤差項。

系統(tǒng)闡述

讓我們通過一個例子來解釋線性回歸模型的術(shù)語和工作原理。

費爾南多是一名數(shù)據(jù)科學(xué)家，他想買一輛車，他想估計或預(yù)測他將要支付的汽車價格，他在一家汽車經(jīng)銷公司有一位朋友，他詢問了其他各種汽車的價格以及汽車的一些特征，他的朋友向他提供了一些信息。

以下是提供給他的數(shù)據(jù)：

make：汽車制造商。
fuelType：汽車使用的燃料類型。
nDoors：門的數(shù)量。
engineSize：汽車發(fā)動機的尺寸（雖然現(xiàn)代社會中的發(fā)動機排量通常以升為單位測量，但較舊的發(fā)動機主要使用立方英寸來描述發(fā)動機尺寸）。
price：汽車的價格。

首先，費爾南多想要評估他是否能根據(jù)發(fā)動機尺寸預(yù)測汽車價格。第一組分析尋求以下問題的答案：

汽車價格與發(fā)動機尺寸有關(guān)嗎？
關(guān)系有多強？
這種關(guān)系是線性的嗎？
我們可以根據(jù)發(fā)動機尺寸預(yù)測/估算汽車價格嗎？

費爾南多做了相關(guān)性分析。相關(guān)性是衡量兩個變量相關(guān)程度的指標(biāo)。它通過稱為相關(guān)系數(shù)的度量來衡量。它的值介于0和1之間。

如果相關(guān)系數(shù)很大（> 0.7） ve，則意味著當(dāng)一個變量增加時，另一個變量也會增加。一個大的-ve數(shù)表示當(dāng)一個變量增加時，另一個變量減少。

他進行了相關(guān)分析，他描繪了價格和發(fā)動機尺寸之間的關(guān)系。

他將數(shù)據(jù)分成訓(xùn)練集和測試集，75％的數(shù)據(jù)用于訓(xùn)練，其他的用于測試。

他構(gòu)建了一個線性回歸模型，他使用統(tǒng)計軟件包來創(chuàng)建模型，該模型創(chuàng)建了一個線性方程，表示汽車價格與發(fā)動機尺寸的關(guān)系。

以下是問題的答案：

汽車價格與發(fā)動機尺寸有關(guān)嗎？
是的，有關(guān)系。
關(guān)系有多強？
相關(guān)系數(shù)為0.872 =>有很強的關(guān)系。
這種關(guān)系是線性的嗎？
直線可以擬合=>可以使用發(fā)動機尺寸進行合適的價格預(yù)測。
我們可以根據(jù)發(fā)動機尺寸預(yù)測/估算汽車價格嗎？
是的，可以根據(jù)發(fā)動機尺寸估算汽車價格。

費爾南多現(xiàn)在想建立一個線性回歸模型，該模型將根據(jù)發(fā)動機尺寸估算汽車價格。將這個等式疊加到汽車價格問題上，費爾南多為價格預(yù)測制定了以下等式。

價格=β0 β1*發(fā)動機尺寸

模型構(gòu)建與解釋

模型

回想一下前面的討論，關(guān)于如何將數(shù)據(jù)分成訓(xùn)練集和測試集。訓(xùn)練數(shù)據(jù)用于了解數(shù)據(jù)，訓(xùn)練數(shù)據(jù)用于創(chuàng)建模型，測試數(shù)據(jù)用于評估模型性能。

費爾南多構(gòu)建了一個線性回歸模型，該模型產(chǎn)生一個線性方程，表示汽車價格與發(fā)動機尺寸的函數(shù)關(guān)系。

他將數(shù)據(jù)分成75%的訓(xùn)練數(shù)據(jù)集和25%的測試數(shù)據(jù)集。

他構(gòu)建了一個線性回歸模型。他使用統(tǒng)計軟件包來創(chuàng)建模型。該模型創(chuàng)建了一個線性方程，表示汽車價格與發(fā)動機尺寸的關(guān)系。

模型估計參數(shù)：

β0估計為-6870.1
β1估計為156.9

線性方程估計如下：

價格= -6870.1 156.9 * 發(fā)動機尺寸

解釋

該模型為特定發(fā)動機尺寸下的汽車平均價格預(yù)測提供了方程。該等式表示以下內(nèi)容：

發(fā)動機尺寸每增加一個單位將使汽車的平均價格提高156.9個單位。

評估

該模型已經(jīng)建成。需要評估模型的穩(wěn)健性。我們怎樣才能確定這個模型能夠預(yù)測出令人滿意的價格？該評估分兩部分完成。首先，測試以建立模型的穩(wěn)健性。其次，測試評估模型的準(zhǔn)確性。

費爾南多首先根據(jù)訓(xùn)練數(shù)據(jù)評估模型。他得到以下統(tǒng)計數(shù)據(jù)。

里面有很多統(tǒng)計數(shù)據(jù)，讓我們專注于關(guān)鍵的（標(biāo)記為紅色方框）?；叵胍幌玛P(guān)于假設(shè)檢驗的討論，使用假設(shè)檢驗評估模型的穩(wěn)健性。

需要定義H0和Ha，它們的定義如下：

H0（零假設(shè)）：x和y之間沒有關(guān)系，即價格和發(fā)動機尺寸之間沒有關(guān)系。
Ha（備擇假設(shè)）：x和y之間存在某種關(guān)系，即價格和發(fā)動機尺寸之間存在關(guān)系。

β1：β1的值決定價格與發(fā)動機尺寸之間的關(guān)系。如果β1=0則沒有關(guān)系。在這種情況下，β1是正的，這意味著價格和發(fā)動機尺寸之間存在某種關(guān)系。

t-stat： t-stat的值是多少個標(biāo)準(zhǔn)差系數(shù)估計（β1）遠(yuǎn)離零。此外，價格和發(fā)動機尺寸之間的關(guān)系遠(yuǎn)離零，在這種情況下，t-stat是21.09。他離零已經(jīng)足夠遠(yuǎn)了。

p-value： p-value是概率值。它表示在零假設(shè)為真的情況下看到給定t統(tǒng)計量的概率。如果p值很小，例如<0.0001，則意味著這是偶然的并且沒有關(guān)系的概率非常低。在這種情況下，p值很小，這意味著價格和發(fā)動機之間的關(guān)系不是偶然的。

通過這些指標(biāo)，我們可以拒絕零假設(shè)并接受備擇假設(shè)。 價格與發(fā)動機尺寸之間存在穩(wěn)固的關(guān)系

建立了這種關(guān)系，準(zhǔn)確性怎么樣？模型的準(zhǔn)確度如何？為了了解模型的準(zhǔn)確性，一個名為R平方或決定系數(shù)的指標(biāo)非常重要。

R平方或決定系數(shù)：要理解這些指標(biāo)，讓我們將其分解為其組成部分。

誤差（e）是實際y和預(yù)測y之間的差。預(yù)測的y表示為?。針對每個觀測值評估該誤差。這些誤差也稱為殘差。
然后將所有殘差值平方并相加。該術(shù)語稱為殘差平方和（RSS）。RSS越低越好。
這是R²方程的另一部分，為了獲得另一部分，首先，計算實際目標(biāo)的平均值，即估計汽車價格的平均值。然后計算平均值和實際值之間的差異。然后平方并添加這些差異。它是總平方和（TSS）。
R平方的確定系數(shù)計算為1- RSS/TSS。這個度量標(biāo)準(zhǔn)解釋了模型預(yù)測的值與實際平均值之間的方差百分比，而不是實際的平均值。這個值介于0和1之間。值越高，模型可以越好地解釋方差。

我們來看一個例子。

在上面的示例中，RSS是基于三輛車的預(yù)測價格計算的。RSS值為41450201.63。實際價格的平均值是11,021。TSS計算為44,444,546。R平方計算為6.737％。對于這三個特定的數(shù)據(jù)點，該模型只能解釋6.73％的變化。

然而，對于費爾南多的模型，這是一個不同的故事。訓(xùn)練集的R平方為0.7503，即75.03％。這意味著該模型可以解釋更多75％的變化。

結(jié)論

費爾南多現(xiàn)在有一個很好的模型。它在訓(xùn)練數(shù)據(jù)上表現(xiàn)令人滿意。但是，有25％的數(shù)據(jù)無法解釋。還有改進的余地。如何添加更多自變量來預(yù)測價格？當(dāng)添加多個自變量來預(yù)測因變量時，會創(chuàng)建一個多變量回歸模型，即多個變量。后續(xù)我們會繼續(xù)進行機器學(xué)習(xí)其他領(lǐng)域的講解。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

我們在之前已經(jīng)講解了簡單的機器學(xué)習(xí)中統(tǒng)計學(xué)習(xí)和假設(shè)檢驗的概念。在本文中，我們將深入研究機器學(xué)習(xí)中的線性回歸模型。

概念

模型構(gòu)建與解釋

解釋

評估

結(jié)論

我們在之前已經(jīng)講解了簡單的機器學(xué)習(xí)中統(tǒng)計學(xué)習(xí)和假設(shè)檢驗的概念。在本文中，我們將深入研究機器學(xué)習(xí)中的線性回歸模型。