国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
數(shù)據(jù)科學(xué)簡化:簡單線性回歸模型

我們在之前已經(jīng)講解了簡單的機器學(xué)習(xí)中統(tǒng)計學(xué)習(xí)和假設(shè)檢驗的概念。在本文中,我們將深入研究機器學(xué)習(xí)中的線性回歸模型。

在我們深入研究之前,讓我們回顧一下統(tǒng)計學(xué)習(xí)的一些重要方面。

自變量和因變量:

在統(tǒng)計學(xué)習(xí)的背景下,有兩種類型的數(shù)據(jù):

  • 自變量:可以直接控制的數(shù)據(jù)。
  • 因變量:無法直接控制的數(shù)據(jù)。

無法控制的數(shù)據(jù),即因變量需要預(yù)測或估計。

模型:

模型是一種轉(zhuǎn)換引擎,可幫助我們將因變量表示為自變量的函數(shù)。

參數(shù):

參數(shù)是添加到模型中用于估計輸出的成分。

概念

線性回歸模型為監(jiān)督學(xué)習(xí)提供了一種簡單的方法。它們簡單而有效。

線性表示因變量和自變量之間的關(guān)系可以用直線表示。

回想一下幾何課程中一條線的等式是什么?

y = mx c

線性回歸只不過是這個簡單方程的一種表現(xiàn)。

  • y是因變量,即需要估計和預(yù)測的變量。
  • x是自變量,即可控的變量,這是輸入。
  • m是斜率,它決定了線的角度,參數(shù)表示為β。
  • c是截距,一個常數(shù),它決定了x = 0時y的值。

英國著名統(tǒng)計學(xué)家喬治·博克曾說過:

“All models are wrong;some are useful。“

線性回歸模型并不完美。它試圖在直線上近似因變量和自變量之間的關(guān)系,近似會導(dǎo)致誤差,有些誤差可以減少,有些誤差是問題的本質(zhì)所固有的,這些誤差無法消除。它們被稱為不可約的錯誤,是真實關(guān)系中的噪聲項,不能被任何模型從根本上減少。

同一直線方程可以改寫為:

β0和β1是兩個未知常數(shù)代表截距和斜率。它們是參數(shù)。

ε是誤差項。

系統(tǒng)闡述

讓我們通過一個例子來解釋線性回歸模型的術(shù)語和工作原理。

費爾南多是一名數(shù)據(jù)科學(xué)家,他想買一輛車,他想估計或預(yù)測他將要支付的汽車價格,他在一家汽車經(jīng)銷公司有一位朋友,他詢問了其他各種汽車的價格以及汽車的一些特征,他的朋友向他提供了一些信息。

以下是提供給他的數(shù)據(jù):

  • make:汽車制造商。
  • fuelType:汽車使用的燃料類型。
  • nDoors:門的數(shù)量。
  • engineSize:汽車發(fā)動機的尺寸( 雖然現(xiàn)代社會中的發(fā)動機排量通常以升為單位測量,但較舊的發(fā)動機主要使用立方英寸來描述發(fā)動機尺寸 )。
  • price:汽車的價格。

首先,費爾南多想要評估他是否能根據(jù)發(fā)動機尺寸預(yù)測汽車價格。第一組分析尋求以下問題的答案:

  • 汽車價格與發(fā)動機尺寸有關(guān)嗎?
  • 關(guān)系有多強?
  • 這種關(guān)系是線性的嗎?
  • 我們可以根據(jù)發(fā)動機尺寸預(yù)測/估算汽車價格嗎?

費爾南多做了相關(guān)性分析。相關(guān)性是衡量兩個變量相關(guān)程度的指標(biāo)。它通過稱為相關(guān)系數(shù)的度量來衡量。它的值介于0和1之間。

如果相關(guān)系數(shù)很大(> 0.7) ve,則意味著當(dāng)一個變量增加時,另一個變量也會增加。一個大的-ve數(shù)表示當(dāng)一個變量增加時,另一個變量減少。

他進行了相關(guān)分析,他描繪了價格和發(fā)動機尺寸之間的關(guān)系。

他將數(shù)據(jù)分成訓(xùn)練集和測試集,75%的數(shù)據(jù)用于訓(xùn)練,其他的用于測試。

他構(gòu)建了一個線性回歸模型,他使用統(tǒng)計軟件包來創(chuàng)建模型,該模型創(chuàng)建了一個線性方程,表示汽車價格發(fā)動機尺寸的關(guān)系。

以下是問題的答案:

  • 汽車價格與發(fā)動機尺寸有關(guān)嗎?
  • 是的,有關(guān)系。
  • 關(guān)系有多強?
  • 相關(guān)系數(shù)為0.872 =>有很強的關(guān)系。
  • 這種關(guān)系是線性的嗎?
  • 直線可以擬合=>可以使用發(fā)動機尺寸進行合適的價格預(yù)測。
  • 我們可以根據(jù)發(fā)動機尺寸預(yù)測/估算汽車價格嗎?
  • 是的,可以根據(jù)發(fā)動機尺寸估算汽車價格。

費爾南多現(xiàn)在想建立一個線性回歸模型,該模型將根據(jù)發(fā)動機尺寸估算汽車價格。將這個等式疊加到汽車價格問題上,費爾南多為價格預(yù)測制定了以下等式。

價格=β0 β1*發(fā)動機尺寸

模型構(gòu)建與解釋

模型

回想一下前面的討論,關(guān)于如何將數(shù)據(jù)分成訓(xùn)練集測試集。訓(xùn)練數(shù)據(jù)用于了解數(shù)據(jù),訓(xùn)練數(shù)據(jù)用于創(chuàng)建模型,測試數(shù)據(jù)用于評估模型性能。

費爾南多構(gòu)建了一個線性回歸模型,該模型產(chǎn)生一個線性方程,表示汽車價格發(fā)動機尺寸的函數(shù)關(guān)系

他將數(shù)據(jù)分成75%的訓(xùn)練數(shù)據(jù)集和25%的測試數(shù)據(jù)集。

他構(gòu)建了一個線性回歸模型。他使用統(tǒng)計軟件包來創(chuàng)建模型。該模型創(chuàng)建了一個線性方程,表示汽車價格發(fā)動機尺寸的關(guān)系。

模型估計參數(shù):

  • β0估計為-6870.1
  • β1估計為156.9

線性方程估計如下:

價格= -6870.1 156.9 * 發(fā)動機尺寸

解釋

該模型為特定發(fā)動機尺寸下的汽車平均價格預(yù)測提供了方程。該等式表示以下內(nèi)容:

發(fā)動機尺寸每增加一個單位將使汽車的平均價格提高156.9個單位。

評估

該模型已經(jīng)建成。需要評估模型的穩(wěn)健性。我們怎樣才能確定這個模型能夠預(yù)測出令人滿意的價格?該評估分兩部分完成。首先,測試以建立模型的穩(wěn)健性。其次,測試評估模型的準(zhǔn)確性。

費爾南多首先根據(jù)訓(xùn)練數(shù)據(jù)評估模型。他得到以下統(tǒng)計數(shù)據(jù)。

里面有很多統(tǒng)計數(shù)據(jù),讓我們專注于關(guān)鍵的(標(biāo)記為紅色方框)?;叵胍幌玛P(guān)于假設(shè)檢驗的討論,使用假設(shè)檢驗評估模型的穩(wěn)健性。

需要定義H0和Ha,它們的定義如下:

  • H0(零假設(shè)):x和y之間沒有關(guān)系,即價格和發(fā)動機尺寸之間沒有關(guān)系。
  • Ha(備擇假設(shè)):x和y之間存在某種關(guān)系,即價格和發(fā)動機尺寸之間存在關(guān)系。

β1:β1的值決定價格與發(fā)動機尺寸之間的關(guān)系。如果β1=0則沒有關(guān)系。在這種情況下,β1是正的,這意味著價格和發(fā)動機尺寸之間存在某種關(guān)系。

t-stat: t-stat的值是多少個標(biāo)準(zhǔn)差系數(shù)估計(β1)遠(yuǎn)離零。此外,價格和發(fā)動機尺寸之間的關(guān)系遠(yuǎn)離零,在這種情況下,t-stat是21.09。他離零已經(jīng)足夠遠(yuǎn)了。

p-value: p-value是概率值。它表示在零假設(shè)為真的情況下看到給定t統(tǒng)計量的概率。如果p值很小,例如<0.0001,則意味著這是偶然的并且沒有關(guān)系的概率非常低。在這種情況下,p值很小,這意味著價格和發(fā)動機之間的關(guān)系不是偶然的。

通過這些指標(biāo),我們可以拒絕零假設(shè)并接受備擇假設(shè)。 價格與發(fā)動機尺寸之間存在穩(wěn)固的關(guān)系

建立了這種關(guān)系,準(zhǔn)確性怎么樣?模型的準(zhǔn)確度如何?為了了解模型準(zhǔn)確性,一個名為R平方或決定系數(shù)的指標(biāo)非常重要。

R平方或決定系數(shù):要理解這些指標(biāo),讓我們將其分解為其組成部分。

  • 誤差(e)是實際y和預(yù)測y之間的差。預(yù)測的y表示為?。針對每個觀測值評估該誤差。這些誤差也稱為殘差。
  • 然后將所有殘差值平方并相加。該術(shù)語稱為殘差平方和(RSS)。RSS越低越好。
  • 這是R2方程的另一部分,為了獲得另一部分,首先,計算實際目標(biāo)的平均值,即估計汽車價格的平均值。然后計算平均值和實際值之間的差異。然后平方并添加這些差異。它是總平方和(TSS)。
  • R平方的確定系數(shù)計算為1- RSS/TSS。這個度量標(biāo)準(zhǔn)解釋了模型預(yù)測的值與實際平均值之間的方差百分比,而不是實際的平均值。這個值介于0和1之間。值越高,模型可以越好地解釋方差。

我們來看一個例子。

在上面的示例中,RSS是基于三輛車的預(yù)測價格計算的。RSS值為41450201.63。實際價格的平均值是11,021。TSS計算為44,444,546。R平方計算為6.737%。對于這三個特定的數(shù)據(jù)點,該模型只能解釋6.73%的變化。

然而,對于費爾南多的模型,這是一個不同的故事。訓(xùn)練集的R平方為0.7503,即75.03%。這意味著該模型可以解釋更多75%的變化。

結(jié)論

費爾南多現(xiàn)在有一個很好的模型。它在訓(xùn)練數(shù)據(jù)上表現(xiàn)令人滿意。但是,有25%的數(shù)據(jù)無法解釋。還有改進的余地。如何添加更多自變量來預(yù)測價格?當(dāng)添加多個自變量來預(yù)測因變量時,會創(chuàng)建一個多變量回歸模型,即多個變量。后續(xù)我們會繼續(xù)進行機器學(xué)習(xí)其他領(lǐng)域的講解。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
大數(shù)據(jù)時代下數(shù)據(jù)分析的變化
回歸系列(一)| 怎樣正確地理解回歸
兩個例子告訴你:什么是“線性”回歸模型?
SPSS統(tǒng)計分析詳細(xì)結(jié)構(gòu)
回歸分析方法介紹
關(guān)于R square的一點總結(jié)與心得
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服