本文主要包含兩部分內(nèi)容:
一是線性回歸分析的基本原理(普通最小兒乘法),對于所有學習回歸分析的朋友來說,了解這些基本原理,對于正確運用回歸分析方法都是很重要的。
二是如何使用excel軟件實現(xiàn)回歸分析,對于沒有學過專門的統(tǒng)計軟件的朋友來說,用自己熟悉的excel實現(xiàn)簡單的回歸分析是不錯的選擇。
“回歸分析”是解析“自變量”和“因變量”并明確兩者關(guān)系的統(tǒng)計方法。此時,我們把因子變量稱為“說明變量”,把自變量稱為“目標變量址(被說明變量)”。清楚了回歸分析的目的后,下面我們以回歸分析預測法的步驟來說明什么是回歸分析法:明確預測的具體目標,也就確定了因變量。如預測具體目標是下一年度的銷售量,那么銷售量Y就是因變量。通過市場調(diào)查和查閱資料,尋找與預測目標的相關(guān)影響因素,即自變量,并從中選出主要的影響因素。依據(jù)自變量和因變量的歷史統(tǒng)計資料進行計算,在此基礎(chǔ)上建立回歸分析方程,即回歸分析預測模型。什么是回歸分析法回歸分析是對具有因果關(guān)系的影響因素(自變量)和預測對象(因變量)所進行的數(shù)理統(tǒng)計分析處理。只有當變量與因變量確實存在某種關(guān)系時,建立的回歸方程才有意義。因此,作為自變量的因素與作為因變量的預測對象是否有關(guān),相關(guān)程度如何,以及判斷這種相關(guān)程度的把握性多大,就成為進行回歸分析必須要解決的問題。進行相關(guān)分析,一般要求出相關(guān)關(guān)系,以相關(guān)系數(shù)的大小來判斷自變量和因變量的相關(guān)的程度。回歸預測模型是否可用于實際預測,取決于對回歸預測模型的檢驗和對預測誤差的計算?;貧w方程只有通過各種檢驗,且預測誤差較小,才能將回歸方程作為預測模型進行預測。利用回歸預測模型計算預測值,并對預測值進行綜合分析,確定最后的預測值。第一,“預測”。預測目標變量,求解目標變量y和說明變量(x1,x2,…)的方程。y=a0 b1x1 b2x2 … bkxk 誤差(方程A)把方程A叫做(多元)回歸方程或者(多元)回歸模型。a0是y截距,b1,b2,…,bk是回歸系數(shù)。當k=l時,只有1個說明變量,叫做一元回歸方程。根據(jù)最小平方法求解最小誤差平方和,非求出y截距和回歸系數(shù)。若求解回歸方程.分別代入x1,x2,…xk的數(shù)值,預測y的值。第二,“影響因素分析”。根據(jù)回歸分析結(jié)果,得出各個自變量對目標變量產(chǎn)生的影響,因此,需要求出各個自變量的影響程度。希望初學者在閱讀接下來的文章之前,首先學習一元回歸分析、相關(guān)分析、多元回歸分析、數(shù)量化理論I等知識。根據(jù)最小平方法,使用Excel求解y=a bx中的a和b。那么什么是最小平方法?分別從散點圖的各個數(shù)據(jù)標記點,做一條平行于y軸的平行線,相交于圖中直線(如下圖)平行線的長度在統(tǒng)計學中叫做“誤差”或者‘殘差”。誤差(殘差)是指分析結(jié)果的運算值和實際值之間的差。接這,求平行線長度曲平方值??梢园哑椒街悼醋鲞呴L等于平行線長度的正方形面積(如下圖)最后,求解所有正方形面積之和。確定使面積之和最小的a(截距)和b(回歸系數(shù))的值(如下圖)。使用Excel求解回歸方程;“工具”→“數(shù)據(jù)分析”→“回歸”,具體操作步驟將在后面的文章中具體會說明。接著上節(jié)的回歸分析的目的,我們來根據(jù)一個二手車的實例來繼續(xù)說回歸分析。二手車價格的決定因素有:空調(diào)類型有無附加品(TV導航導航SR、天窗、空氣囊LD TV AW) 行駛距離,顏色車檢剩余有效月數(shù)、評分拍賣會地點等。在這14個因子(說明變量)中,最影響價格(目標變量)的是什么?最不影響價格的是什么?通過定量求出影響度,然后根據(jù)多個因子(說明變量)預測二手車價格(目標變量)。可以用方程2表示。二手車價格“這個目標變量數(shù)據(jù),既(“空調(diào)類型(AC WC)” “有無TV導航”、 、“行駛距離”、 。車檢剩余有效月數(shù)”, “評分”)。混臺模型是指因子巾既包含定性數(shù)據(jù)也包含定量數(shù)據(jù)的模型。在混臺模型中.把“空調(diào)”、 “TV導航”等定性因子叫做項目,把數(shù)據(jù)群(空調(diào)的“AC”,“WAC”,TV導航的“有”、“無”)叫做類別。這節(jié)我們主要告訴大家回歸分析前,我們需要先根據(jù)自己的思維來了解分析,把這些需要注意的先分析出來,這樣對我們接下來的回歸分析有很大的幫助。經(jīng)過上節(jié),我們了解了回歸分析前,我們要先通過思維分析出來需要注意的事項,那么接下來我們來了解一下Excel回歸分析需要注意的事項。包含的定性數(shù)據(jù),不能直接使用Excel分析,需要將其轉(zhuǎn)換成虛擬變量(也叫O,1數(shù)據(jù))。例如, “空調(diào)(AC、WAC)”的數(shù)據(jù),“AC”用“1”,“WAC'用“O”表示。同樣地,“導航(有導航、無導航)”的數(shù)據(jù), “有導航”用“1”, “無導航”用“O”表示。表1是根據(jù)這種方法轉(zhuǎn)換的(0,1)數(shù)據(jù)表。
直接使用Excel的對表1進行回歸分析時,運算結(jié)果不理想。理由如下;所以“有導航”是“0”或是“1”,由“無導航。自動決定。線性代數(shù)中發(fā)生秩(矩陣秩)虧時,不能正確求出必要的逆矩陣。因此也不能求出回歸系數(shù)。由于上述原因,進行回歸分析時,需要從各個項目中刪除—列因子(表2)。根據(jù)表2的數(shù)據(jù)進行回歸分析,操作步驟如下:2、在彈出的“數(shù)據(jù)分析”對話框中選擇“回歸”,單擊“確定”(圖1)。3、點擊“回歸”對話框的“Y值輸入?yún)^(qū)域”,選擇“二手車價格”的列數(shù)據(jù),包括項目名稱;接著點擊“X值輸入?yún)^(qū)域”,選擇從“AC”到“中國、四國、九州”的區(qū)域,包括項目名稱;選中。標志”,單擊“確定”。(圖2)系統(tǒng)彈出錯誤信息,不能進行回歸分析(圖3)。這是因為Excel回歸自由度的最大上限是16(P62小知識)。這里的回歸自由度是22,因此不能進行回歸分析。統(tǒng)計學中經(jīng)常出現(xiàn)“自由度”,即有效信息的數(shù)量。前面已經(jīng)提到,在Excel的回歸分析中,回歸自由度的最大上限是16。回歸自由度在(多重)回歸分析、數(shù)量化理論|、混合模型中具有不同意義。表3是對回歸自由度的不同意義的總結(jié)。
前面我們已經(jīng)提到,用excel進行回歸自由度不能超過16個,在有截距項的情況下,自變量就不能超過15過。有些人主張在變量多的情況下分兩次進行回歸。這樣做可以嗎?需要特別強調(diào)的是,這樣做是有潛在風險的。要分兩種情況來看。
1. 如果兩組自變量之間是相互獨立的(可以簡單理解為不相關(guān)),一組變量的存在不影響另一組變量的估計系數(shù),那么分兩次回歸是差強人意的(滿足無偏性,但降低了有效性)。
2. 如果兩組自變量之間不是相互獨立的(可以簡單理解為有相關(guān)關(guān)系),一組變量的存在能夠影響另一組變量的估計系數(shù),那么就不能分兩次回歸。分兩次回歸可能會得到有偏的估計結(jié)果,即高估或低估自變量對因變量的影響。
部分內(nèi)容整理自Excel學習網(wǎng),部分內(nèi)容原創(chuàng)鏈接:http://www.excelcn.com
~~~~~~~~~~~~~~~~~~~~~~
“調(diào)查問卷設(shè)計與分析”公眾號致力于與大家分享相關(guān)經(jīng)典信息,由于種種原因,我們未能一一聯(lián)系到原作者,如有侵權(quán)請與我們聯(lián)系刪除。
已發(fā)布信息精選
(一手)調(diào)查問卷設(shè)計 | 信息來源 | 詢問一手信息
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點擊舉報。