提要:
普通最小二乘法
邏輯回歸
多分定序回歸
多分定類回歸
托賓回歸
普通最小二乘法
普通最小二乘法的使用情況
(ordinary least square, OLS)
普通最小二乘法,即通常所說(shuō)的線性回歸。使用OLS方法,要滿足統(tǒng)計(jì)學(xué)上的一些條件,這里,我們僅從應(yīng)用角度介紹,什么情況下可以使用這種方法。
(1)分析兩個(gè)變量之間的關(guān)系
(2)分析一個(gè)變量對(duì)另一個(gè)變量的影響情況
應(yīng)用舉例
分析家庭經(jīng)濟(jì)條件如何影響孩子的學(xué)習(xí)成績(jī)。
分析步驟:
(1)以孩子成績(jī)?yōu)橐蜃兞?,家庭?jīng)濟(jì)條件為自變量。
(2)分析影響孩子成績(jī)的其他因素作為控制變量,尤其是那些可能同時(shí)影響家庭經(jīng)濟(jì)條件和孩子學(xué)習(xí)成績(jī)的因素。
(3)設(shè)定模型,并使用軟件完成分析。(自變量與因變量確定了,估計(jì)方法也確定了,模型基本就確定了)
(4)數(shù)據(jù)分析結(jié)果解析
軟件實(shí)現(xiàn)
SPSS
Stata
regress y x1 x2 x3 x4
說(shuō)明:
regress(命令)y(因變量) x1(自變量) x2(自變量) x3 (自變量)……
估計(jì)結(jié)果解釋
X的估計(jì)系數(shù)表示,每單位X的變化將如何引起Y的變化,如估計(jì)系數(shù)為0.5,表示X每增加一單位,Y增加0.5個(gè)單位。具體如何解釋還要看變量的形式,比如,如果X取了對(duì)數(shù),通過(guò)一定的計(jì)算,可以獲得X變化一單位,Y變化的百分比。
邏輯回歸
邏輯回歸(logistic)適用情況
因變量滿足以下兩點(diǎn)時(shí)可以考慮應(yīng)用邏輯回歸估計(jì)方法。
(1)因變量為離散變量
(2)因變量有兩個(gè)類別(類別間有無(wú)順序關(guān)系都適用該模型)
應(yīng)用舉例
分析哪些因素影響一個(gè)潛在客戶是否購(gòu)買某個(gè)產(chǎn)品。
分析步驟:
(1)為變量賦值。比如,1=購(gòu)買,0=沒有購(gòu)買。(此為因變量)
(2)確定影響是否購(gòu)買的因素(實(shí)際上是在選擇自變量)。比如,性別、年齡、住址、外表特征等。
(3)設(shè)定模型,并使用軟件完成分析。(自變量與因變量確定了,估計(jì)方法也確定了,模型基本就確定了)
(4)數(shù)據(jù)分析結(jié)果解析
軟件實(shí)現(xiàn)
SPSS
Stata
logit y x1 x2 x3 x4
probit y x1 x2 x3 x4
說(shuō)明:
logit(命令)y(因變量) x1(自變量) x2(自變量) x3 (自變量)……
probit(命令)y(因變量) x1(自變量) x2(自變量) x3 (自變量)……
估計(jì)結(jié)果解釋
如果某個(gè)自變量的估計(jì)系數(shù)為正,說(shuō)明該變量越高,該顧客購(gòu)買的可能性越大;如果某個(gè)自變量的估計(jì)系數(shù)為負(fù),說(shuō)明該變量越高,該顧客購(gòu)買的可能性越小。
多分定序模型
多分定序模型(order regression)適用情況
因變量滿足以下三點(diǎn)時(shí)可以考慮應(yīng)用多分定序估計(jì)方法
(1)因變量為離散變量
(2)因變量類別多于2個(gè)(不包含2個(gè),“多分”的內(nèi)涵)
(3)因變量的數(shù)值有大小順序(“定序”的內(nèi)涵)
應(yīng)用舉例
分析影響員工滿意度的因素,通過(guò)問(wèn)卷獲得員工的滿意度情況,有“非常滿意,滿意, 不滿意,非常不滿意 ”四個(gè)類別,該變量為離散變量,類別數(shù)多于2個(gè),且變量類別間有一定的次序關(guān)序,比如對(duì)于同一個(gè)個(gè)體來(lái)說(shuō)“非常滿意>滿意> 不滿意>非常不滿意”
分析步驟:
(1)為變量賦值。比如,非常滿意=4,滿意=3, 不滿意=2,非常不滿意=1。
(2)確定影響滿意度的因素。比如,薪酬水平、公平感、同事關(guān)系等。
(3)設(shè)定模型,并使用軟件完成分析。
(4)數(shù)據(jù)分析結(jié)果解析
用軟件實(shí)現(xiàn)order regression的方法舉例
SPSS
Stata
ologit y x1 x2 x3 x4
oprobit y x1 x2 x3 x4
說(shuō)明:
ologit(命令)y(因變量) x1(自變量) x2(自變量) x3 (自變量)……
oprobit(命令)y(因變量) x1(自變量) x2(自變量) x3 (自變量)……
估計(jì)結(jié)果解釋
如果某個(gè)自變量的估計(jì)系數(shù)為正,說(shuō)明該變量越高,員工的滿意度越高;如果某個(gè)自變量的估計(jì)系數(shù)為負(fù),說(shuō)明該變量越高,員工的滿意度越低。
多分定類模型
多分定類模型(multinomial logistic)適用情況
因變量滿足以下三點(diǎn)時(shí)可以考慮應(yīng)用多分定類(多項(xiàng)logistic)估計(jì)方法
(1)因變量為離散變量
(2)因變量類別多于2個(gè)(不包含2個(gè),“多分”的內(nèi)涵)
(3)因變量的取值沒有大小順序(“定類”的內(nèi)涵)
應(yīng)用舉例
分析一個(gè)大學(xué)畢業(yè)生畢業(yè)后可能從事哪種職業(yè),簡(jiǎn)便起見,假設(shè)有五種職業(yè)類別:(1)公務(wù)員;(2)專業(yè)技術(shù)人員;(3)行政管理人員;(4)軍人;(5)其他。該變量為離散變量,類別數(shù)多于2個(gè),且變量類別間沒有大小次序關(guān)系。
分析步驟:
(1)為變量賦值。比如,1=公務(wù)員,2=專業(yè)技術(shù)人員,3=行政管理人員,4=軍人,5=其他。(此為因變量)
(2)確定影響大學(xué)生職業(yè)選擇的因素(實(shí)際上是在選擇自變量)。比如,專業(yè)、學(xué)歷、家庭情況等。
(3)設(shè)定模型,并使用軟件完成分析。(自變量與因變量確定了,估計(jì)方法也確定了,模型基本就確定了)
(4)數(shù)據(jù)分析結(jié)果解析
用軟件實(shí)現(xiàn)多分定類模型的估計(jì)
SPSS
Stata
mlogit y x1 x2 x3 x4
mprobit y x1 x2 x3 x4
說(shuō)明:
mlogit(命令)y(因變量) x1(自變量) x2(自變量) x3 (自變量)……
mprobit(命令)y(因變量) x1(自變量) x2(自變量) x3 (自變量)……
估計(jì)結(jié)果解釋
多分定類模型的估計(jì),需要選定一個(gè)對(duì)照組,各變量的估計(jì)系數(shù)參照對(duì)照組來(lái)解釋。在我們的例子里,假如選公務(wù)員為對(duì)照組,在專業(yè)技術(shù)人員的相關(guān)估計(jì)結(jié)果里,假如自變量教育年限的估計(jì)系數(shù)是正值,說(shuō)明教育年限越高成為專業(yè)技術(shù)人員相對(duì)于成為公務(wù)員的概率越大。其他以此類推。很多初學(xué)者對(duì)結(jié)果解釋容易弄錯(cuò),需要多體會(huì)。
托賓模型
托賓模型(Tobit)適用情況
因變量存在截?cái)嗟那闆r下,可以考慮應(yīng)用Tobit模型,在此情況下,相對(duì)于普通最小二乘法(OLS)等方法,托賓模型可以獲得更可靠的估計(jì)結(jié)果。不同的情況都可能造成數(shù)據(jù)的截?cái)唷,F(xiàn)舉例說(shuō)明什么是截?cái)鄶?shù)據(jù)。
(1)在一項(xiàng)關(guān)于收入的調(diào)查中,如果被調(diào)查者的年收入在20萬(wàn)以下,則要求填寫具體數(shù)值,如果年收入在20萬(wàn)以上,只需要說(shuō)明在20萬(wàn)以上。在這種情況下,調(diào)查獲得的收入數(shù)據(jù),在20萬(wàn)處就存在了截?cái)唷J杖朐?0萬(wàn)以上的調(diào)查者,收入可能是25萬(wàn),可能是50萬(wàn),也可能是100萬(wàn)及更多,如果在分析中不考慮這種差異,就可能得到不可靠的分析結(jié)果(統(tǒng)計(jì)術(shù)語(yǔ)叫有偏)。
(2)關(guān)于家庭平均自有住房面積的調(diào)查中,有一部分沒有自有住房的家庭,其匯報(bào)的面積都會(huì)是0。但是在同樣匯報(bào)自由住房面積為0的家庭中,也有差異,比如說(shuō)有的家庭已經(jīng)準(zhǔn)備好了首付準(zhǔn)備買房,有些家庭已經(jīng)準(zhǔn)備好了全款準(zhǔn)備買房,還有些家庭完全沒有購(gòu)房能力,有些家庭甚至還欠了很多債。也就是說(shuō)在自有住房面積為0的家庭中,也包含了很多不同的情況,如果在分析中不考慮這種差異,也會(huì)造成估計(jì)結(jié)果有偏。
應(yīng)用舉例
分析影響家庭人均自有住房面積的因素。如圖所示,橫軸代表家庭住房面積的相關(guān)影響因素,縱軸代表家庭住房面積。住房面積在0處的家庭,其情況可能是多樣的,如圖中的空心點(diǎn)所示,如果只按照0以上的數(shù)據(jù)來(lái)估計(jì)(實(shí)心點(diǎn)所示),那么將得到實(shí)線的估計(jì)結(jié)果,而實(shí)際上更可靠的估計(jì)結(jié)果是考慮0處樣本點(diǎn)截?cái)嗟奶摼€。假如橫軸代表家庭收入的話,實(shí)線實(shí)際上低估了家庭在一定收入水平下的住房購(gòu)買意愿。
分析步驟:
(1)確定因變量為家庭人均自有住房。
(2)確定影響家庭人均自有住房的因素(實(shí)際上是在選擇自變量)。比如,人均收入、家庭規(guī)模、成員年齡結(jié)構(gòu)等。
(3)設(shè)定模型,并使用軟件完成分析。(自變量與因變量確定了,估計(jì)方法也確定了,模型基本就確定了)
(4)數(shù)據(jù)分析結(jié)果解析
用軟件實(shí)現(xiàn)多分定類模型的估計(jì)
Stata
tobit y x1 x2 x3 x4, ll(0)
tobit y x1 x2 x3 x4, ul(50)
tobit y x1 x2 x3 x4, ll(0) ul(50)
說(shuō)明:
tobit (命令)y(因變量) x1(自變量) ……, ll(0)(在下方0處截?cái)?
tobit (命令)y(因變量) x1(自變量) ……, ul(50)(在上方50處截?cái)?
tobit (命令)y(因變量) x1(自變量) ……, ll(0) ul(50) (同時(shí)在下方0處及上方50處截?cái)?
stata菜單法
Statistics > Linear models and related > Censored regression > Tobit regression
估計(jì)結(jié)果解釋
如果某個(gè)自變量的估計(jì)系數(shù)為正,說(shuō)明該變量取值越高,家庭自有人均住房面積越大,反之則越低。這里只介紹了影響的方向,至于影響程度還需要經(jīng)過(guò)轉(zhuǎn)化后詳細(xì)確認(rèn)。
~~~~~~~~~~~~~~~~~~~~~~~~~
聯(lián)系客服