1
判別分析
1. 定義
根據(jù)已掌握的一批分類(lèi)明確的樣品建立判別函數(shù),使產(chǎn)生錯(cuò)判的事例最少,進(jìn)而對(duì)給定的一個(gè)新樣品,判斷它來(lái)自哪個(gè)總體。
2. 與聚類(lèi)分析區(qū)別
聚類(lèi)分析的知識(shí)我們?cè)诘谝徊糠忠呀?jīng)提到了→『統(tǒng)計(jì)學(xué) x 數(shù)據(jù)分析』常用方法盤(pán)點(diǎn) Part.1
聚類(lèi)分析可以對(duì)樣本逬行分類(lèi),也可以對(duì)指標(biāo)進(jìn)行分類(lèi);而判別分析只能對(duì)樣本。
聚類(lèi)分析事先不知道事物的類(lèi)別,也不知道分幾類(lèi);而判別分析必須事先知道事物的類(lèi)別,也知道分幾類(lèi)。
聚類(lèi)分析不需要分類(lèi)的歷史資料,而直接對(duì)樣本進(jìn)行分類(lèi);而判別分析需要分類(lèi)歷史資料去建立判別函數(shù),然后才能對(duì)樣本進(jìn)行分類(lèi)。
3. 進(jìn)行分類(lèi)
Fisher判別分析法
以距離為判別準(zhǔn)則來(lái)分類(lèi),即樣本與哪個(gè)類(lèi)的距離最短就分到哪一類(lèi),適用于兩類(lèi)判別
以概率為判別準(zhǔn)則來(lái)分類(lèi),即樣本屬于哪一類(lèi)的概率最大就分到哪一類(lèi),適用于多類(lèi)判別
BAYES判別分析法
BAYES判別分析法比FISHER判別分析法更加完善和先進(jìn),它不僅能解決多類(lèi)判別分析,而且分析時(shí)考慮了數(shù)據(jù)的分布狀態(tài),所以一般較多使用。
2
時(shí)間序列分析
動(dòng)態(tài)數(shù)據(jù)處理的統(tǒng)計(jì)方法,研究隨機(jī)數(shù)據(jù)序列所遵從的統(tǒng)計(jì)規(guī)律,以用于解決實(shí)際問(wèn)題;時(shí)間序列通常由4種要素組成:趨勢(shì)、季節(jié)變動(dòng)、循環(huán)波動(dòng)和不規(guī)則波動(dòng)。
主要方法:移動(dòng)平均濾波與指數(shù)平滑法、ARIMA橫型、量ARIMA橫型、ARIMAX模型、向呈自回歸橫型、ARCH族模型
時(shí)間序列是指同一變量按事件發(fā)生的先后順序排列起來(lái)的一組觀(guān)察值或記錄值。構(gòu)成時(shí)間序列的要素有兩個(gè):
時(shí)間
與時(shí)間相對(duì)應(yīng)的變量水平
實(shí)際數(shù)據(jù)的時(shí)間序列能夠展示研究對(duì)象在一定時(shí)期內(nèi)的發(fā)展變化趨勢(shì)與規(guī)律,因而可以從時(shí)間序列中找出變量變化的特征、趨勢(shì)以及發(fā)展規(guī)律,從而對(duì)變量的未來(lái)變化進(jìn)行有效地預(yù)測(cè)。
時(shí)間序列的變動(dòng)形態(tài)一般分為四種:長(zhǎng)期趨勢(shì)變動(dòng),季節(jié)變動(dòng),循環(huán)變動(dòng),不規(guī)則變動(dòng)。
1. 時(shí)間序列預(yù)測(cè)法的應(yīng)用
系統(tǒng)描述:根據(jù)對(duì)系統(tǒng)進(jìn)行觀(guān)測(cè)得到的時(shí)間序列數(shù)據(jù),用曲線(xiàn)擬合方法對(duì)系統(tǒng)進(jìn)行客觀(guān)的描述
系統(tǒng)分析:當(dāng)觀(guān)測(cè)值取自?xún)蓚€(gè)以上變量時(shí),可用一個(gè)時(shí)間序列中的變化去說(shuō)明另一個(gè)時(shí)間序列中的變化,從而深入了解給定時(shí)間序列產(chǎn)生的機(jī)理
預(yù)測(cè)未來(lái):一般用ARMA模型擬合時(shí)間序列,預(yù)測(cè)該時(shí)間序列未來(lái)值
決策和控制:根據(jù)時(shí)間序列模型可調(diào)整輸入變量使系統(tǒng)發(fā)展過(guò)程保持在目標(biāo)值上,即預(yù)測(cè)到過(guò)程要偏離目標(biāo)時(shí)便可進(jìn)行必要的控制
2. 特點(diǎn)
假定事物的過(guò)去趨勢(shì)會(huì)延伸到未來(lái)
預(yù)測(cè)所依據(jù)的數(shù)據(jù)具有不規(guī)則性
撇開(kāi)了市場(chǎng)發(fā)展之間的因果關(guān)系
(1)時(shí)間序列分析預(yù)測(cè)法是根據(jù)市場(chǎng)過(guò)去的變化趨勢(shì)預(yù)測(cè)未來(lái)的發(fā)展,它的前提是假定事物的過(guò)去會(huì)同樣延續(xù)到未來(lái)。
(2)時(shí)間序列分析預(yù)測(cè)法突出了時(shí)間因素在預(yù)測(cè)中的作用,暫不考慮外界具體因素的影響。
3
生存分析
用來(lái)研究生存時(shí)間的分布規(guī)律以及生存時(shí)間和相關(guān)因索之間關(guān)系的一種統(tǒng)計(jì)分析方法
1. 包含內(nèi)容
描述生存過(guò)程,即研究生存時(shí)間的分布規(guī)律
比較生存過(guò)程,即研究?jī)山M或多組生存時(shí)間的分布規(guī)律,并進(jìn)行比較
分析危險(xiǎn)因素,即研究危險(xiǎn)因素對(duì)生存過(guò)程的影響
建立數(shù)學(xué)模型,即將生存時(shí)間與相關(guān)危險(xiǎn)因素的依存關(guān)系用一個(gè)數(shù)學(xué)式子表示出來(lái)
2. 方法
統(tǒng)計(jì)描述
包括求生存時(shí)間的分位數(shù)、中數(shù)生存期、平均數(shù)、生存函數(shù)的估計(jì)、判斷生存時(shí)間的圖示法,不對(duì)所分析的數(shù)據(jù)作出任何統(tǒng)計(jì)推斷結(jié)論
非參數(shù)檢驗(yàn)
檢驗(yàn)分組變量各水平所對(duì)應(yīng)的生存曲線(xiàn)是否一致,對(duì)生存時(shí)間的分布沒(méi)有要求,并且檢驗(yàn)危險(xiǎn)因素對(duì)生存時(shí)間的影響。
乘積極限法(PL法)
壽命表法(LT法)
半?yún)?shù)橫型回歸分析
在特定的假設(shè)之下,建立生存時(shí)間隨多個(gè)危險(xiǎn)因素變化的回歸方程,這種方法的代表是Cox比例風(fēng)險(xiǎn)回歸分析法
參數(shù)模型回歸分析
已知生存時(shí)間服從特定的參數(shù)橫型時(shí),擬合相應(yīng)的參數(shù)模型,更準(zhǔn)確地分析確定變量之間的變化規(guī)律
4
典型相關(guān)分析
相關(guān)分析一般分析兩個(gè)變量之間的關(guān)系,而典型相關(guān)分析是分析兩組變量(如3個(gè)學(xué)術(shù)能力指標(biāo)與5個(gè)在校成績(jī)表現(xiàn)指標(biāo))之間相關(guān)性的一種統(tǒng)計(jì)分析方法。
典型相關(guān)分析的基本思想和主成分分析的基本思想相似,(主成分分析知識(shí)→『統(tǒng)計(jì)學(xué)』最常用的數(shù)據(jù)分析方法都在這了!Part.2)它將一組變量與另一組變量之間單變量的多重線(xiàn)性相關(guān)性研究轉(zhuǎn)化為對(duì)少數(shù)幾對(duì)綜合變量之間的簡(jiǎn)單線(xiàn)性相關(guān)性的研究,并且這少數(shù)幾對(duì)變量所包含的線(xiàn)性相關(guān)性的信息幾乎覆蓋了原變量組所包含的全部相應(yīng)信息。
5
R0C分析
R0C曲線(xiàn)是根據(jù)一系列不同的二分類(lèi)方式(分界值或決定閾),以真陽(yáng)性率(靈敏度)為縱坐標(biāo),假陽(yáng)性率(1-特異度)為橫坐標(biāo)繪制的曲線(xiàn)。
用途:
R0C曲線(xiàn)能很容易地査出任意界限值時(shí)的對(duì)疾病的識(shí)別能力
選擇最佳的診斷界限值。R0C曲線(xiàn)越靠近左上角,試驗(yàn)的準(zhǔn)確性就越高
兩種或兩種以上不同診斷試驗(yàn)對(duì)疾病識(shí)別能力的比較,一股用R0C曲線(xiàn)下面積反映診斷系統(tǒng)的準(zhǔn)確性
6
其他分析方法
多重響應(yīng)分析、距離分析、項(xiàng)目分析、對(duì)應(yīng)分析、決策樹(shù)分析、神經(jīng)網(wǎng)絡(luò)、系統(tǒng)方程、蒙特卡洛模擬等。
決策樹(shù)分析與隨機(jī)森林:盡管有剪枝等等方法,一棵樹(shù)的生成肯定還是不如多棵樹(shù),因此就有了隨機(jī)森林,解決決策樹(shù)泛化能力弱的缺點(diǎn)。(可以理解成三個(gè)臭皮匠頂過(guò)諸葛亮)
決策樹(shù)(Decision Tree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過(guò)構(gòu)成決策樹(shù)來(lái)求取凈現(xiàn)值的期望值大于等于零的概率,評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性的決策分析方法,是直觀(guān)運(yùn)用概率分析的一種圖解法。
由于這種決策分支畫(huà)成圖形很像一棵樹(shù)的枝干,故稱(chēng)決策樹(shù)。
在機(jī)器學(xué)習(xí)中,決策樹(shù)是一個(gè)預(yù)測(cè)模型,他代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。Entropy = 系統(tǒng)的凌亂程度,使用算法ID3, C4.5和C5.0生成樹(shù)算法使用熵。這一度量是基于信息學(xué)理論中熵的概念。
分類(lèi)樹(shù)(決策樹(shù))是一種十分常用的分類(lèi)方法。他是一種監(jiān)管學(xué)習(xí),所謂監(jiān)管學(xué)習(xí)就是給定一堆樣本,每個(gè)樣本都有一組屬性和一個(gè)類(lèi)別,這些類(lèi)別是事先確定的,那么通過(guò)學(xué)習(xí)得到一個(gè)分類(lèi)器,這個(gè)分類(lèi)器能夠?qū)π鲁霈F(xiàn)的對(duì)象給出正確的分類(lèi)。這樣的機(jī)器學(xué)習(xí)就被稱(chēng)之為監(jiān)督學(xué)習(xí)。
優(yōu)點(diǎn)
決策樹(shù)易于理解和實(shí)現(xiàn),人們?cè)谠趯W(xué)習(xí)過(guò)程中不需要使用者了解很多的背景知識(shí),這同時(shí)是它的能夠直接體現(xiàn)數(shù)據(jù)的特點(diǎn),只要通過(guò)解釋后都有能力去理解決策樹(shù)所表達(dá)的意義。
對(duì)于決策樹(shù),數(shù)據(jù)的準(zhǔn)備往往是簡(jiǎn)單或者是不必要的,而且能夠同時(shí)處理數(shù)據(jù)型和常規(guī)型屬性,在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。易于通過(guò)靜態(tài)測(cè)試來(lái)對(duì)模型進(jìn)行評(píng)測(cè),可以測(cè)定模型可信度;如果給定一個(gè)觀(guān)察的模型,那么根據(jù)所產(chǎn)生的決策樹(shù)很容易推出相應(yīng)的邏輯表達(dá)式。
缺點(diǎn)
對(duì)連續(xù)性的字段比較難預(yù)測(cè)
對(duì)有時(shí)間順序的數(shù)據(jù),需要很多預(yù)處理的工作
當(dāng)類(lèi)別太多時(shí),錯(cuò)誤可能就會(huì)增加的比較快
一般的算法分類(lèi)的時(shí)候,只是根據(jù)一個(gè)字段來(lái)分析
聯(lián)系客服