什么是分類和預(yù)測(cè)?
分類和預(yù)測(cè)具有大量應(yīng)用,包括欺詐檢測(cè)、針對(duì)銷售、性能預(yù)測(cè)、制造和診斷。例如,可以建立一個(gè)分類模型,對(duì)銀行貸款應(yīng)用的安全或風(fēng)險(xiǎn)進(jìn)行分類(那些貸款申請(qǐng)者是“安全的”,,銀行的“風(fēng)險(xiǎn)”是什么);也可以建立預(yù)測(cè)模型,給定潛在顧客的收入和職業(yè),預(yù)測(cè)他們?cè)谟?jì)算機(jī)設(shè)備上的花費(fèi)。
市場(chǎng)經(jīng)理需要數(shù)據(jù)分析,以便幫助他來猜測(cè)具有某些特征的顧客是否會(huì)購(gòu)買一臺(tái)新的計(jì)算機(jī);醫(yī)學(xué)研究者希望分析乳腺癌數(shù)據(jù),預(yù)測(cè)病人應(yīng)當(dāng)接受三種具體治療方案的哪一種。這都是分類的例子。
而如果市場(chǎng)經(jīng)理希望預(yù)測(cè)一位顧客在一次銷售期間將花多少錢,該數(shù)據(jù)任務(wù)就屬于數(shù)值預(yù)測(cè),其中所構(gòu)造的模型預(yù)測(cè)一個(gè)連續(xù)值函數(shù)或有序值。這種模型是預(yù)測(cè)器(predictor)?;貧w分析(regression analysis)是數(shù)值預(yù)測(cè)最常用的統(tǒng)計(jì)學(xué)方法。我們也可以預(yù)測(cè)銀行可以安全地貸給貸款人的貸款量。
分類和數(shù)值預(yù)測(cè)是預(yù)測(cè)問題的兩種主要類型。
分類和預(yù)測(cè)都的第一步都可以看作是學(xué)習(xí)一個(gè)映射或函數(shù)y = f(X)。對(duì)于分類來說,它可以預(yù)測(cè)給定元組X的關(guān)聯(lián)類標(biāo)號(hào)y;而對(duì)于預(yù)測(cè)來說,X是輸入,而y是連續(xù)的或有序的輸出值。而且,不應(yīng)當(dāng)使用訓(xùn)練集來平規(guī)分類或預(yù)測(cè)的準(zhǔn)確率,而應(yīng)當(dāng)使用一個(gè)獨(dú)立的檢驗(yàn)集。
分類與預(yù)測(cè)的數(shù)據(jù)預(yù)處理
為了提高分類或預(yù)測(cè)過程的準(zhǔn)確性、有效性和可伸縮性,我們可以使用下面的預(yù)處理步驟:
(1) 數(shù)據(jù)清理:消除或減少數(shù)據(jù)噪聲和處理缺失值,以減少學(xué)習(xí)時(shí)的混亂。
(2) 相關(guān)分析:識(shí)別任意兩個(gè)給定的屬性是否是統(tǒng)計(jì)相關(guān)的。例如,強(qiáng)相關(guān)的兩個(gè)屬性A1和A2可能意味著兩個(gè)屬性之一可以從進(jìn)一步分析中刪除。還可能包含有不相關(guān)的屬性,這時(shí)我們就可以使用屬性子集選擇來找出屬性的規(guī)約子集,使得數(shù)據(jù)類的結(jié)果概率分布與使用所有屬性得到的原分布盡可能接近。相關(guān)分析可幫助提高分類的有效性和可伸縮性。
(3) 數(shù)據(jù)變換與規(guī)約:通過規(guī)范化對(duì)數(shù)據(jù)進(jìn)行變換,尤其是在學(xué)習(xí)階段使用神經(jīng)網(wǎng)絡(luò)或涉及距離度量發(fā)方法時(shí)。規(guī)范化將所給的屬性的所有值按比例縮放,使得它們落入較小的指定區(qū)間,如[-1, 1]。如在使用距離度量的方法中,這可放置具有較大初始值域的屬性相對(duì)于具有較小初始值域的屬性權(quán)重過大。數(shù)據(jù)也可以通過泛化到較高層概念進(jìn)行變換,這種變換對(duì)連續(xù)屬性尤其有用。這樣就壓縮了原來的訓(xùn)練數(shù)據(jù),使得學(xué)時(shí)時(shí)的輸入/輸出操作減少了。其他的變換方法還有小波變換、主成份分析、分箱、直方圖分析和距離等離散化技術(shù)。