Data Mining可分為三大類六分項(xiàng)來說明:Classification和Clustering屬于分類區(qū)隔類;Regression和Time-series屬于推算預(yù)測(cè)類;Association和Sequence則屬于序列規(guī)則類。
Classification是根據(jù)一些變量的數(shù)值做計(jì)算,再依照結(jié)果作分類。(計(jì)算的結(jié)果最后會(huì)被分類為幾個(gè)少數(shù)的離散數(shù)值,例如將一組數(shù)據(jù)分為 "可能會(huì)響應(yīng)" 或是 "可能不會(huì)響應(yīng)" 兩類)。Classification常被用來處理如前所述之郵寄對(duì)象篩選的問題。我們會(huì)用一些根據(jù)歷史經(jīng)驗(yàn)已經(jīng)分類好的數(shù)據(jù)來研究它們的特征,然后再根據(jù)這些特征對(duì)其他未經(jīng)分類或是新的數(shù)據(jù)做預(yù)測(cè)。這些我們用來尋找特征的已分類數(shù)據(jù)可能是來自我們的現(xiàn)有的客戶數(shù)據(jù),或是將一個(gè)完整數(shù)據(jù)庫做部份取樣,再經(jīng)由實(shí)際的運(yùn)作來測(cè)試;譬如利用一個(gè)大型郵寄對(duì)象數(shù)據(jù)庫的部份取樣來建立一個(gè)Classification Model,再利用這個(gè)Model來對(duì)數(shù)據(jù)庫的其它數(shù)據(jù)或是新的數(shù)據(jù)作分類預(yù)測(cè)。
Clustering用在將數(shù)據(jù)分群,其目的在于將群間的差異找出來,同時(shí)也將群內(nèi)成員的相似性找出來。Clustering與Classification不同的是,在分析前并不知道會(huì)以何種方式或根據(jù)來分類。所以必須要配合專業(yè)領(lǐng)域知識(shí)來解讀這些分群的意義。 Regression是使用一系列的現(xiàn)有數(shù)值來預(yù)測(cè)一個(gè)連續(xù)數(shù)值的可能值。若將范圍擴(kuò)大亦可利用Logistic Regression來預(yù)測(cè)類別變量,特別在廣泛運(yùn)用現(xiàn)代分析技術(shù)如類神經(jīng)網(wǎng)絡(luò)或決策樹理論等分析工具,推估預(yù)測(cè)的模式已不在止于傳統(tǒng)線性的局限,在預(yù)測(cè)的功能上大大增加了選擇工具的彈性與應(yīng)用范圍的廣度。
Time-Series Forecasting與Regression功能類似,只是它是用現(xiàn)有的數(shù)值來預(yù)測(cè)未來的數(shù)值。兩者最大差異在于Time-Series所分析的數(shù)值都與時(shí)間有關(guān)。Time-Series Forecasting的工具可以處理有關(guān)時(shí)間的一些特性,譬如時(shí)間的周期性、階層性、季節(jié)性以及其它的一些特別因素(如過去與未來的關(guān)連性)。
Association是要找出在某一事件或是數(shù)據(jù)中會(huì)同時(shí)出現(xiàn)的東西。舉例而言,如果A是某一事件的一種選擇,則B也出現(xiàn)在該事件中的機(jī)率有多少。(例如:如果顧客買了火腿和柳橙汁,那么這個(gè)顧客同時(shí)也會(huì)買牛奶的機(jī)率是85%。)
Sequence Discovery與Association關(guān)系很密切,所不同的是Sequence Discovery中事件的相關(guān)是以時(shí)間因素來作區(qū)隔(例如:如果A股票在某一天上漲12%,而且當(dāng)天股市加權(quán)指數(shù)下降,則B股票在兩天之內(nèi)上漲的機(jī)率是 68%)。
Data Mining在各領(lǐng)域的應(yīng)用非常廣泛,只要該產(chǎn)業(yè)擁有具分析價(jià)值與需求的數(shù)據(jù)倉儲(chǔ)或數(shù)據(jù)庫,皆可利用Mining工具進(jìn)行有目的的挖掘分析。一般較常見的應(yīng)用案例多發(fā)生在零售業(yè)、直效行銷界、制造業(yè)、財(cái)務(wù)金融保險(xiǎn)、通訊業(yè)以及醫(yī)療服務(wù)等。
于銷售數(shù)據(jù)中發(fā)掘顧客的消費(fèi)習(xí)性,并可藉由交易紀(jì)錄找出顧客偏好的產(chǎn)品組合,其它包括找出流失顧客的特征與推出新產(chǎn)品的時(shí)機(jī)點(diǎn)等等都是零售業(yè)常見的實(shí)例;直效行銷強(qiáng)調(diào)的分眾概念與數(shù)據(jù)庫行銷方式在導(dǎo)入Data Mining的技術(shù)后,使直效行銷的發(fā)展性更為強(qiáng)大,例如利用Data Mining分析顧客群之消費(fèi)行為與交易紀(jì)錄,結(jié)合基本數(shù)據(jù),并依其對(duì)品牌價(jià)值等級(jí)的高低來區(qū)隔顧客,進(jìn)而達(dá)到差異化行銷的目的;制造業(yè)對(duì)Data Mining的需求多運(yùn)用在品質(zhì)控管方面,由制造過程中找出影響產(chǎn)品品質(zhì)最重要的因素,以期提高作業(yè)流程的效率。
近來電話公司、信用卡公司、保險(xiǎn)公司以及股票交易商對(duì)于詐欺行為的偵測(cè)(Fraud Detection)都很有興趣,這些行業(yè)每年因?yàn)樵p欺行為而造成的損失都非??捎^,Data Mining可以從一些信用不良的客戶數(shù)據(jù)中找出相似特征并預(yù)測(cè)可能的詐欺交易,達(dá)到減少損失的目的。財(cái)務(wù)金融業(yè)可以利用 Data Mining來分析市場(chǎng)動(dòng)向,并預(yù)測(cè)個(gè)別公司的營運(yùn)以及股價(jià)走向。Data Mining的另一個(gè)獨(dú)特的用法是在醫(yī)療業(yè),用來預(yù)測(cè)手術(shù)、用藥、診斷、或是流程控制的效率。
一般而言,Data Mining的理論技術(shù)可分為傳統(tǒng)技術(shù)與改良技術(shù)兩支。傳統(tǒng)技術(shù)以統(tǒng)計(jì)分析為代表,統(tǒng)計(jì)學(xué)內(nèi)所含序列統(tǒng)計(jì)、概率論、回歸分析、類別數(shù)據(jù)分析等都屬于傳統(tǒng)數(shù)據(jù)挖掘技術(shù),尤其 Data Mining 對(duì)象多為變量繁多且樣本數(shù)龐大的數(shù)據(jù),是以高等統(tǒng)計(jì)學(xué)里所含括之多變量分析中用來精簡(jiǎn)變量的因素分析(Factor Analysis)、用來分類的判別分析(Discriminant Analysis),以及用來區(qū)隔群體的分群分析(Cluster Analysis)等,在Data Mining過程中特別常用。
在改良技術(shù)方面,應(yīng)用較普遍的有決策樹理論(Decision Trees)、類神經(jīng)網(wǎng)絡(luò)(Neural Network)以及規(guī)則歸納法(Rules Induction)等。決策樹是一種用樹枝狀展現(xiàn)數(shù)據(jù)受各變量的影響情形之預(yù)測(cè)模型,根據(jù)對(duì)目標(biāo)變量產(chǎn)生之效應(yīng)的不同而建構(gòu)分類的規(guī)則,一般多運(yùn)用在對(duì)客戶數(shù)據(jù)的分析上,例如針對(duì)有回函與未回含的郵寄對(duì)象找出影響其分類結(jié)果的變量組合,常用分類方法為CART(Classification and Regression Trees)及CHAID(Chi-Square Automatic Interaction Detector)兩種。 類神經(jīng)網(wǎng)絡(luò)是一種仿真人腦思考結(jié)構(gòu)的數(shù)據(jù)分析模式,由輸入之變量與數(shù)值中自我學(xué)習(xí)并根據(jù)學(xué)習(xí)經(jīng)驗(yàn)所得之知識(shí)不斷調(diào)整參數(shù)以期建構(gòu)數(shù)據(jù)的型樣(patterns)。類神經(jīng)網(wǎng)絡(luò)為非線性的設(shè)計(jì),與傳統(tǒng)回歸分析相比,好處是在進(jìn)行分析時(shí)無須限定模式,特別當(dāng)數(shù)據(jù)變量間存有交互效應(yīng)時(shí)可自動(dòng)偵測(cè)出;缺點(diǎn)則在于其分析過程為一黑盒子,故常無法以可讀之模型格式展現(xiàn),每階段的加權(quán)與轉(zhuǎn)換亦不明確,是故類神經(jīng)網(wǎng)絡(luò)多利用于數(shù)據(jù)屬于高度非線性且?guī)в邢喈?dāng)程度的變量交感效應(yīng)時(shí)。 規(guī)則歸納法是知識(shí)發(fā)掘的領(lǐng)域中最常用的格式,這是一種由一連串的「如果…/則…(If / Then)」之邏輯規(guī)則對(duì)數(shù)據(jù)進(jìn)行細(xì)分的技術(shù),在實(shí)際運(yùn)用時(shí)如何界定規(guī)則為有效是最大的問題,通常需先將數(shù)據(jù)中發(fā)生數(shù)太少的項(xiàng)目先剔除,以避免產(chǎn)生無意義的邏輯規(guī)則。
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。