日本道美女视频,动漫美女热舞视频

【求助】數(shù)據(jù)挖掘方面還有什么研究方向嗎？ - 信息科學(xué) - 小木蟲論壇 - 學(xué)術(shù)科研第一站

2010.06.08

Data Mining可分為三大類六分項(xiàng)來說明：Classification和Clustering屬于分類區(qū)隔類；Regression和Time-series屬于推算預(yù)測(cè)類；Association和Sequence則屬于序列規(guī)則類。　　
Classification是根據(jù)一些變量的數(shù)值做計(jì)算，再依照結(jié)果作分類。（計(jì)算的結(jié)果最后會(huì)被分類為幾個(gè)少數(shù)的離散數(shù)值，例如將一組數(shù)據(jù)分為 "可能會(huì)響應(yīng)" 或是 "可能不會(huì)響應(yīng)" 兩類）。Classification常被用來處理如前所述之郵寄對(duì)象篩選的問題。我們會(huì)用一些根據(jù)歷史經(jīng)驗(yàn)已經(jīng)分類好的數(shù)據(jù)來研究它們的特征，然后再根據(jù)這些特征對(duì)其他未經(jīng)分類或是新的數(shù)據(jù)做預(yù)測(cè)。這些我們用來尋找特征的已分類數(shù)據(jù)可能是來自我們的現(xiàn)有的客戶數(shù)據(jù)，或是將一個(gè)完整數(shù)據(jù)庫做部份取樣，再經(jīng)由實(shí)際的運(yùn)作來測(cè)試；譬如利用一個(gè)大型郵寄對(duì)象數(shù)據(jù)庫的部份取樣來建立一個(gè)Classification Model，再利用這個(gè)Model來對(duì)數(shù)據(jù)庫的其它數(shù)據(jù)或是新的數(shù)據(jù)作分類預(yù)測(cè)。　　
Clustering用在將數(shù)據(jù)分群，其目的在于將群間的差異找出來，同時(shí)也將群內(nèi)成員的相似性找出來。Clustering與Classification不同的是，在分析前并不知道會(huì)以何種方式或根據(jù)來分類。所以必須要配合專業(yè)領(lǐng)域知識(shí)來解讀這些分群的意義。　　Regression是使用一系列的現(xiàn)有數(shù)值來預(yù)測(cè)一個(gè)連續(xù)數(shù)值的可能值。若將范圍擴(kuò)大亦可利用Logistic Regression來預(yù)測(cè)類別變量，特別在廣泛運(yùn)用現(xiàn)代分析技術(shù)如類神經(jīng)網(wǎng)絡(luò)或決策樹理論等分析工具，推估預(yù)測(cè)的模式已不在止于傳統(tǒng)線性的局限，在預(yù)測(cè)的功能上大大增加了選擇工具的彈性與應(yīng)用范圍的廣度。　　
Time-Series Forecasting與Regression功能類似，只是它是用現(xiàn)有的數(shù)值來預(yù)測(cè)未來的數(shù)值。兩者最大差異在于Time-Series所分析的數(shù)值都與時(shí)間有關(guān)。Time-Series Forecasting的工具可以處理有關(guān)時(shí)間的一些特性，譬如時(shí)間的周期性、階層性、季節(jié)性以及其它的一些特別因素（如過去與未來的關(guān)連性）。　　
Association是要找出在某一事件或是數(shù)據(jù)中會(huì)同時(shí)出現(xiàn)的東西。舉例而言，如果A是某一事件的一種選擇，則B也出現(xiàn)在該事件中的機(jī)率有多少。（例如：如果顧客買了火腿和柳橙汁，那么這個(gè)顧客同時(shí)也會(huì)買牛奶的機(jī)率是85%。）　　
Sequence Discovery與Association關(guān)系很密切，所不同的是Sequence Discovery中事件的相關(guān)是以時(shí)間因素來作區(qū)隔（例如：如果A股票在某一天上漲12%，而且當(dāng)天股市加權(quán)指數(shù)下降，則B股票在兩天之內(nèi)上漲的機(jī)率是 68%）。

Data Mining在各領(lǐng)域的應(yīng)用非常廣泛，只要該產(chǎn)業(yè)擁有具分析價(jià)值與需求的數(shù)據(jù)倉儲(chǔ)或數(shù)據(jù)庫，皆可利用Mining工具進(jìn)行有目的的挖掘分析。一般較常見的應(yīng)用案例多發(fā)生在零售業(yè)、直效行銷界、制造業(yè)、財(cái)務(wù)金融保險(xiǎn)、通訊業(yè)以及醫(yī)療服務(wù)等。　　
于銷售數(shù)據(jù)中發(fā)掘顧客的消費(fèi)習(xí)性，并可藉由交易紀(jì)錄找出顧客偏好的產(chǎn)品組合，其它包括找出流失顧客的特征與推出新產(chǎn)品的時(shí)機(jī)點(diǎn)等等都是零售業(yè)常見的實(shí)例；直效行銷強(qiáng)調(diào)的分眾概念與數(shù)據(jù)庫行銷方式在導(dǎo)入Data Mining的技術(shù)后，使直效行銷的發(fā)展性更為強(qiáng)大，例如利用Data Mining分析顧客群之消費(fèi)行為與交易紀(jì)錄，結(jié)合基本數(shù)據(jù)，并依其對(duì)品牌價(jià)值等級(jí)的高低來區(qū)隔顧客，進(jìn)而達(dá)到差異化行銷的目的；制造業(yè)對(duì)Data Mining的需求多運(yùn)用在品質(zhì)控管方面，由制造過程中找出影響產(chǎn)品品質(zhì)最重要的因素，以期提高作業(yè)流程的效率。　　
近來電話公司、信用卡公司、保險(xiǎn)公司以及股票交易商對(duì)于詐欺行為的偵測(cè)（Fraud Detection）都很有興趣，這些行業(yè)每年因?yàn)樵p欺行為而造成的損失都非?？捎^，Data Mining可以從一些信用不良的客戶數(shù)據(jù)中找出相似特征并預(yù)測(cè)可能的詐欺交易，達(dá)到減少損失的目的。財(cái)務(wù)金融業(yè)可以利用 Data Mining來分析市場(chǎng)動(dòng)向，并預(yù)測(cè)個(gè)別公司的營運(yùn)以及股價(jià)走向。Data Mining的另一個(gè)獨(dú)特的用法是在醫(yī)療業(yè)，用來預(yù)測(cè)手術(shù)、用藥、診斷、或是流程控制的效率。

一般而言，Data Mining的理論技術(shù)可分為傳統(tǒng)技術(shù)與改良技術(shù)兩支。傳統(tǒng)技術(shù)以統(tǒng)計(jì)分析為代表，統(tǒng)計(jì)學(xué)內(nèi)所含序列統(tǒng)計(jì)、概率論、回歸分析、類別數(shù)據(jù)分析等都屬于傳統(tǒng)數(shù)據(jù)挖掘技術(shù)，尤其 Data Mining 對(duì)象多為變量繁多且樣本數(shù)龐大的數(shù)據(jù)，是以高等統(tǒng)計(jì)學(xué)里所含括之多變量分析中用來精簡(jiǎn)變量的因素分析（Factor Analysis）、用來分類的判別分析（Discriminant Analysis），以及用來區(qū)隔群體的分群分析（Cluster Analysis）等，在Data Mining過程中特別常用。　　
在改良技術(shù)方面，應(yīng)用較普遍的有決策樹理論（Decision Trees）、類神經(jīng)網(wǎng)絡(luò)（Neural Network）以及規(guī)則歸納法（Rules Induction）等。決策樹是一種用樹枝狀展現(xiàn)數(shù)據(jù)受各變量的影響情形之預(yù)測(cè)模型，根據(jù)對(duì)目標(biāo)變量產(chǎn)生之效應(yīng)的不同而建構(gòu)分類的規(guī)則，一般多運(yùn)用在對(duì)客戶數(shù)據(jù)的分析上，例如針對(duì)有回函與未回含的郵寄對(duì)象找出影響其分類結(jié)果的變量組合，常用分類方法為CART（Classification and Regression Trees）及CHAID（Chi-Square Automatic Interaction Detector）兩種。類神經(jīng)網(wǎng)絡(luò)是一種仿真人腦思考結(jié)構(gòu)的數(shù)據(jù)分析模式，由輸入之變量與數(shù)值中自我學(xué)習(xí)并根據(jù)學(xué)習(xí)經(jīng)驗(yàn)所得之知識(shí)不斷調(diào)整參數(shù)以期建構(gòu)數(shù)據(jù)的型樣(patterns)。類神經(jīng)網(wǎng)絡(luò)為非線性的設(shè)計(jì)，與傳統(tǒng)回歸分析相比，好處是在進(jìn)行分析時(shí)無須限定模式，特別當(dāng)數(shù)據(jù)變量間存有交互效應(yīng)時(shí)可自動(dòng)偵測(cè)出；缺點(diǎn)則在于其分析過程為一黑盒子，故常無法以可讀之模型格式展現(xiàn)，每階段的加權(quán)與轉(zhuǎn)換亦不明確，是故類神經(jīng)網(wǎng)絡(luò)多利用于數(shù)據(jù)屬于高度非線性且?guī)в邢喈?dāng)程度的變量交感效應(yīng)時(shí)。　　規(guī)則歸納法是知識(shí)發(fā)掘的領(lǐng)域中最常用的格式，這是一種由一連串的「如果…/則…（If / Then）」之邏輯規(guī)則對(duì)數(shù)據(jù)進(jìn)行細(xì)分的技術(shù)，在實(shí)際運(yùn)用時(shí)如何界定規(guī)則為有效是最大的問題，通常需先將數(shù)據(jù)中發(fā)生數(shù)太少的項(xiàng)目先剔除，以避免產(chǎn)生無意義的邏輯規(guī)則。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開APP，閱讀全文并永久保存查看更多類似文章

數(shù)據(jù)挖掘的10個(gè)常見問題

員工一言不合就離職怎么辦？我用Python寫了個(gè)員工流失預(yù)測(cè)模型

R軟件中的計(jì)量經(jīng)濟(jì)學(xué)程序包縱覽

Linear OR Circular Vibrating Screen

關(guān)聯(lián)規(guī)則挖掘綜述

更多類似文章 >>

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看