引言
在大數(shù)據(jù)時(shí)代我們總有許許多的的數(shù)據(jù)要去挖掘分析。
問(wèn)題描述
那么數(shù)據(jù)挖掘任務(wù)有哪些類型呢?我們?cè)撊绾稳ヅ袛噙M(jìn)而去處理它呢?
方法
我們要認(rèn)識(shí)到有以下四種類型:
1.預(yù)測(cè)建模(predictive modeling)
涉及以說(shuō)明變量函數(shù)的方式為目標(biāo)變量建立模型。有兩類預(yù)測(cè)建模任務(wù):分類(classification),用于預(yù)測(cè)離散的目標(biāo)變量;回歸(regression),用于預(yù)測(cè)連續(xù)目標(biāo)變量。
例如:對(duì)一個(gè)地區(qū)的近幾年各月份降雨量做統(tǒng)計(jì),對(duì)其建模分析預(yù)測(cè)未來(lái)幾年的降雨量,從而進(jìn)行一些事情的開展。
2.關(guān)聯(lián)分析(association analysis)
用來(lái)發(fā)現(xiàn)描述數(shù)據(jù)中強(qiáng)關(guān)聯(lián)特征的模式。所發(fā)現(xiàn)的模式通常蘊(yùn)含規(guī)則或特征子集的形式表示。(由于搜索空間是指數(shù)規(guī)模的,關(guān)聯(lián)分析的目標(biāo)是以有效的方式提取最有趣的模式。)
例如:對(duì)顧客購(gòu)物籃所裝物品的分析。對(duì)顧客的購(gòu)物習(xí)慣進(jìn)行分析,可以針對(duì)進(jìn)行商品營(yíng)銷策略。最經(jīng)典的就是啤酒與尿布的故事。
3.異常檢測(cè)(anomaly detection)
是識(shí)別其特征顯著不懂與其他數(shù)據(jù)的觀測(cè)值。這樣的觀測(cè)值稱為異常點(diǎn)(anomaly)或離群點(diǎn)(outlier)。異常檢測(cè)算法的目標(biāo)時(shí)發(fā)現(xiàn)真正的異常點(diǎn),
而避免錯(cuò)誤地將正常的對(duì)象標(biāo)注為異常點(diǎn)。
例如:對(duì)于地震波的檢測(cè)就屬于異常點(diǎn)檢測(cè)。
4.聚類分析(cluster analysis)
旨在發(fā)現(xiàn)緊密相關(guān)的觀測(cè)值組群,使得與屬于不同簇的觀測(cè)值相比,屬于同一簇的觀測(cè)值相互之間盡可能類似。
例如:對(duì)于多個(gè)單位的不同屬性分析時(shí)就可以對(duì)相同的屬性進(jìn)行。
最簡(jiǎn)單的就是對(duì)去年我國(guó)不同城市的消費(fèi)能力的分析。
結(jié)語(yǔ)
在這個(gè)數(shù)據(jù)復(fù)雜的時(shí)代我們可以掌握更多的技能,正所謂技多不壓身嘛!
實(shí)習(xí)編輯:李欣容
稿件來(lái)源:深度學(xué)習(xí)與文旅應(yīng)用實(shí)驗(yàn)室(DLETA)
聯(lián)系客服