選擇題,判斷題,問答題。 比如數(shù)據(jù)挖掘研究方向;有哪些算法,各有什么優(yōu)缺點
7個算法
聚類:K均值,層次化聚類,基于密度
分類:決策樹,最近鄰,貝葉斯
關(guān)聯(lián)規(guī)則: Apriori 算法
大題
7個算法中的幾個,會寫偽代碼,比如K均值的
計算:樸素貝葉斯,apriori,層次化代碼
其他
相似性度量,幾個公式(根據(jù)給出的樣本點計算出相似度)
歐幾里得距離,余弦相似度,Jaccard(Page 41、45)
自己的:
1.選擇題
2.判斷題
3.問答題:分類、典型算法、研究方向、過程步驟、分析方法
第一、k均值,自底向上,精同方法?,城市算法 4種聚類
第二、決策樹 。。。 3種分類,會寫偽代碼
第三 一維、二維 算法,apolgy算法 (關(guān)聯(lián)規(guī)則) 大題
第四、相似醒度量 計算題?
什么是數(shù)據(jù)挖掘:
數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲庫中,自動地發(fā)現(xiàn)有用信息的過程。數(shù)據(jù)挖掘技術(shù)用來探查大型數(shù)據(jù)庫,發(fā)現(xiàn)先前未知的有用模式。數(shù)據(jù)挖掘還可以預(yù)測未來觀測結(jié)果。
數(shù)據(jù)挖掘是數(shù)據(jù)庫中知識發(fā)現(xiàn)(knowlegde discovery in database,KDD)不可缺少的一部分,而KDD是將來未加工的數(shù)據(jù)轉(zhuǎn)換為有用信息的整個過程。
數(shù)據(jù)預(yù)處理()的目的是將來未加工的輸入數(shù)據(jù)轉(zhuǎn)換成適合分析的形式,其步驟包括融合來自多個數(shù)據(jù)源的數(shù)據(jù),清洗數(shù)據(jù)以消除噪聲和重復(fù)的觀測值,選擇與當(dāng)前數(shù)據(jù)挖掘任務(wù)相關(guān)的記錄和特征。
數(shù)據(jù)挖掘要解決的問題:
可伸縮;高維性;異種數(shù)據(jù)和復(fù)雜數(shù)據(jù);數(shù)據(jù)的所有權(quán)與分布;非傳統(tǒng)的分析;
數(shù)據(jù)挖掘任務(wù)(研究方向??),其有兩大類:
n 預(yù)測任務(wù)。這些任務(wù)的目標(biāo)是根據(jù)其他屬性的值,預(yù)測特定屬性的值,。被預(yù)測的屬性一般稱為目標(biāo)變量(target variable)或因變量(dependent variable),而用來做預(yù)測的屬性稱說明變量(explanatory)或自變量(independent variable)。
n 描述任務(wù)。其目標(biāo)是導(dǎo)出概括數(shù)據(jù)中潛在聯(lián)系的模式(相關(guān)、趨勢、聚類、軌跡和異常)。本質(zhì)上,描述性數(shù)據(jù)挖掘人通常是探查性的,并且常常需要后處理技術(shù)驗證和解釋結(jié)果。
n
預(yù)測建模涉及以說明變量函數(shù)的方式為目標(biāo)變量建立模型。有兩類預(yù)測建模任務(wù):分類,用于預(yù)測離散的目標(biāo)變量;回歸,用于譽城連續(xù)的目標(biāo)變量。
關(guān)聯(lián)分析用來發(fā)現(xiàn)描述數(shù)據(jù)中強關(guān)聯(lián)特征的模式。所發(fā)現(xiàn)的模式通常用蘊涵規(guī)則或特征子集的形式表示。
聚類分析旨在發(fā)現(xiàn)緊密相關(guān)的觀測值組群,使得與屬于不同簇的觀測值相比,屬于同一簇的觀測值相互之間盡可能類型。
異常檢測的任務(wù)是識別其特征顯著不同于其他數(shù)據(jù)的觀測值。這樣的觀測值稱為異常點或離群點。
相似度
決策樹是一種由結(jié)點和有向邊組成的層次結(jié)構(gòu)。樹中包含三種結(jié)點:
l 根結(jié)點,它沒有入邊,但有零條或者多條出邊。
l 內(nèi)部結(jié)點,恰有一條入邊和兩條或多條出邊
l 葉結(jié)點或者終結(jié)點,恰有一條入邊,但沒有出邊
在決策樹中每個葉結(jié)點都賦予一個類標(biāo)號,非終結(jié)點包含屬性測試條件,用于飛開具有不同特征的記錄
在Hunt算法中,通過將訓(xùn)練記錄相繼劃分成較純的子集,以遞歸方式建立決策樹。設(shè)Dt是與結(jié)點t相關(guān)聯(lián)的訓(xùn)練記錄集,而y={y1,y2,…yc}是類標(biāo)號,Hunt算法的遞歸定義如下。
(1) 如果Dt中所有記錄都屬于同一個類yt,則t是葉結(jié)點,用yt標(biāo)記
(2) 如果Dt中包含屬于多個類的記錄,則選擇一個屬性測試條件,將記錄劃分成較小的子集,對于測試條件的每個輸出,創(chuàng)建一個子女結(jié)點,并根據(jù)測試結(jié)果將Dt中的記錄分布到子女結(jié)點中。然后,對于每個子女結(jié)點,遞歸地調(diào)用用該算法。
表示屬性測試條件的方法:
優(yōu)點:1)可以生成可以理解的規(guī)則。
2)計算量相對來說不是很大。
3)可以處理多種數(shù)據(jù)類型。
4)決策樹可以清晰的顯示哪些字段較重要。
缺點:1)對連續(xù)性的字段比較難預(yù)測。
2)有時間順序的數(shù)據(jù),要很多預(yù)處理工作。
3)當(dāng)類別太多時,錯誤可能就會增加較快。
最近鄰算法:
最近鄰分類器的特征: