美女视频影院,丝袜勒死美女视频

數(shù)據(jù)挖覺

小豬來了 >《服務(wù)計算》

2013.11.28

關(guān)注

考點

選擇題，判斷題，問答題。比如數(shù)據(jù)挖掘研究方向；有哪些算法，各有什么優(yōu)缺點

7個算法

聚類：K均值，層次化聚類，基于密度

分類：決策樹，最近鄰，貝葉斯

關(guān)聯(lián)規(guī)則: Apriori 算法

大題

7個算法中的幾個，會寫偽代碼，比如K均值的

計算：樸素貝葉斯，apriori，層次化代碼

其他

相似性度量，幾個公式（根據(jù)給出的樣本點計算出相似度）

歐幾里得距離，余弦相似度，Jaccard（Page 41、45）

自己的：

1.選擇題

2.判斷題

3.問答題：分類、典型算法、研究方向、過程步驟、分析方法

第一、k均值，自底向上，精同方法？，城市算法 4種聚類

第二、決策樹。。。 3種分類，會寫偽代碼

第三一維、二維算法，apolgy算法（關(guān)聯(lián)規(guī)則）大題

第四、相似醒度量計算題？

數(shù)據(jù)挖掘的概念

什么是數(shù)據(jù)挖掘：

數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲庫中，自動地發(fā)現(xiàn)有用信息的過程。數(shù)據(jù)挖掘技術(shù)用來探查大型數(shù)據(jù)庫，發(fā)現(xiàn)先前未知的有用模式。數(shù)據(jù)挖掘還可以預(yù)測未來觀測結(jié)果。

數(shù)據(jù)挖掘是數(shù)據(jù)庫中知識發(fā)現(xiàn)（knowlegde discovery in database,KDD）不可缺少的一部分，而KDD是將來未加工的數(shù)據(jù)轉(zhuǎn)換為有用信息的整個過程。

數(shù)據(jù)預(yù)處理（）的目的是將來未加工的輸入數(shù)據(jù)轉(zhuǎn)換成適合分析的形式，其步驟包括融合來自多個數(shù)據(jù)源的數(shù)據(jù)，清洗數(shù)據(jù)以消除噪聲和重復(fù)的觀測值，選擇與當(dāng)前數(shù)據(jù)挖掘任務(wù)相關(guān)的記錄和特征。

數(shù)據(jù)挖掘要解決的問題：

可伸縮；高維性；異種數(shù)據(jù)和復(fù)雜數(shù)據(jù)；數(shù)據(jù)的所有權(quán)與分布；非傳統(tǒng)的分析；

數(shù)據(jù)挖掘任務(wù)（研究方向？？），其有兩大類：

n 預(yù)測任務(wù)。這些任務(wù)的目標(biāo)是根據(jù)其他屬性的值，預(yù)測特定屬性的值，。被預(yù)測的屬性一般稱為目標(biāo)變量（target variable）或因變量（dependent variable），而用來做預(yù)測的屬性稱說明變量（explanatory）或自變量（independent variable）。

n 描述任務(wù)。其目標(biāo)是導(dǎo)出概括數(shù)據(jù)中潛在聯(lián)系的模式（相關(guān)、趨勢、聚類、軌跡和異常）。本質(zhì)上，描述性數(shù)據(jù)挖掘人通常是探查性的，并且常常需要后處理技術(shù)驗證和解釋結(jié)果。

n

預(yù)測建模涉及以說明變量函數(shù)的方式為目標(biāo)變量建立模型。有兩類預(yù)測建模任務(wù)：分類，用于預(yù)測離散的目標(biāo)變量；回歸，用于譽城連續(xù)的目標(biāo)變量。

關(guān)聯(lián)分析用來發(fā)現(xiàn)描述數(shù)據(jù)中強關(guān)聯(lián)特征的模式。所發(fā)現(xiàn)的模式通常用蘊涵規(guī)則或特征子集的形式表示。

聚類分析旨在發(fā)現(xiàn)緊密相關(guān)的觀測值組群，使得與屬于不同簇的觀測值相比，屬于同一簇的觀測值相互之間盡可能類型。

異常檢測的任務(wù)是識別其特征顯著不同于其他數(shù)據(jù)的觀測值。這樣的觀測值稱為異常點或離群點。

相似性度量

歐幾里得距離

相似度

分類

決策樹

決策樹是一種由結(jié)點和有向邊組成的層次結(jié)構(gòu)。樹中包含三種結(jié)點：

l 根結(jié)點，它沒有入邊，但有零條或者多條出邊。

l 內(nèi)部結(jié)點，恰有一條入邊和兩條或多條出邊

l 葉結(jié)點或者終結(jié)點，恰有一條入邊，但沒有出邊

在決策樹中每個葉結(jié)點都賦予一個類標(biāo)號，非終結(jié)點包含屬性測試條件，用于飛開具有不同特征的記錄

建立決策樹算

在Hunt算法中，通過將訓(xùn)練記錄相繼劃分成較純的子集，以遞歸方式建立決策樹。設(shè)Dt是與結(jié)點t相關(guān)聯(lián)的訓(xùn)練記錄集，而y=｛y1，y2，…yc｝是類標(biāo)號，Hunt算法的遞歸定義如下。

（1）如果Dt中所有記錄都屬于同一個類yt，則t是葉結(jié)點，用yt標(biāo)記

（2）如果Dt中包含屬于多個類的記錄，則選擇一個屬性測試條件，將記錄劃分成較小的子集，對于測試條件的每個輸出，創(chuàng)建一個子女結(jié)點，并根據(jù)測試結(jié)果將Dt中的記錄分布到子女結(jié)點中。然后，對于每個子女結(jié)點，遞歸地調(diào)用用該算法。

表示屬性測試條件的方法：

決策樹歸納算法

決策樹歸納的特點：

決策樹的優(yōu)缺點：

優(yōu)點:1)可以生成可以理解的規(guī)則。

2)計算量相對來說不是很大。

3)可以處理多種數(shù)據(jù)類型。

4)決策樹可以清晰的顯示哪些字段較重要。

缺點:1)對連續(xù)性的字段比較難預(yù)測。

2)有時間順序的數(shù)據(jù)，要很多預(yù)處理工作。

3)當(dāng)類別太多時，錯誤可能就會增加較快。

貝葉斯

樸素貝葉斯分類器

關(guān)聯(lián)規(guī)則-Apriori算法

聚類

K均值

K均值的優(yōu)缺點

層次化聚類

層次聚類的優(yōu)缺點

基于密度

基于密度的DBSCAN算法優(yōu)缺點

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

數(shù)據(jù)挖掘算法（logistic回歸，隨機森林，GBDT和xgboost）

一小時了解數(shù)據(jù)挖掘⑤數(shù)據(jù)挖掘步驟＆常用的聚類、決策樹和CRISP

數(shù)據(jù)挖掘算法介紹

大數(shù)據(jù)時代網(wǎng)絡(luò)教育學(xué)習(xí)成績預(yù)測的研究與實現(xiàn)——以本科公共課程統(tǒng)考英語為例

大數(shù)據(jù)架構(gòu)詳解：從數(shù)據(jù)獲取到深度學(xué)習(xí)（內(nèi)含福利）

CDA LEVEL Ⅲ考試大綱

更多類似文章 >>

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

考點