国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
數(shù)據(jù)挖覺

考點

選擇題,判斷題,問答題。 比如數(shù)據(jù)挖掘研究方向;有哪些算法,各有什么優(yōu)缺點

 

7個算法

   聚類:K均值,層次化聚類,基于密度

   分類:決策樹,最近鄰,貝葉斯

   關(guān)聯(lián)規(guī)則: Apriori 算法

大題

    7個算法中的幾個,會寫偽代碼,比如K均值的

    計算:樸素貝葉斯,apriori,層次化代碼

其他

    相似性度量,幾個公式(根據(jù)給出的樣本點計算出相似度)

歐幾里得距離,余弦相似度,JaccardPage 41、45


自己的:

1.選擇題

2.判斷題

3.問答題:分類、典型算法、研究方向、過程步驟、分析方法

 

第一、k均值,自底向上,精同方法?,城市算法  4種聚類

第二、決策樹 。。。 3種分類,會寫偽代碼

第三 一維、二維 算法,apolgy算法 (關(guān)聯(lián)規(guī)則)  大題

第四、相似醒度量 計算題?

數(shù)據(jù)挖掘的概念

什么是數(shù)據(jù)挖掘:

數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲庫中,自動地發(fā)現(xiàn)有用信息的過程。數(shù)據(jù)挖掘技術(shù)用來探查大型數(shù)據(jù)庫,發(fā)現(xiàn)先前未知的有用模式。數(shù)據(jù)挖掘還可以預(yù)測未來觀測結(jié)果。

       數(shù)據(jù)挖掘是數(shù)據(jù)庫中知識發(fā)現(xiàn)(knowlegde discovery in database,KDD)不可缺少的一部分,而KDD是將來未加工的數(shù)據(jù)轉(zhuǎn)換為有用信息的整個過程。

       數(shù)據(jù)預(yù)處理()的目的是將來未加工的輸入數(shù)據(jù)轉(zhuǎn)換成適合分析的形式,其步驟包括融合來自多個數(shù)據(jù)源的數(shù)據(jù),清洗數(shù)據(jù)以消除噪聲和重復(fù)的觀測值,選擇與當(dāng)前數(shù)據(jù)挖掘任務(wù)相關(guān)的記錄和特征。

 

數(shù)據(jù)挖掘要解決的問題:

       可伸縮;高維性;異種數(shù)據(jù)和復(fù)雜數(shù)據(jù);數(shù)據(jù)的所有權(quán)與分布;非傳統(tǒng)的分析;

數(shù)據(jù)挖掘任務(wù)(研究方向??),其有兩大類:

n  預(yù)測任務(wù)。這些任務(wù)的目標(biāo)是根據(jù)其他屬性的值,預(yù)測特定屬性的值,。被預(yù)測的屬性一般稱為目標(biāo)變量(target variable)或因變量(dependent variable),而用來做預(yù)測的屬性稱說明變量(explanatory)或自變量(independent variable)。

n  描述任務(wù)。其目標(biāo)是導(dǎo)出概括數(shù)據(jù)中潛在聯(lián)系的模式(相關(guān)、趨勢、聚類、軌跡和異常)。本質(zhì)上,描述性數(shù)據(jù)挖掘人通常是探查性的,并且常常需要后處理技術(shù)驗證和解釋結(jié)果。

n 

預(yù)測建模涉及以說明變量函數(shù)的方式為目標(biāo)變量建立模型。有兩類預(yù)測建模任務(wù):分類,用于預(yù)測離散的目標(biāo)變量;回歸,用于譽城連續(xù)的目標(biāo)變量。

       關(guān)聯(lián)分析用來發(fā)現(xiàn)描述數(shù)據(jù)中強關(guān)聯(lián)特征的模式。所發(fā)現(xiàn)的模式通常用蘊涵規(guī)則或特征子集的形式表示。

       聚類分析旨在發(fā)現(xiàn)緊密相關(guān)的觀測值組群,使得與屬于不同簇的觀測值相比,屬于同一簇的觀測值相互之間盡可能類型。

       異常檢測的任務(wù)是識別其特征顯著不同于其他數(shù)據(jù)的觀測值。這樣的觀測值稱為異常點或離群點。

相似性度量

歐幾里得距離

相似度

分類

決策樹

決策樹是一種由結(jié)點和有向邊組成的層次結(jié)構(gòu)。樹中包含三種結(jié)點:

l  根結(jié)點,它沒有入邊,但有零條或者多條出邊。

l  內(nèi)部結(jié)點,恰有一條入邊和兩條或多條出邊

l  葉結(jié)點或者終結(jié)點,恰有一條入邊,但沒有出邊

在決策樹中每個葉結(jié)點都賦予一個類標(biāo)號,非終結(jié)點包含屬性測試條件,用于飛開具有不同特征的記錄

建立決策樹算

Hunt算法中,通過將訓(xùn)練記錄相繼劃分成較純的子集,以遞歸方式建立決策樹。設(shè)Dt是與結(jié)點t相關(guān)聯(lián)的訓(xùn)練記錄集,而y=y1,y2,…yc}是類標(biāo)號,Hunt算法的遞歸定義如下。

(1)       如果Dt中所有記錄都屬于同一個類yt,則t是葉結(jié)點,用yt標(biāo)記

(2)       如果Dt中包含屬于多個類的記錄,則選擇一個屬性測試條件,將記錄劃分成較小的子集,對于測試條件的每個輸出,創(chuàng)建一個子女結(jié)點,并根據(jù)測試結(jié)果將Dt中的記錄分布到子女結(jié)點中。然后,對于每個子女結(jié)點,遞歸地調(diào)用用該算法。

 

表示屬性測試條件的方法:

決策樹歸納算法

決策樹歸納的特點:

決策樹的優(yōu)缺點:

優(yōu)點:1)可以生成可以理解的規(guī)則。

          2)計算量相對來說不是很大。

          3)可以處理多種數(shù)據(jù)類型。

          4)決策樹可以清晰的顯示哪些字段較重要。

缺點:1)對連續(xù)性的字段比較難預(yù)測。

          2)有時間順序的數(shù)據(jù),要很多預(yù)處理工作。

          3)當(dāng)類別太多時,錯誤可能就會增加較快。

 

最近鄰分類

最近鄰算法:

最近鄰分類器的特征:

貝葉斯

樸素貝葉斯分類器

關(guān)聯(lián)規(guī)則-Apriori算法

聚類

K均值

K均值的優(yōu)缺點

層次化聚類

 

層次聚類的優(yōu)缺點

基于密度

基于密度的DBSCAN算法優(yōu)缺點

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
數(shù)據(jù)挖掘算法(logistic回歸,隨機森林,GBDT和xgboost)
一小時了解數(shù)據(jù)挖掘⑤數(shù)據(jù)挖掘步驟&常用的聚類、決策樹和CRISP
數(shù)據(jù)挖掘算法介紹
大數(shù)據(jù)時代網(wǎng)絡(luò)教育學(xué)習(xí)成績預(yù)測的研究與實現(xiàn)——以本科公共課程統(tǒng)考英語為例
大數(shù)據(jù)架構(gòu)詳解:從數(shù)據(jù)獲取到深度學(xué)習(xí)(內(nèi)含福利)
CDA LEVEL Ⅲ考試大綱
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服