国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
數(shù)據(jù)挖掘技術(shù)概述

文章摘要:
  數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘研究現(xiàn)狀,數(shù)據(jù)挖掘的挖掘任務(wù)和挖掘方法在本文中簡略說明。
  關(guān)鍵詞 數(shù)據(jù)挖掘,數(shù)據(jù)庫,抽取,分類發(fā)現(xiàn),聚類,關(guān)聯(lián)規(guī)則  

數(shù)據(jù)挖掘技術(shù)概述


一. 數(shù)據(jù)挖掘技術(shù)概述

  近十幾年來,人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高,千萬萬個(gè)數(shù)據(jù)庫被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開發(fā)等等,并且這一勢頭仍將持續(xù)發(fā)展下去。于是,一個(gè)新的挑戰(zhàn)被提了出來:在這被稱之為信息爆炸的時(shí)代,信息過量幾乎成為人人需要面對的問題。如何才能不被信息的汪洋大海所淹沒,從中及時(shí)發(fā)現(xiàn)有用的知識,提高信息利用率呢?要想使數(shù)據(jù)真正成為一個(gè)公司的資源,只有充分利用它為公司自身的業(yè)務(wù)決策和戰(zhàn)略發(fā)展服務(wù)才行,否則大量的數(shù)據(jù)可能成為包袱,甚至成為垃圾。因此,面對"人們被數(shù)據(jù)淹沒,人們卻饑餓于知?quot;的挑戰(zhàn),數(shù)據(jù)挖掘和知識發(fā)現(xiàn)(DMKD)技術(shù)應(yīng)運(yùn)而生,并得以蓬勃發(fā)展,越來越顯示出其強(qiáng)大的生命力。

  數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。還有很多和這一術(shù)語相近似的術(shù)語,如從數(shù)據(jù)庫中發(fā)現(xiàn)知識(KDD)、數(shù)據(jù)分析、數(shù)據(jù)融合(Data Fusion)以及決策支持等。人們把原始數(shù)據(jù)看作是形成知識的源泉,就像從礦石中采礦一樣。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以用于數(shù)據(jù)自身的維護(hù)。因此,數(shù)據(jù)挖掘是一門很廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等方面的學(xué)者和工程技術(shù)人員。

  特別要指出的是,數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用,而且要對這些數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理,以指導(dǎo)實(shí)際問題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對未來的活動進(jìn)行預(yù)測。例如加拿大BC省電話公司要求加拿大SimonFraser大學(xué)KDD研究組,根據(jù)其擁有十多年的客戶數(shù)據(jù),總結(jié)、分析并提出新的電話收費(fèi)和管理辦法,制定既有利于公司又有利于客戶的優(yōu)惠政策。這樣一來,就把人們對數(shù)據(jù)的應(yīng)用,從低層次的末端查詢操作,提高到為各級經(jīng)營決策者提供決策支持。這種需求驅(qū)動力,比數(shù)據(jù)庫查詢更為強(qiáng)大。同時(shí)需要指出的是,這里所說的知識發(fā)現(xiàn),不是要求發(fā)現(xiàn)放之四海而皆準(zhǔn)的真理,也不是要去發(fā)現(xiàn)嶄新的自然科學(xué)定理和純數(shù)學(xué)公式,更不是什么機(jī)器定理證明。所有發(fā)現(xiàn)的知識都是相對的,是有特定前提和約束條件、面向特定領(lǐng)域的,同時(shí)還要能夠易于被用戶理解,最好能用自然語言表達(dá)發(fā)現(xiàn)結(jié)果。因此DMKD的研究成果是很講求實(shí)際的。

二、數(shù)據(jù)挖掘研究現(xiàn)狀

  KDD一詞首次出現(xiàn)在1989年8月舉行的第11屆國際聯(lián)合人工智能學(xué)術(shù)會議上。迄今為止,由美國人工智能協(xié)會主辦的KDD國際研討會已經(jīng)召開了7次,規(guī)模由原來的專題討論會發(fā)展到國際學(xué)術(shù)大會,人數(shù)由二三十人到七八百人,論文收錄比例從2X1到6X1,研究重點(diǎn)也逐漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用,并且注重多種發(fā)現(xiàn)策略和技術(shù)的集成,以及多種學(xué)科之間的相互滲透。其他內(nèi)容的專題會議也把數(shù)據(jù)挖掘和知識發(fā)現(xiàn)列為議題之一,成為當(dāng)前計(jì)算機(jī)科學(xué)界的一大熱點(diǎn)。

  此外,數(shù)據(jù)庫、人工智能、信息處理、知識工程等領(lǐng)域的國際學(xué)術(shù)刊物也紛紛開辟了KDD專題或?qū)?EEE的KnowledgeandDataEngineering會刊領(lǐng)先在1993年出版了KDD技術(shù)??l(fā)表的5篇論文代表了當(dāng)時(shí)KDD研究的最新成果和動態(tài),較全面地論述了KDD系統(tǒng)方法論、發(fā)現(xiàn)結(jié)果的評價(jià)、KDD系統(tǒng)設(shè)計(jì)的邏輯方法,集中討論了鑒于數(shù)據(jù)庫的動態(tài)性冗余、高噪聲筒蝗范ㄐ浴⒖罩檔任侍?,KDD系統(tǒng)與其它傳統(tǒng)的機(jī)器學(xué)習(xí)、專家系統(tǒng)、人工神經(jīng)網(wǎng)絡(luò)、數(shù)理統(tǒng)計(jì)分析系統(tǒng)的聯(lián)系和區(qū)別,以及相應(yīng)的基本對策。6篇論文摘要展示了KDD在從建立分子模型到設(shè)計(jì)制造業(yè)的具體應(yīng)用。

  不僅如此,在Internet上還有不少KDD電子出版物,其中以半月刊KnowledgeDiscoveryNuggets最為權(quán)威,如要免費(fèi)訂閱,只需向http://www.kdnuggets.com/subscribe.html發(fā)送一份電子郵件即可,還可以下載各種各樣的數(shù)據(jù)挖掘工具軟件和典型的樣本數(shù)據(jù)倉庫,供人們測試和評價(jià)。另一份在線周刊為DS*(DS代表決策支持),1997年10月7日開始出版,可向dstrial@tgc.com提出免費(fèi)訂閱申請。在網(wǎng)上,還有一個(gè)自由論壇DMEmailClub,人們通過電子郵件相互討論DMKD的熱點(diǎn)問題。而領(lǐng)導(dǎo)整個(gè)潮流的DMKD開發(fā)和研究中心,當(dāng)數(shù)設(shè)在美國EMDEN的IBM公司開發(fā)部。

  隨著DMKD研究逐步走向深入,人們越來越清楚地認(rèn)識到,DMKD的研究主要有3個(gè)技術(shù)支柱,即數(shù)據(jù)庫、人工智能和數(shù)理統(tǒng)計(jì)。

  數(shù)據(jù)庫技術(shù)在經(jīng)過了80年代的輝煌之后,已經(jīng)在各行各業(yè)成為一種數(shù)據(jù)庫文化或時(shí)尚,數(shù)據(jù)庫界目前除了關(guān)注萬維網(wǎng)數(shù)據(jù)庫、分布式數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、多媒體數(shù)據(jù)庫、查詢優(yōu)化和并行計(jì)算等技術(shù)外,已經(jīng)在開始反思。數(shù)據(jù)庫最實(shí)質(zhì)的應(yīng)用僅僅是查詢嗎?理論根基最深的關(guān)系數(shù)據(jù)庫最本質(zhì)的技術(shù)進(jìn)步點(diǎn),就是數(shù)據(jù)存放和數(shù)據(jù)使用之間的相互分離。查詢是數(shù)據(jù)庫的奴隸,發(fā)現(xiàn)才是數(shù)據(jù)庫的主人;數(shù)據(jù)只為職員服務(wù),不為老板服務(wù)!這是很多單位的領(lǐng)導(dǎo)在熱心數(shù)據(jù)庫建設(shè)后發(fā)出的感嘆。

  由于數(shù)據(jù)庫文化的迅速普及,用數(shù)據(jù)庫作為知識源具有堅(jiān)實(shí)的基礎(chǔ);另一方面,對于一個(gè)感興趣的特定領(lǐng)域--客觀世界,先用數(shù)據(jù)庫技術(shù)將其形式化并組織起來,就會大大提高知識獲取起點(diǎn),以后從中發(fā)掘或發(fā)現(xiàn)的所有知識都是針對該數(shù)據(jù)庫而言的。因此,在需求的驅(qū)動下,很多數(shù)據(jù)庫學(xué)者轉(zhuǎn)向?qū)?shù)據(jù)倉庫和數(shù)據(jù)挖掘的研究,從對演繹數(shù)據(jù)庫的研究轉(zhuǎn)向?qū)w納數(shù)據(jù)庫的研究。

  專家系統(tǒng)曾經(jīng)是人工智能研究工作者的驕傲。專家系統(tǒng)實(shí)質(zhì)上是一個(gè)問題求解系統(tǒng),目前的主要理論工具是基于謂詞演算的機(jī)器定理證明技術(shù)--二階演繹系統(tǒng)。領(lǐng)域?qū)<议L期以來面向一個(gè)特定領(lǐng)域的經(jīng)驗(yàn)世界,通過人腦的思維活動積累了大量有用信息。

  在研制一個(gè)專家系統(tǒng)時(shí),知識工程師首先要從領(lǐng)域?qū)<夷抢铽@取知識,這一過程實(shí)質(zhì)上是歸納過程,是非常復(fù)雜的個(gè)人到個(gè)人之間的交互過程,有很強(qiáng)的個(gè)性和隨機(jī)性。因此,知識獲取成為專家系統(tǒng)研究中公認(rèn)的瓶頸問題。

  其次,知識工程師在整理表達(dá)從領(lǐng)域?qū)<夷抢铽@得的知識時(shí),用if-then等類的規(guī)則表達(dá),約束性太大,用常規(guī)數(shù)理邏輯來表達(dá)社會現(xiàn)象和人的思維活動局限性太大,也太困難,勉強(qiáng)抽象出來的規(guī)則有很強(qiáng)的工藝色彩,差異性極大,知識表示又成為一大難題。 此外,即使某個(gè)領(lǐng)域的知識通過一定手段獲取并表達(dá)了,但這樣做成的專家系統(tǒng)對常識和百科知識出奇地貧乏,而人類專家的知識是以擁有大量常識為基礎(chǔ)的。人工智能學(xué)家Feigenbaum估計(jì),一般人擁有的常識存入計(jì)算機(jī)大約有100萬條事實(shí)和抽象經(jīng)驗(yàn)法則,離開常識的專家系統(tǒng)有時(shí)會比傻子還傻。例如戰(zhàn)場指揮員會根據(jù)"在某地發(fā)現(xiàn)一只剛死的波斯貓"的情報(bào)很快斷定敵高級指揮所的位置,而再好的軍事專家系統(tǒng)也難以顧全到如此的信息。

  以上這3大難題大大限制了專家系統(tǒng)的應(yīng)用,使得專家系統(tǒng)目前還停留在構(gòu)造諸如發(fā)動機(jī)故障論斷一類的水平上。人工智能學(xué)者開始著手基于案例的推理,尤其是從事機(jī)器學(xué)習(xí)的科學(xué)家們,不再滿足自己構(gòu)造的小樣本學(xué)習(xí)模式的象牙塔,開始正視現(xiàn)實(shí)生活中大量的、不完全的、有噪聲的、模糊的、隨機(jī)的大數(shù)據(jù)樣本,也走上了數(shù)據(jù)挖掘的道路。 數(shù)理統(tǒng)計(jì)是應(yīng)用數(shù)學(xué)中最重要、最活躍的學(xué)科之一,它在計(jì)算機(jī)發(fā)明之前就誕生了,迄今已有幾百年的發(fā)展歷史。如今相當(dāng)強(qiáng)大有效的數(shù)理統(tǒng)計(jì)方法和工具,已成為信息咨詢業(yè)的基礎(chǔ)。信息時(shí)代,咨詢業(yè)更為發(fā)達(dá)。然而,數(shù)理統(tǒng)計(jì)和數(shù)據(jù)庫技術(shù)結(jié)合得并不算快,數(shù)據(jù)庫查詢語言SQL中的聚合函數(shù)功能極其簡單,就是一個(gè)證明。咨詢業(yè)用數(shù)據(jù)庫查詢數(shù)據(jù)還遠(yuǎn)遠(yuǎn)不夠。一旦人們有了從數(shù)據(jù)查詢到知識發(fā)現(xiàn)、從數(shù)據(jù)演繹到數(shù)據(jù)歸納的要求,概率論和數(shù)理統(tǒng)計(jì)就獲得了新的生命力,所以才會在DMKD這個(gè)結(jié)合點(diǎn)上,立即呈現(xiàn)出"忽如一夜春風(fēng)來,千樹萬樹梨花開"的繁榮景象。

三. 數(shù)據(jù)挖掘的挖掘任務(wù)和挖掘方法

  數(shù)據(jù)挖掘所能發(fā)現(xiàn)的知識有如下幾種:廣義型知識,反映同類事物共同性質(zhì)的知識;特征型知識,反映事物各方面的特征知識;差異型知識,反映不同事物之間屬性差別的知識;關(guān)聯(lián)型知識,反映事物之間依賴或關(guān)聯(lián)的知識;預(yù)測型知識,根據(jù)歷史的和當(dāng)前的數(shù)據(jù)推測未來數(shù)據(jù);偏離型知識,揭示事物偏離常規(guī)的異?,F(xiàn)象。所有這些知識都可以在不同的概念層次上被發(fā)現(xiàn),隨著概念樹的提升,從微觀到中觀再到宏觀,以滿足不同用戶、不同層次決策的需要。例如,從一家超市的數(shù)據(jù)倉庫中,可以發(fā)現(xiàn)的一條典型關(guān)聯(lián)規(guī)則可能是"買面包和黃油的顧客十有八九也買牛奶",也可能是"買食品的顧客幾乎都用信用卡",這種規(guī)則對于商家開發(fā)和實(shí)施客戶化的銷售計(jì)劃和策略是非常有用的。至于發(fā)現(xiàn)工具和方法,常用的有分類、聚類、減維、模式識別、可視化、決策樹、遺傳算法、不確定性處理等。

  數(shù)據(jù)挖掘涉及的學(xué)科領(lǐng)域和方法很多,有多種分類法。根據(jù)挖掘任務(wù)分,可分為分類或預(yù)測模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等等;根據(jù)挖掘?qū)ο蠓?,有關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時(shí)態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫以及環(huán)球網(wǎng)Web;根據(jù)挖掘方法分,可粗分為:機(jī)器學(xué)習(xí)方法、統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。機(jī)器學(xué)習(xí)中,可細(xì)分為:歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納等)、基于范例學(xué)習(xí)、遺傳算法等。統(tǒng)計(jì)方法中,可細(xì)分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費(fèi)歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動態(tài)聚類等)、探索性分析(主元分析法、相關(guān)分析法等)等。神經(jīng)網(wǎng)絡(luò)方法中,可細(xì)分為:前向神經(jīng)網(wǎng)絡(luò)(BP算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競爭學(xué)習(xí)等)等。數(shù)據(jù)庫方法主要是多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。

  以下將主要從挖掘任務(wù)和挖掘方法的角度,著重討論數(shù)據(jù)抽取、分類發(fā)現(xiàn)、聚類和關(guān)聯(lián)規(guī)則發(fā)現(xiàn)四種非常重要的發(fā)現(xiàn)任務(wù)。

  1、數(shù)據(jù)抽取

  數(shù)據(jù)抽取目的是對數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。傳統(tǒng)的也是最簡單的數(shù)據(jù)抽取方法是計(jì)算出數(shù)據(jù)庫的各個(gè)字段上的求和值、平均值、方差值等統(tǒng)計(jì)值,或者用直方圖、餅狀圖等圖形方式表示。數(shù)據(jù)挖掘主要關(guān)心從數(shù)據(jù)泛化的角度來討論數(shù)據(jù)總結(jié)。數(shù)據(jù)泛化是一種把數(shù)據(jù)庫中的有關(guān)數(shù)據(jù)從低層次抽象到高層次上的過程。由于數(shù)據(jù)庫上的數(shù)據(jù)或?qū)ο笏男畔⒖偸亲钤肌⒒镜男畔?這是為了不遺漏任何可能有用的數(shù)據(jù)信息)。人們有時(shí)希望能從較高層次的視圖上處理或?yàn)g覽數(shù)據(jù),因此需要對數(shù)據(jù)進(jìn)行不同層次上的泛化以適應(yīng)各種查詢要求。數(shù)據(jù)泛化目前主要有兩種技術(shù):多維數(shù)據(jù)分析方法和面向?qū)傩缘臍w納方法。

  多維數(shù)據(jù)分析方法是一種數(shù)據(jù)倉庫技術(shù),也稱作聯(lián)機(jī)分析處理(OLAP)。數(shù)據(jù)倉庫是面向決策支持的、集成的、穩(wěn)定的、不同時(shí)間的歷史數(shù)據(jù)集合。決策的前提是數(shù)據(jù)分析。在數(shù)據(jù)分析中經(jīng)常要用到諸如求和、總計(jì)、平均、最大、最小等匯集操作,這類操作的計(jì)算量特別大。因此一種很自然的想法是,把匯集操作結(jié)果預(yù)先計(jì)算并存儲起來,以便于決策支持系統(tǒng)使用。存儲匯集操作結(jié)果的地方稱作多維數(shù)據(jù)庫。

  采用多維數(shù)據(jù)分析方法進(jìn)行數(shù)據(jù)抽取,它針對的是數(shù)據(jù)倉庫,數(shù)據(jù)倉庫存儲的是脫機(jī)的歷史數(shù)據(jù)。為了處理聯(lián)機(jī)數(shù)據(jù),研究人員提出了一種面向?qū)傩缘臍w納方法。它的思路是,直接對用戶感興趣的數(shù)據(jù)視圖(用一般的SQL查詢語言即可獲得)進(jìn)行泛化,而不是像多維數(shù)據(jù)分析方法那樣預(yù)先就存儲好了泛化數(shù)據(jù)。方法的提出者對這種數(shù)據(jù)泛化技術(shù)稱之為面向?qū)傩缘臍w納方法。原始關(guān)系經(jīng)過泛化操作后得到的是一個(gè)泛化關(guān)系,它從較高的層次上總結(jié)了在低層次上的原始關(guān)系。有了泛化關(guān)系后,就可以對它進(jìn)行各種深入的操作而生成滿足用戶需要的知識,如在泛化關(guān)系基礎(chǔ)上生成特性規(guī)則、判別規(guī)則、分類規(guī)則,以及關(guān)聯(lián)規(guī)則等。

  2、分類發(fā)現(xiàn)

  分類在數(shù)據(jù)挖掘中是一項(xiàng)非常重要的任務(wù),目前在商業(yè)上應(yīng)用最多。分類的目的是學(xué)會一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。分類和回歸都可用于預(yù)測。預(yù)測的目的是從利用歷史數(shù)據(jù)紀(jì)錄中自動推導(dǎo)出對給定數(shù)據(jù)的推廣描述,從而能對未來數(shù)據(jù)進(jìn)行預(yù)測。和回歸方法不同的是,分類的輸出是離散的類別值,而回歸的輸出則是連續(xù)數(shù)值。這里我們將不討論回歸方法。

  要構(gòu)造分類器,需要有一個(gè)訓(xùn)練樣本數(shù)據(jù)集作為輸入。訓(xùn)練集由一組數(shù)據(jù)庫記錄或元組構(gòu)成,每個(gè)元組是一個(gè)由有關(guān)字段(又稱屬性或特征)值組成的特征向量,此外,訓(xùn)練樣本還有一個(gè)類別標(biāo)記。一個(gè)具體樣本的形式可為:(v1,v2,...,vn;c);其中vi表示字段值,c表示類別。

  分類器的構(gòu)造方法有統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法等等。統(tǒng)計(jì)方法包括貝葉斯法和非參數(shù)法(近鄰學(xué)習(xí)或基于事例的學(xué)習(xí)),對應(yīng)的知識表示則為判別函數(shù)和原型事例。機(jī)器學(xué)習(xí)方法包括決策樹法和規(guī)則歸納法,前者對應(yīng)的表示為決策樹或判別樹,后者則一般為產(chǎn)生式規(guī)則。神經(jīng)網(wǎng)絡(luò)方法主要是BP算法,它的模型表示是前向反饋神經(jīng)網(wǎng)絡(luò)模型(由代表神經(jīng)元的節(jié)點(diǎn)和代表聯(lián)接權(quán)值的邊組成的一種體系結(jié)構(gòu)),BP算法本質(zhì)上是一種非線性判別函數(shù)。另外,最近又興起了一種新的方法:粗糙集(roughset),其知識表示是產(chǎn)生式規(guī)則。

  不同的分類器有不同的特點(diǎn)。有三種分類器評價(jià)或比較尺度:1預(yù)測準(zhǔn)確度;2計(jì)算復(fù)雜度;3模型描述的簡潔度。預(yù)測準(zhǔn)確度是用得最多的一種比較尺度,特別是對于預(yù)測型分類任務(wù),目前公認(rèn)的方法是10番分層交叉驗(yàn)證法。計(jì)算復(fù)雜度依賴于具體的實(shí)現(xiàn)細(xì)節(jié)和硬件環(huán)境,在數(shù)據(jù)挖掘中,由于操作對象是巨量的數(shù)據(jù)庫,因此空間和時(shí)間的復(fù)雜度問題將是非常重要的一個(gè)環(huán)節(jié)。對于描述型的分類任務(wù),模型描述越簡潔越受歡迎;例如,采用規(guī)則表示的分類器構(gòu)造法就更有用,而神經(jīng)網(wǎng)絡(luò)方法產(chǎn)生的結(jié)果就難以理解。

  另外要注意的是,分類的效果一般和數(shù)據(jù)的特點(diǎn)有關(guān),有的數(shù)據(jù)噪聲大,有的有缺值,有的分布稀疏,有的字段或?qū)傩蚤g相關(guān)性強(qiáng),有的屬性是離散的而有的是連續(xù)值或混合式的。目前普遍認(rèn)為不存在某種方法能適合于各種特點(diǎn)的數(shù)據(jù)。

  3、聚類

  聚類是把一組個(gè)體按照相似性歸成若干類別,即"物以類聚"。它的目的是使得屬于同一類別的個(gè)體之間的距離盡可能的小,而不同類別上的個(gè)體間的距離盡可能的大。聚類方法包括統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和面向數(shù)據(jù)庫的方法。

  在統(tǒng)計(jì)方法中,聚類稱聚類分析,它是多元數(shù)據(jù)分析的三大方法之一(其它兩種是回歸分析和判別分析)。它主要研究基于幾何距離的聚類,如歐式距離、明考斯基距離等。傳統(tǒng)的統(tǒng)計(jì)聚類分析方法包括系統(tǒng)聚類法、分解法、加入法、動態(tài)聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。這種聚類方法是一種基于全局比較的聚類,它需要考察所有的個(gè)體才能決定類的劃分;因此它要求所有的數(shù)據(jù)必須預(yù)先給定,而不能動態(tài)增加新的數(shù)據(jù)對象。聚類分析方法不具有線性的計(jì)算復(fù)雜度,難以適用于數(shù)據(jù)庫非常大的情況。

  在機(jī)器學(xué)習(xí)中聚類稱作無監(jiān)督或無教師歸納;因?yàn)楹头诸悓W(xué)習(xí)相比,分類學(xué)習(xí)的例子或數(shù)據(jù)對象有類別標(biāo)記,而要聚類的例子則沒有標(biāo)記,需要由聚類學(xué)習(xí)算法來自動確定。很多人工智能文獻(xiàn)中,聚類也稱概念聚類;因?yàn)檫@里的距離不再是統(tǒng)計(jì)方法中的幾何距離,而是根據(jù)概念的描述來確定的。當(dāng)聚類對象可以動態(tài)增加時(shí),概念聚類則稱是概念形成。

  在神經(jīng)網(wǎng)絡(luò)中,有一類無監(jiān)督學(xué)習(xí)方法:自組織神經(jīng)網(wǎng)絡(luò)方法;如Kohonen自組織特征映射網(wǎng)絡(luò)、競爭學(xué)習(xí)網(wǎng)絡(luò)等等。在數(shù)據(jù)挖掘領(lǐng)域里,見報(bào)道的神經(jīng)網(wǎng)絡(luò)聚類方法主要是自組織特征映射方法,IBM在其發(fā)布的數(shù)據(jù)挖掘白皮書中就特別提到了使用此方法進(jìn)行數(shù)據(jù)庫聚類分割。

  4、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)

  關(guān)聯(lián)規(guī)則是形式如下的一種規(guī)則,"在購買面包和黃油的顧客中,有90%的人同時(shí)也買了牛奶"(面包+黃油(牛奶)。用于關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的主要對象是事務(wù)型數(shù)據(jù)庫,其中針對的應(yīng)用則是售貨數(shù)據(jù),也稱貨籃數(shù)據(jù)。一個(gè)事務(wù)一般由如下幾個(gè)部分組成:事務(wù)處理時(shí)間,一組顧客購買的物品,有時(shí)也有顧客標(biāo)識號(如信用卡號)。

  由于條形碼技術(shù)的發(fā)展,零售部門可以利用前端收款機(jī)收集存儲大量的售貨數(shù)據(jù)。因此,如果對這些歷史事務(wù)數(shù)據(jù)進(jìn)行分析,則可對顧客的購買行為提供極有價(jià)值的信息。例如,可以幫助如何擺放貨架上的商品(如把顧客經(jīng)常同時(shí)買的商品放在一起),幫助如何規(guī)劃市場(怎樣相互搭配進(jìn)貨)。由此可見,從事務(wù)數(shù)據(jù)中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,對于改進(jìn)零售業(yè)等商業(yè)活動的決策非常重要。

  設(shè)I={i1,i2,...,im}是一組物品集(一個(gè)商場的物品可能有上萬種),D是一組事務(wù)集(稱之為事務(wù)數(shù)據(jù)庫)。D中的每個(gè)事務(wù)T是一組物品,顯然滿足TI。稱事務(wù)T支持物品集X,如果XT。關(guān)聯(lián)規(guī)則是如下形式的一種蘊(yùn)含:XY,其中XI,YI,且X∩Y=I。

  (1)稱物品集X具有大小為s的支持度,如果D中有s%的事務(wù)支持物品集X;

  (2)稱關(guān)聯(lián)規(guī)則XY在事務(wù)數(shù)據(jù)庫D中具有大小為s的支持度,如果物品集X∪Y的支持度為s;

  (3)稱規(guī)則XY在事務(wù)數(shù)據(jù)庫D中具有大小為c的可信度,如果D中支持物品集X的事務(wù)中有c%的事務(wù)同時(shí)也支持物品集Y。

  如果不考慮關(guān)聯(lián)規(guī)則的支持度和可信度,那么在事務(wù)數(shù)據(jù)庫中存在無窮多的關(guān)聯(lián)規(guī)則。事實(shí)上,人們一般只對滿足一定的支持度和可信度的關(guān)聯(lián)規(guī)則感興趣。在文獻(xiàn)中,一般稱滿足一定要求的(如較大的支持度和可信度)的規(guī)則為強(qiáng)規(guī)則。因此,為了發(fā)現(xiàn)出有意義的關(guān)聯(lián)規(guī)則,需要給定兩個(gè)閾值:最小支持度和最小可信度。前者即用戶規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小支持度,它表示了一組物品集在統(tǒng)計(jì)意義上的需滿足的最低程度;后者即用戶規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小可信度,它反應(yīng)了關(guān)聯(lián)規(guī)則的最低可靠度。

  在實(shí)際情況下,一種更有用的關(guān)聯(lián)規(guī)則是泛化關(guān)聯(lián)規(guī)則。因?yàn)槲锲犯拍铋g存在一種層次關(guān)系,如夾克衫、滑雪衫屬于外套類,外套、襯衣又屬于衣服類。有了層次關(guān)系后,可以幫助發(fā)現(xiàn)一些更多的有意義的規(guī)則。例如?quot;買外套買鞋子"(此處,外套和鞋子是較高層次上的物品或概念,因而該規(guī)則是一種泛化的關(guān)聯(lián)規(guī)則)。由于商店或超市中有成千上萬種物品,平均來講,每種物品(如滑雪衫)的支持度很低,因此有時(shí)難以發(fā)現(xiàn)有用規(guī)則;但如果考慮到較高層次的物品(如外套),則其支持度就較高,從而可能發(fā)現(xiàn)有用的規(guī)則。

  另外,關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的思路還可以用于序列模式發(fā)現(xiàn)。用戶在購買物品時(shí),除了具有上述關(guān)聯(lián)規(guī)律,還有時(shí)間上或序列上的規(guī)律,因?yàn)?,很多時(shí)候顧客會這次買這些東西,下次買同上次有關(guān)的一些東西,接著又買有關(guān)的某些東西。

四.數(shù)據(jù)挖掘工具的評價(jià)標(biāo)準(zhǔn)

  如何選擇滿足自己需要的數(shù)據(jù)挖掘工具呢?評價(jià)一個(gè)數(shù)據(jù)挖掘工具,需要從以下幾個(gè)方面來考慮:

  1產(chǎn)生的模式種類的多少

  2.解決復(fù)雜問題的能力

  數(shù)據(jù)量的增大,對模式精細(xì)度、準(zhǔn)確度要求的增高都會導(dǎo)致問題復(fù)雜性的增大。數(shù)據(jù)挖掘系統(tǒng)可以提供下列方法解決復(fù)雜問題:

  多種模式多種類別模式的結(jié)合使用有助于發(fā)現(xiàn)有用的模式,降低問題復(fù)雜性。例如,首先用聚類的方法把數(shù)據(jù)分組,然后再在各個(gè)組上挖掘預(yù)測性的模式,將會比單純在整個(gè)數(shù)據(jù)集上進(jìn)行操作更有效、準(zhǔn)確度更高。

  多種算法很多模式,特別是與分類有關(guān)的模式,可以有不同的算法來實(shí)現(xiàn),各有各的優(yōu)缺點(diǎn),適用于不同的需求和環(huán)境。數(shù)據(jù)挖掘系統(tǒng)提供多種途徑產(chǎn)生同種模式,將更有能力解決復(fù)雜問題。 驗(yàn)證方法在評估模式時(shí),有多種可能的驗(yàn)證方法。比較成熟的方法像N層交叉驗(yàn)證或Bootstrapping等可以控制,以達(dá)到最大的準(zhǔn)確度。

  數(shù)據(jù)選擇和轉(zhuǎn)換模式通常被大量的數(shù)據(jù)項(xiàng)隱藏。有些數(shù)據(jù)是冗余的,有些數(shù)據(jù)是完全無關(guān)的。而這些數(shù)據(jù)項(xiàng)的存在會影響到有價(jià)值的模式的發(fā)現(xiàn)。數(shù)據(jù)挖掘系統(tǒng)的一個(gè)很重要功能就是能夠處理數(shù)據(jù)復(fù)雜性,提供工具,選擇正確的數(shù)據(jù)項(xiàng)和轉(zhuǎn)換數(shù)據(jù)值。

  可視化可視化工具提供直觀、簡潔的機(jī)制表示大量的信息。這有助于定位重要的數(shù)據(jù),評價(jià)模式的質(zhì)量,從而減少建模的復(fù)雜性。 擴(kuò)展性為了更有效地提高處理大量數(shù)據(jù)的效率,數(shù)據(jù)挖掘系統(tǒng)的擴(kuò)展性十分重要。需要了解的是:數(shù)據(jù)挖掘系統(tǒng)能否充分利用硬件資源?是否支持并行計(jì)算?算法本身設(shè)計(jì)為并行的或利用了DBMS的并行性能?支持哪種并行計(jì)算機(jī),SMP服務(wù)器還是MPP服務(wù)器?當(dāng)處理器的數(shù)量增加時(shí),計(jì)算規(guī)模是否相應(yīng)增長?是否支持?jǐn)?shù)據(jù)并行存儲?

  為單處理器的計(jì)算機(jī)編寫的數(shù)據(jù)挖掘算法不會在并行計(jì)算機(jī)上自動以更快的速度運(yùn)行。為充分發(fā)揮并行計(jì)算的優(yōu)點(diǎn),需要編寫支持并行計(jì)算的算法。

  3.易操作性

  易操作性是一個(gè)重要的因素。有的工具有圖形化界面,引導(dǎo)用戶半自動化地執(zhí)行任務(wù),有的使用腳本語言。有些工具還提供數(shù)據(jù)挖掘的API,可以嵌入到像C、VisualBasic、PowerBuilder這樣的編程語言中。

  模式可以運(yùn)用到已存在或新增加的數(shù)據(jù)上。有的工具有圖形化的界面,有的允許通過使用C這樣的程序語言或SQL中的規(guī)則集,把模式導(dǎo)出到程序或數(shù)據(jù)庫中。

  4.?dāng)?shù)據(jù)存取能力

  好的數(shù)據(jù)挖掘工具可以使用SQL語句直接從DBMS中讀取數(shù)據(jù)。這樣可以簡化數(shù)據(jù)準(zhǔn)備工作,并且可以充分利用數(shù)據(jù)庫的優(yōu)點(diǎn)(比如平行讀?。]有一種工具可以支持大量的DBMS,但可以通過通用的接口連接大多數(shù)流行的DBMS。Microsoft的ODBC就是一個(gè)這樣的接口。

  5.與其他產(chǎn)品的接口

  有很多別的工具可以幫助用戶理解數(shù)據(jù),理解結(jié)果。這些工具可以是傳統(tǒng)的查詢工具、可視化工具、OLAP工具。數(shù)據(jù)挖掘工具是否能提供與這些工具集成的簡易途徑?

  因?yàn)閿?shù)據(jù)挖掘工具需要考慮的因素很多,很難按照原則給工具排一個(gè)優(yōu)劣次序。最重要的還是用戶的需要,根據(jù)特定的需求加以選擇。數(shù)據(jù)挖掘工具可以給很多產(chǎn)業(yè)帶來收益。國外的許多行業(yè)如通信、信用卡公司、銀行和股票交易所、保險(xiǎn)公司、廣告公司、商店等已經(jīng)大量利用數(shù)據(jù)挖掘工具來協(xié)助其業(yè)務(wù)活動,國內(nèi)在這方面的應(yīng)用還處于起步階段,對數(shù)據(jù)挖掘技術(shù)和工具的研究人員以及開發(fā)商來說,我國是一個(gè)有巨大潛力的市場。


本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
空間數(shù)據(jù)挖掘簡單介紹
數(shù)據(jù)挖掘技術(shù)簡介
數(shù)據(jù)挖掘七種常用的方法匯總
寫給新人數(shù)據(jù)挖掘基礎(chǔ)知識介紹
數(shù)據(jù)挖掘的方法有哪些?
數(shù)據(jù)挖掘知識點(diǎn)整理
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服