Web挖掘技術(shù)
一、數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是運(yùn)用計(jì)算機(jī)及信息技術(shù),從大量的、不完全的數(shù)據(jù)集中獲取隱含在其中的有用知識(shí)的高級(jí)過程。Web 數(shù)據(jù)挖掘是從數(shù)據(jù)挖掘發(fā)展而來(lái),是數(shù)據(jù)挖掘技術(shù)在Web 技術(shù)中的應(yīng)用。Web 數(shù)據(jù)挖掘是一項(xiàng)綜合技術(shù),通過從Internet 上的資源中抽取信息來(lái)提高Web 技術(shù)的利用效率,也就是從Web 文檔結(jié)構(gòu)和試用的集合中發(fā)現(xiàn)隱含的模式。
數(shù)據(jù)挖掘涉及的學(xué)科領(lǐng)域和方法很多,有多種分類法。
(1)根據(jù)挖掘?qū)ο蠓郑宏P(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)序數(shù)據(jù)庫(kù)、DNA 數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)、遺產(chǎn)數(shù)據(jù)庫(kù)以及Web數(shù)據(jù)庫(kù)等;
(2)根據(jù)挖掘方法分:機(jī)器學(xué)習(xí)方法、統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫(kù)方法等;
a. 機(jī)器學(xué)習(xí)方法可細(xì)分為:歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納等)、基于范例學(xué)習(xí)、遺傳算法等。
b.統(tǒng)計(jì)方法可細(xì)分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費(fèi)歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動(dòng)態(tài)聚類等)、探索性分析(主元分析法、相關(guān)分析法等)等。
c. 神經(jīng)網(wǎng)絡(luò)方法可細(xì)分為:前向神經(jīng)網(wǎng)絡(luò)(BP 算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競(jìng)爭(zhēng)學(xué)習(xí)等)等。
(3)根據(jù)開采任務(wù)分:可分為關(guān)聯(lián)規(guī)則、分類、聚類、時(shí)間序列預(yù)測(cè)模型發(fā)現(xiàn)和時(shí)序模式發(fā)現(xiàn)等。
a.關(guān)聯(lián)規(guī)則:典型的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法是Apriori算法,該算法也稱廣度優(yōu)先算法,是A.Agrawal和R.Srikandt于1994年提出的,它是目前除AIS 算法、面向SQL的SETM 算法外幾乎所有頻繁項(xiàng)集發(fā)現(xiàn)算法的核心,其基本思想是:如果一個(gè)項(xiàng)集不是頻繁集,則其父集也不是頻繁集,由此大大地減少了需要驗(yàn)證的項(xiàng)集的數(shù)目,在實(shí)際運(yùn)行中它明顯優(yōu)于AIS 算法。
Apriori算法是關(guān)聯(lián)規(guī)則挖掘中最具有影響的一種算法.所謂關(guān)聯(lián)規(guī)則就是從事務(wù)數(shù)據(jù)庫(kù)、關(guān)系數(shù)據(jù)庫(kù)和其他數(shù)據(jù)存儲(chǔ)中的大量數(shù)據(jù)的項(xiàng)集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關(guān)聯(lián)和相關(guān)性.關(guān)聯(lián)規(guī)則可以分為兩步:
1)找出所有頻繁項(xiàng)集.這部分主要由后面介紹的Apriori算法來(lái)解決.
2)由頻繁項(xiàng)集產(chǎn)生相關(guān)聯(lián)規(guī)則:這些規(guī)則必須滿足最小支持度和最小置信度.
b.分類規(guī)則:數(shù)據(jù)挖掘的一個(gè)重要任務(wù)是對(duì)海量數(shù)據(jù)進(jìn)行分類。數(shù)據(jù)分類是基于一組數(shù)據(jù)的某些屬性的值進(jìn)行的。數(shù)據(jù)分類的方法很多,包括決策樹方法、統(tǒng)計(jì)學(xué)方法、神經(jīng)網(wǎng)絡(luò)方法、最近鄰居方法等等。其中,基于決策樹的分類方法與其它的分類方法比較起來(lái),具有速度較快、較容易轉(zhuǎn)換成簡(jiǎn)單的并且易于被理解的分類規(guī)則、較易轉(zhuǎn)換成數(shù)據(jù)庫(kù)查詢語(yǔ)言、友善、可得到更高的準(zhǔn)確度等優(yōu)點(diǎn)。
c.數(shù)據(jù)聚類:其基本思想是:對(duì)數(shù)據(jù)進(jìn)行分析的過程中,在考慮數(shù)據(jù)間的“距離”的同時(shí),更側(cè)重考慮某些數(shù)據(jù)間具有類的共同內(nèi)涵。數(shù)據(jù)聚類是對(duì)一組數(shù)據(jù)進(jìn)行分組,這種分組基于如下的原理:最大的組內(nèi)相似性與最小的組間相似性。
d. 時(shí)序模式:可用如下的例子描述時(shí)序模式:一個(gè)顧客先租看影片“Star Wars”,然后租“Empire Strikes Back”,再租“Return of the Judi”,注意到這些租借事物的發(fā)生不一定是連著的。像這樣一次事件的發(fā)生會(huì)導(dǎo)致某些事物的相繼發(fā)生的事件模式,稱為時(shí)序模式。
e.相似模式:時(shí)態(tài)或空間—時(shí)態(tài)的大量數(shù)據(jù)存在于計(jì)算機(jī)中,這些數(shù)據(jù)庫(kù)例子包括:股票價(jià)格指數(shù)的金融數(shù)據(jù)庫(kù)、醫(yī)療數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)等等。在時(shí)態(tài)或空間—時(shí)態(tài)數(shù)據(jù)庫(kù)中搜索相似模式的目的是發(fā)現(xiàn)和預(yù)測(cè)風(fēng)險(xiǎn)、因果關(guān)系及關(guān)聯(lián)于特定模式的趨勢(shì)。
二、Web挖掘
Web 站點(diǎn)上的數(shù)據(jù)有其自身的特點(diǎn),主要的可以歸納為以下幾點(diǎn):
1 、數(shù)據(jù)量巨大,動(dòng)態(tài)性極強(qiáng);2、 異構(gòu)數(shù)據(jù)庫(kù)環(huán)境;3 、半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)。
Web 數(shù)據(jù)挖掘可以分為Web 內(nèi)容挖掘,Web結(jié)構(gòu)挖掘,Web 使用挖掘三類。Web 內(nèi)容挖掘是從文檔內(nèi)容或其描述中抽取有用信息的過程,Web 內(nèi)容挖掘有兩種策略:直接挖掘文檔的內(nèi)容和在其他工具搜索的基礎(chǔ)上進(jìn)行改進(jìn)。采用第一種策略的有針對(duì)Web 的查詢語(yǔ)言WebLOG,利用啟發(fā)式規(guī)則來(lái)尋找個(gè)人主頁(yè)信息的AHOY 等。采用第二種策略的方法主要是對(duì)搜索引擎的查詢結(jié)果進(jìn)行進(jìn)一步的處理, 得到更為精確和有用的信息。屬于該類的有WebSQL ,及對(duì)搜索引擎的返回結(jié)果進(jìn)行聚類的技術(shù)等。根據(jù)挖掘處理的數(shù)據(jù)可以將Web 內(nèi)容挖掘分為文本挖掘和多媒體挖掘兩個(gè)部分。Web 結(jié)構(gòu)挖掘是從Web 組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識(shí)。挖掘頁(yè)面的結(jié)構(gòu)和Web 結(jié)構(gòu),可以用來(lái)指導(dǎo)對(duì)頁(yè)面進(jìn)行分類和聚類,找到權(quán)威頁(yè)面、中心頁(yè)面,從而提高檢索的性能。同時(shí)還可以用來(lái)指導(dǎo)頁(yè)面采集工作,提高采集效率。Web 結(jié)構(gòu)挖掘可以分為Web 文檔內(nèi)部結(jié)構(gòu)挖掘和文檔間的超鏈接結(jié)構(gòu)挖掘。這方面的代表有Page Rank和CLEVER,此外,在多層次Web數(shù)據(jù)倉(cāng)庫(kù)( MLDB ) 中也利用了頁(yè)面的鏈接結(jié)構(gòu)。Web 使用挖掘是從服務(wù)器端記錄的用戶訪問日志或從用戶的瀏覽信息中抽取感興趣的模式,通過分析這些數(shù)據(jù)可以幫助理解用戶隱藏在數(shù)據(jù)中的行為模式,做出預(yù)測(cè)性分析,從而改進(jìn)站點(diǎn)的結(jié)構(gòu)或?yàn)橛脩籼峁﹤€(gè)性化的服務(wù)。
Web 挖掘相關(guān)技術(shù):
數(shù)據(jù)挖掘方法通??梢苑譃閮深? 一類是建立在統(tǒng)計(jì)模型的基礎(chǔ)上, 采用的技術(shù)有決策樹、分類、聚類、關(guān)聯(lián)規(guī)則等; 另一類是建立一種以機(jī)器學(xué)習(xí)為主的人工智能模型,采用的方法有神經(jīng)網(wǎng)絡(luò)、自然法則計(jì)算方法等。
Web 內(nèi)容挖掘:
1、Web 文本挖掘
Web 文本挖掘可以對(duì)Web 上的大量文檔的集合的內(nèi)容進(jìn)行總結(jié)、分類、聚類、關(guān)聯(lián)分析,以及利用Web 文檔進(jìn)行趨勢(shì)預(yù)測(cè)。在Internet 上的文本數(shù)據(jù)一般是一組html 格式的文檔集,要將這些文檔轉(zhuǎn)化成一種類似關(guān)系數(shù)據(jù)庫(kù)中記錄的規(guī)整且能反映文檔內(nèi)容特征的表示,一般采用文檔特征向量,但目前所采用的文檔表示方法中,都存在一個(gè)弊端就是文檔特征向量具有非常大的維數(shù),使得特征子集的選取成為Internet 上文本數(shù)據(jù)挖掘過程中的必不可少的一個(gè)環(huán)節(jié)。在完成文檔特征向量維數(shù)的縮減后,便可利用數(shù)據(jù)挖掘的各種方法,如分類、聚類、關(guān)聯(lián)分析等來(lái)提取面向特定應(yīng)用的知識(shí)模式,最后對(duì)挖掘結(jié)果進(jìn)行評(píng)價(jià),若評(píng)價(jià)結(jié)果滿足一定的要求則輸出,否則返回到以前的某個(gè)環(huán)節(jié),分析改進(jìn)后進(jìn)行新一輪的挖掘工作。。關(guān)聯(lián)規(guī)則模式數(shù)據(jù)描述型模式, 發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法屬于無(wú)監(jiān)督學(xué)習(xí)的方法。發(fā)現(xiàn)關(guān)聯(lián)規(guī)則通常要經(jīng)過以下3個(gè)步驟: ①連接數(shù)據(jù), 做數(shù)據(jù)準(zhǔn)備; ②給定最小支持度和最小可信度, 利用數(shù)據(jù)挖掘工具提供的算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則; ③可視化顯示、理解、評(píng)估關(guān)聯(lián)規(guī)則。
目前 Web 內(nèi)容挖掘研究主要集中在基于文本內(nèi)容的檢索、信息過濾的提煉、重復(fù)數(shù)據(jù)消除、數(shù)據(jù)模式抽取、中間形式表示、異構(gòu)集成、文本分類和聚類、文檔總結(jié)和結(jié)構(gòu)提取、數(shù)據(jù)倉(cāng)庫(kù)及OLAP等幾個(gè)方面,尤其是基于XML的上述專題研究。
對(duì)分類挖掘而言,在預(yù)處理階段要做的事情就是把這個(gè)Web頁(yè)面集合文本信息轉(zhuǎn)化成一個(gè)二維的數(shù)據(jù)庫(kù)表,其中每一列是一個(gè)特征,每一行為一個(gè)Web頁(yè)面的特征集合。在文本學(xué)習(xí)中常用的方法是TF工DF向量表示法,它是一種文檔的詞集(bag-of-words)表示法,所有的詞從文檔中抽取出來(lái),而不考慮詞間的次序和文本的結(jié)構(gòu)。構(gòu)造這種二維表的方法是:每一列為一個(gè)詞,列集(特征集)為辭典中的所有有區(qū)分價(jià)值的詞,所以整個(gè)列集可能有幾十萬(wàn)列之多。每一行存儲(chǔ)一個(gè)頁(yè)面內(nèi)詞的信息,這時(shí),該頁(yè)面中的所有詞對(duì)應(yīng)到列集(特征集)上。列集中的每一個(gè)列(詞),如果在該頁(yè)面中不出現(xiàn),則其值為0;如果出現(xiàn)k次.那么其值就為k。這樣就可以表征出頁(yè)面中詞的頻度。這樣構(gòu)造的二維表表示的是Web頁(yè)面集合的詞的統(tǒng)計(jì)信息,最終就可以采用Naive Bayesian方法或k-Nearest Neighbor方法進(jìn)行分類挖掘。
WebSQL 是一個(gè)用于Web 頁(yè)重構(gòu)的查詢語(yǔ)言,利用Web 文檔的圖樹表示形式,可從在線的文檔站點(diǎn)或?qū)в沃改现蝎@取信息。而Ahoy則利用像搜索引擎一類的互聯(lián)網(wǎng)服務(wù)來(lái)獲取與個(gè)人有關(guān)的服務(wù),利用試探法識(shí)別文檔中顯示該文檔作為個(gè)人主頁(yè)的句法特征。
分詞
目前已有很多分詞算法,如:正向最大匹配法(MM)、逆向最大匹配法(RMM)、逐詞遍歷匹配法、設(shè)立切分標(biāo)志法、正向最佳匹配法和逆向最佳匹配法等。近幾年又提出了很多新的方法旨在提高分詞的精度和分詞的速度,如:生成測(cè)試法通過詞法ATN和語(yǔ)義ATN之間的相互作用來(lái)進(jìn)行歧分決策,以提高分詞的精確性;改進(jìn)的MM分詞算法采用正向增字最大匹配法和跳躍匹配法,結(jié)合詞尾語(yǔ)義檢查和歸右原則以消除類型歧義;基于神經(jīng)網(wǎng)絡(luò)的分詞方法嘗試?yán)蒙窠?jīng)網(wǎng)絡(luò)來(lái)處理歧分問題,但同時(shí)又引入一個(gè)問題:訓(xùn)練樣本的選取,由于自然語(yǔ)言的復(fù)雜性,如何選取訓(xùn)練樣本還需要作深入的研究;結(jié)合直接匹配算法、后綴分詞算法和詞表結(jié)構(gòu)支持首字Hash的方法,局部提高了速度,但不能進(jìn)行標(biāo)準(zhǔn)的二分查找;支持首字Hash的近鄰匹配算法利用最大增字匹配算法,并支持首字Hash和標(biāo)準(zhǔn)二分查找以提高分詞速度。
分詞的基本算法有: (1)基于詞典與規(guī)則匹配法?;谠~典與規(guī)則的方法應(yīng)用詞典匹配, 漢語(yǔ)詞法或其它漢語(yǔ)語(yǔ)言知識(shí)進(jìn)行分詞, 這類方法簡(jiǎn)單、分詞效率較高,但對(duì)詞典的完備性、規(guī)則的一致性等要求比較高。匹配策略有: 最大匹配法、最小匹配法、逆向匹配法、增字或減字匹配法、雙向掃描法。(2)標(biāo)志法。如切分標(biāo)志法、統(tǒng)計(jì)標(biāo)引法。(3)詞頻統(tǒng)計(jì)法。基于統(tǒng)計(jì)的分詞方法將漢語(yǔ)基于字和詞的統(tǒng)計(jì)信息, 完備性較差。(4)語(yǔ)義語(yǔ)用法。如后綴分詞法。目前使用最多的是基于詞庫(kù)的分詞方法。由于中文在分詞時(shí)可能產(chǎn)生二義性, 如“計(jì)算機(jī)器”可分成“計(jì)算”“/ 機(jī)器”和“計(jì)算機(jī)”“/ 器”, 這樣必須結(jié)合其它分分詞方法, 如基于語(yǔ)法規(guī)則的分詞法、基于樸素貝葉斯分詞法等。在具體的分詞過程中, 我們還可以將單詞變型歸并, 像同義詞、近義詞可進(jìn)行歸并, 如“因特網(wǎng)”和“萬(wàn)維網(wǎng)”可當(dāng)成一個(gè)詞條處理。
語(yǔ)義Web 是下一代的Web 技術(shù),它賦予Web 以計(jì)算機(jī)可理解的語(yǔ)義信息。
在語(yǔ)義Web技術(shù)中,本體起著重要的作用。本體是人們對(duì)領(lǐng)域知識(shí)達(dá)成的共識(shí),是對(duì)領(lǐng)域的形式化與結(jié)構(gòu)化的描述。本項(xiàng)目針對(duì)語(yǔ)義Web 目前存在的問題,應(yīng)用語(yǔ)義Web 技術(shù),信息集成和信息管理的若干關(guān)鍵技術(shù),從多個(gè)方面對(duì)語(yǔ)義Web 進(jìn)行研究。
(1)語(yǔ)義信息集成。對(duì)本體的語(yǔ)義標(biāo)注和本體集成方法進(jìn)行研究,利用基于本體的語(yǔ)義標(biāo)注和本體映射技術(shù)從異構(gòu)的資源中抽取出有用信息,并通過映射方法集成多種信息源的的信息。
(2)語(yǔ)義查詢。實(shí)現(xiàn)語(yǔ)義信息的多種查詢方式,包括:本體的可視化導(dǎo)航查詢,針對(duì)概念/實(shí)例/屬性的查詢,基于全文檢索技術(shù)的查詢,語(yǔ)義關(guān)系的查詢。
(3)語(yǔ)義信息挖掘。語(yǔ)義信息的挖掘一直處在一個(gè)很淺層的階段,目前的多數(shù)研究一直處在傳統(tǒng)的文本信息挖掘。本項(xiàng)目的研究主要從本體實(shí)例聚類、本體分類,本體關(guān)聯(lián)規(guī)則挖掘以及本體中關(guān)鍵詞的抽取。這些技術(shù)是語(yǔ)義Web 的應(yīng)用的基礎(chǔ),他們可以用來(lái)分析語(yǔ)義信息的趨勢(shì),語(yǔ)義數(shù)據(jù)的自動(dòng)處理等。
(4)語(yǔ)義Web Service。通過系統(tǒng)定義的軟件本體對(duì)Web Service 進(jìn)行描述,從而實(shí)現(xiàn)WebService 的評(píng)估、組裝等功能。
(5)基于Peer to Peer 的語(yǔ)義信息管理。這個(gè)問題的核心思想是要通過集成已有的Peer to Peer框架實(shí)現(xiàn)語(yǔ)義挖掘平臺(tái)在P2P 環(huán)境下的應(yīng)用。
(6)算法解釋。利用定義的基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)對(duì)上述算法的執(zhí)行過程進(jìn)行l(wèi)og,從而輕松的實(shí)現(xiàn)用戶-算法及開發(fā)-算法之間的交互。提供針對(duì)算法本身的更友好的接口。
2 、Web 多媒體挖掘
Web 多媒體挖掘與Web 文本挖掘的不同點(diǎn)就在于需要提取的特征不同。Web 多媒體挖掘需要提取的特征一般包括圖像或視頻的文件名URL 、類型、鍵值表、顏色向量等。然后可以對(duì)這些特征進(jìn)行挖掘工作。如關(guān)聯(lián)分析發(fā)現(xiàn)類似“如果圖像是‘大’而且與關(guān)鍵詞‘草原’有關(guān),那么它是綠色的概率是0. 8”的關(guān)聯(lián)規(guī)則。當(dāng)然也可以對(duì)多媒體進(jìn)行分類、聚類等操作。多媒體數(shù)據(jù)挖掘的方法主要有:多媒體數(shù)據(jù)中的相似搜索,主要有兩種多媒體標(biāo)引和檢索技術(shù):基于描述的檢索系統(tǒng)和基于內(nèi)容的檢索系統(tǒng);多媒體數(shù)據(jù)的多維分析,可以按傳統(tǒng)的從關(guān)系數(shù)據(jù)中構(gòu)造數(shù)據(jù)立方體的方法,設(shè)計(jì)和構(gòu)造多媒體數(shù)據(jù)立方體;分類和預(yù)測(cè)分析,主要應(yīng)用于天文學(xué)、地震學(xué)和地理科學(xué)的研究,決策樹分類是最常用的方法;多媒體數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘,關(guān)聯(lián)規(guī)則的挖掘主要包括以下三類規(guī)則:圖像內(nèi)容和非圖像內(nèi)容之間的關(guān)聯(lián)、與空間關(guān)系無(wú)關(guān)的圖像內(nèi)容的關(guān)聯(lián)、與空間關(guān)系有關(guān)的圖像內(nèi)容的關(guān)聯(lián)。
3、特征提取
經(jīng)典的文本表示模型是向量空間模型(VSM—Vector Space Model),由Salton 等人于60 年代末提出,并成功地應(yīng)用于著名的SMART 文本檢索系統(tǒng)。向量空間模型對(duì)文本進(jìn)行簡(jiǎn)化表示,認(rèn)為特征之間是相互獨(dú)立的而忽略其依賴性,將文檔內(nèi)容用它所包含的特征詞來(lái)表示:D=(t1,t2,…,tN),其中tk 是文檔D 的第k 個(gè)特征詞,1 ≤ k ≤ N 。兩個(gè)文檔D1 和D2 之間內(nèi)容的相似程度Sim(D1,D2)通過計(jì)算向量之間的相似性來(lái)度量。最常用的相似性度量方式是余弦距離。
除了向量空間模型之外,Stephen Robertson 和Spark Jones 等人提出的概率模型得到了人們的廣泛認(rèn)可。該模型綜合考慮了詞頻、文檔頻率和文檔長(zhǎng)度等因素,把文檔和用戶興趣(查詢)按照一定的概率關(guān)系融合,形成了著名的OKAPI 公式。該模型在信息檢索領(lǐng)域取得了成功。
降維就是自動(dòng)從原始特征空間中提取出部分特征的過程,一般通過兩種途徑:一是根據(jù)對(duì)樣本集的統(tǒng)計(jì)信息刪除不包含任何信息的特征;二是將若干低級(jí)的特征合成一個(gè)新特征。目前關(guān)于特征提取的方法很多,如文檔頻率法(DF)、信息增益(IG)、互關(guān)聯(lián)信息(MI)、 x2 統(tǒng)計(jì)法(CHI)、特征增強(qiáng)(TS)等。DF是指包含某一特征的文檔數(shù),TS 法通過統(tǒng)計(jì)特征在一組相近文檔中出現(xiàn)的頻率來(lái)估計(jì)特征的重要性,然而,人們?cè)趯?shí)際應(yīng)用中發(fā)現(xiàn),某些DF值或TS值很低的特征反而是信息相關(guān)的,不能從特征空間中刪去,因此這兩種方法在某些情況下不可靠,MI的弱點(diǎn)是受特征的邊緣概率的影響很大,CHI和IG的使用效果較好。一般用的評(píng)估函數(shù)有幾率比(Odds ratio) 、信息增益( Information Gain) 、期望交叉熵( Expected CrossEntropy) 、互信息( Mutual Information) 、詞頻( WordFrequency) 等。
(1)IG(Information Gain):即信息贏取。IG值代表了特征在訓(xùn)練集上的分布情況,它通過統(tǒng)計(jì)特征在各個(gè)類別中的出現(xiàn)次數(shù)來(lái)計(jì)算,公式如下:
其中 t 代表特征 ,ci代表第i個(gè)類別,m為類別個(gè)數(shù),只Pr (cI)代表類別cI的概率,Pr (cI|i) 代表在包含特征t的條件下類別ci的概率,Pr (cI|-t) 代表在不包含特征t的條件下類別cI的概率,Pr(t) 代表特征t出 現(xiàn) 的 概率,Pr (-t) 代表特征t不出現(xiàn)的概率。IG值越高表示該特征在訓(xùn)練集中的類別上分布越集中。IG方法提取IG值較高的特征,其基本思想為分布越集中的特征越重要。
(2) MI(Mutual Information):即互信息值,它通過計(jì)算特征t和類別c間 的相關(guān)性來(lái)完成提取。計(jì)算公式為: 為方便計(jì)算,簡(jiǎn)化為: 其中N為訓(xùn)練集中包含的文本總數(shù),A為t與c同時(shí)出現(xiàn)的次數(shù),B為t出現(xiàn)而c不出現(xiàn)的次數(shù),C為c出現(xiàn)而t不出現(xiàn)的次數(shù)。通過該公式就可以取得特征與各類別間的互信息值。為了能取得特征在數(shù)據(jù)集上的整體評(píng)價(jià),有以下兩種計(jì)算方法:
前 者代表 了 特 征 和 各類別的平均互信息值,后者則取特征與各類別互 信 息 值中的最大值。MI方法提取互信息值較高的特征,其基本思想為與類別相關(guān)性越高的特征越重要。
(3)CHI 具有和MI方法基本相似的思想,同樣通過計(jì)算特征t和類別c間的依賴程度來(lái)完成提取。但二者的計(jì)算細(xì)節(jié)不同,CHI作了更多地考慮 ,有種看法認(rèn)為CHI是一種“正規(guī)化”了的MI。CHI的計(jì)算公式如下: 其中N為訓(xùn)練集中包含的文本總數(shù),A為t與c同時(shí)出現(xiàn)的次數(shù),B為t出現(xiàn)而c未出現(xiàn)的次數(shù),C為c出現(xiàn)而t未出現(xiàn)的次數(shù),D為二者都未出現(xiàn)的次數(shù)。與MI相同,CHI也有平均值和最大值兩種方法來(lái)取得特征的整體評(píng)價(jià):
CHI 方 法 的基本思想也是與類別關(guān)系越緊密的特征重要性越高。
(4)DF (Document frequency):即文檔頻率,指訓(xùn)練集中包含該特征的文本總數(shù)。所謂文本包含特征是指這個(gè)特征在該文本中出現(xiàn),忽略其在文本中的出現(xiàn)次數(shù)。DF方法提取DF值較高的特征,它的目的是去掉在訓(xùn)練集上出現(xiàn)次數(shù)過少的特征,保留出現(xiàn)達(dá)到一定次數(shù)、具有一定影響力的特征。在各個(gè)特征提取方法中,DF方法的計(jì)算是最簡(jiǎn)單的。
(5)WEE(Weight Evidence):即文本證據(jù)權(quán),其計(jì)算公式如下: 其中,t是一個(gè)特征,m是類別的數(shù)量,ci代表第i個(gè)類別,代表類別ci的概率,Pr (cI|t)代表在包含特征t的條件下類別ci的概率,Pr(t)代表特征t出現(xiàn)的概率。
4、分類
目前文本分類的方法很多,如多元回歸模型、K-鄰近方法、神經(jīng)網(wǎng)絡(luò)法、貝葉斯方法、決策樹法、支持向量機(jī)等,這些方法基本上可以分為兩類:統(tǒng)計(jì)分類方法和基于機(jī)器學(xué)習(xí)的分類方法。支持向量機(jī)(SVM)是統(tǒng)計(jì)學(xué)習(xí)理論領(lǐng)域近幾年才提出的新知識(shí),目前仍處于發(fā)展階段,但就目前的應(yīng)用而言,SVM在很多領(lǐng)域的運(yùn)用效果都非常理想。
網(wǎng)頁(yè)自動(dòng)分類是Web內(nèi)容挖掘的主要研究?jī)?nèi)容之一,采用的主要技術(shù)是分本分類技術(shù),這是因?yàn)槲谋臼悄壳癢eb內(nèi)容的主體,并且對(duì)文本的處理較音頻、視頻的處理容易。文本分類首先要進(jìn)行特征抽取。所謂特征是指一個(gè)詞或詞組。目前英文分類算法大多以單詞為特征,在分詞的時(shí)候利用空格和其它一些標(biāo)點(diǎn)符號(hào)作為分隔符,從而抽取出文檔中出現(xiàn)的所有特征,所有抽取出來(lái)的特征稱為全特征集。特征抽取完畢后一般還要進(jìn)行特征提取。特征提取是指從全特征集中提取一個(gè)子集的過程。提取出來(lái)的子集稱為特征子集。根據(jù)John Pierre的理論,用來(lái)表示文本的特征理論上應(yīng)具有如下特點(diǎn);(1)數(shù)量上盡量少;(2)出 現(xiàn)頻率適中;(3)冗余少;(4)噪音少;(5)與其所屬類別語(yǔ)義相關(guān);(6)含義盡量明確;從全特征集中提取特征子集時(shí)通常根據(jù)特征的權(quán)值進(jìn)行取舍,權(quán)值的計(jì)算方 法有多種,比如信息贏取(Information Gain),互信息(Mutual Information)等。特征提取后就可以用特征子集來(lái)表示文本,然后就可以構(gòu)造用不同分類方法用來(lái)分類。常見的分類模型有:(1)K一 近鄰模型,(2)Rocchio模型,(3)貝葉斯模型,(4)神經(jīng)網(wǎng)絡(luò)模型,(5)決策樹模型。目前研究人員己經(jīng)提出了許多文本分類方法,如向量空間法(VSM)、回歸模型、K近鄰法、貝葉斯概率方法、決策樹、神經(jīng)網(wǎng)絡(luò)、在線學(xué)習(xí)、支持向量機(jī)等。
在完成特征提取之后,我們就可以使用這些特征來(lái)表示一個(gè)文本。具體的表示方法因分類方法而異。每種分類模型都會(huì)采用自己的方法來(lái)表示一個(gè)文本,并將這種表示方法納入到自己的體系中去。所有的分類模型大體上都可分為訓(xùn)練和分類兩個(gè)步驟。一般來(lái)說(shuō),訓(xùn)練例越多分類的準(zhǔn)確度越有保證,但也并不是越多越好。
(1) 基于TFIDF的Rocchio算法
Rocchio 算法來(lái)源于向量空間模型理論,向量空間模型(Vector space model)的基本思想為采用向量來(lái)表示一個(gè)文本,之后的處理過程就可以轉(zhuǎn)化為空間中向量的運(yùn)算?;赥FIDF的Rocchio是這種思想的一種實(shí)現(xiàn)方法,其中文本以一個(gè)N維向量來(lái)表示,向量維數(shù)N即特征數(shù),向量分量是特征的某種權(quán)重表示,該權(quán)值的計(jì)算方法稱為TFIDF方法,步驟如下:
通過 TFIDF方法首先將訓(xùn)練集中的文本表示為向量,然后生成類別特征向量(即可以用來(lái)代表一個(gè)類別的向量)。類別特征向量取值為該類中所有文本向量的平均值。Rocchio算法訓(xùn)練的過程其實(shí)就是建立類別特征向量的過程。分類的時(shí)候,給定一個(gè)未知文本,先生成該文本的向量,然后計(jì)算該向量與各類別特征向量的相似度,最后將該文本分到與其最相似的類別中去。向量的相似度度量方法有兩種:(以x,y代表向量,xi,yi代表向量分量):
總體來(lái)看 ,Rocchio算法簡(jiǎn)單易行,運(yùn)行速度尤其是分類速度較快。
(2) 樸素貝葉斯模型
貝葉斯分類是一種統(tǒng)計(jì)學(xué)分類方法,它基于貝葉斯定理,可以用來(lái)預(yù)測(cè)類成員關(guān)系的可能性,給出文本屬于某特定類別的概率。分類時(shí)根據(jù)預(yù)測(cè)結(jié)果將該樣木分到概率最高的類別中去即可。假定有m個(gè)類c1,c2,c3…Cm,給定未知文本X,貝葉斯分類將給出條件X下具有最高后驗(yàn)概率的類別,即最大化P(Ci|X)根據(jù)貝葉斯定理可得:
顯而易見,P(X)對(duì)于所有類是個(gè)常數(shù),則只需最大化P(X|Ci )P(Ci)即可。P(ci)可以根據(jù)訓(xùn)練集中的類別分布來(lái)計(jì)算,即 ,其中|Ci|為類別Ci包含的文本數(shù),|D|為訓(xùn)練集中的文本總數(shù)。在一個(gè)具有許多屬性的事例中,計(jì)算P(X|Ci)的開銷會(huì)非常大,為了降低這種開銷而引出了稱為類條件獨(dú)立的樸素假定:假定文檔的一個(gè)屬性對(duì)于分類的影響?yīng)毩⒂谄渌麑傩裕次臋n的屬性之間是不相關(guān)的。這就是樸素貝葉斯(Na?ve Bayes)的由來(lái)。這樣就可以簡(jiǎn)單的以各個(gè)屬性在類別Ci上出現(xiàn)的概率來(lái)推算P(X|Ci)。通常使用拉普拉斯估計(jì)(Laplacean prior)來(lái)推算。又因?qū)崿F(xiàn)細(xì)節(jié)的不同有兩種樸素貝葉斯模型,多元模型(Multi-variate Bernoulli Model)只考慮了特征在文本中是否出現(xiàn)(出現(xiàn)記為1,否則記為。),多項(xiàng)式模型(Multinomial Model)考慮了特征在文本中的出現(xiàn)次數(shù):
樸素貝葉斯分類模型訓(xùn)練的過程其實(shí)就是統(tǒng)計(jì)每一個(gè)特征在各類中出現(xiàn)規(guī)律的過程。從理論上講,貝葉斯分類的出錯(cuò)率最小,就試驗(yàn)結(jié)果來(lái)看,樸素貝葉斯在大型的數(shù)據(jù)集上表現(xiàn)出來(lái)難得的速度和準(zhǔn)確度。
(3) 決策樹
決策樹(Decision Tree)是一個(gè)類似于流程圖的樹結(jié)構(gòu),其中每個(gè)節(jié)點(diǎn)代表一個(gè)屬性上的測(cè)試,每個(gè)分支代表一個(gè)測(cè)試輸出,最后的葉結(jié)點(diǎn)代表類別。決策樹方便改寫為形如if-then的分類規(guī)則,易于理解。決策樹的核心算法是一種貪心算法,它以自頂向下的方式在訓(xùn)練集的基礎(chǔ)上構(gòu)造決策樹,之后取未知文本的屬性在決策樹上測(cè)試,路徑由根結(jié)點(diǎn)到葉結(jié)點(diǎn),從而得到該文本的所屬類別。決策樹的算法有C4.5(發(fā)展于ID3),CART,CHAID等,他們的區(qū)別在于構(gòu)造決策樹與樹枝剪除的算法細(xì)節(jié)不同。決策樹可以很好的抵抗噪聲。最大的缺點(diǎn)在于不適應(yīng)大規(guī)模的數(shù)據(jù)集,此種情況下決策樹的構(gòu)造會(huì)變得效率低下。
(4) 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng) (Neural Network)的學(xué)習(xí)結(jié)果為目標(biāo)函數(shù),根據(jù)這個(gè)目標(biāo)函數(shù)的輸出作為分類的依據(jù)。輸入即為文本在各個(gè)特征上的各分量值。神經(jīng)網(wǎng)絡(luò)實(shí)際上是一組連接的輸入/輸出單元,其中每一個(gè)連接都具有一定的權(quán)值。通過訓(xùn)練集來(lái)訓(xùn)練的過程就是調(diào)整這些權(quán)值的過程,使得神經(jīng)網(wǎng)絡(luò)可以正確的預(yù)測(cè)類別。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是針對(duì)訓(xùn)練例逐個(gè)進(jìn)行的,所以神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集可以隨時(shí)添加,不需要重新進(jìn)行訓(xùn)練就可完成網(wǎng)絡(luò)的調(diào)整。同時(shí)有實(shí)驗(yàn)結(jié)果表明,在訓(xùn)練例過少的情況下,神經(jīng)網(wǎng)絡(luò)的分類準(zhǔn)確率較低。因?yàn)榭赏ㄟ^訓(xùn)練來(lái)針對(duì)特征取一定的合適的權(quán)值,神經(jīng)網(wǎng)絡(luò)可以較好地抵御噪音的干擾。
(5) K近鄰
K近鄰分類(K-nearest neighbor)的思想也來(lái)源于向量空間模型,同樣采用將文本轉(zhuǎn)化為向量的思想。KNN是一種基于類比的分類方法。在訓(xùn)練的過程中KNN會(huì)生成所有訓(xùn)練例的特征向量,并將其保存下來(lái)。給定一個(gè)未知文本,首先生成它的特征向量,之后KNN會(huì)搜索所有的訓(xùn)練例,通過向量相似度比較從中找出K個(gè)最接近的訓(xùn)練例,然后將未知文本分到這K個(gè)近鄰中最普遍的類別中去。相似度可以通過歐幾里德距離或向量間夾角來(lái)度量。根據(jù)經(jīng)驗(yàn)x一般取45。KNN是一種懶散的方法,即它沒有學(xué)習(xí)過程,只是存放所有的訓(xùn)練例,直到接到未知文本的時(shí)候才建立分類。ON的訓(xùn)練過程較快,而且可以隨時(shí)添加或更新訓(xùn)練例來(lái)調(diào)整。但它分類的開銷會(huì)很大,因?yàn)樾枰艽蟮目臻g來(lái)保存訓(xùn)練例,而且分類效率很差。有看法認(rèn)為在小數(shù)據(jù)集上KNN的表現(xiàn)優(yōu)異。
(6) SVM方法
SVM方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性(即對(duì)特定訓(xùn)練樣本的學(xué)習(xí)精度)和學(xué)習(xí)能力(即無(wú)錯(cuò)誤地識(shí)別任意樣本的能力)之間尋求最佳折中,以期獲得較好的綜合能力。SVM專門針對(duì)有限樣本,其目標(biāo)是得到現(xiàn)有信息下的最優(yōu)解而不僅僅是樣本數(shù)趨于無(wú)窮大時(shí)的最優(yōu)值(KNN和Naive Bayes方法基于樣本數(shù)趨于無(wú)窮大),從理論上說(shuō),SVM得到的將是全局最優(yōu)點(diǎn),從而解決了在神經(jīng)網(wǎng)絡(luò)方法中無(wú)法避免的局部極值問題。此外,SVM將實(shí)際問題通過非線性變換轉(zhuǎn)換到高維的特征空間,在高維空間中構(gòu)造線性判別函數(shù)來(lái)實(shí)現(xiàn)原空間中的非線性判別函數(shù),特殊性質(zhì)能保證機(jī)器有較好的推廣能力,同時(shí)它巧妙地解決了維數(shù)問題,其算法復(fù)雜度與樣本維數(shù)無(wú)關(guān)。
5、網(wǎng)頁(yè)分類方法
一般來(lái)說(shuō),網(wǎng)頁(yè)中對(duì)于分類有作用的部分首先是核心文本,即網(wǎng)頁(yè)中關(guān)于網(wǎng)頁(yè)內(nèi)容的文本部分。其次是結(jié)構(gòu)信息和超鏈接信息,再其次是多媒體信息。多媒體信息的識(shí)別涉及圖像檢索、語(yǔ)音識(shí)別等技術(shù),且目前沒有較好的結(jié)果,因此很少被考慮。我們進(jìn)行網(wǎng)頁(yè)分類的基本思路是:
(1 ) 利用自行研制的網(wǎng)頁(yè)解析器分離出目標(biāo)網(wǎng)頁(yè)的核心純文本。
(2 ) 利用自行研制的分類系統(tǒng)TCS對(duì)目標(biāo)網(wǎng)頁(yè)的核心純文本部分進(jìn)行分詞、特征提取等操作,并產(chǎn)生目標(biāo)網(wǎng)頁(yè)的初始特征向量。
(3) 根據(jù)特征向量進(jìn)行分類,確定目標(biāo)網(wǎng)頁(yè)的類別。
通常采用以下五種標(biāo)準(zhǔn)在不同的方面來(lái)評(píng)價(jià)一個(gè)分類器: (1) 精 度 (precision) (2)查全率(recall) (3) F標(biāo)準(zhǔn)綜合了精度和查全率,將兩者賦予同樣的重要性來(lái)考慮,即 ,其中r代表查全率,p代表精度。這三 個(gè) 標(biāo) 準(zhǔn)都只用于分類器在單個(gè)類別上分類準(zhǔn)確度的評(píng)價(jià)。(4)宏觀平均值(macro-averaged score) (5)微觀平均值(micro-averaged score)。
Web 結(jié)構(gòu)挖掘:
整個(gè)Web 空間中,有用知識(shí)不僅包含在Web頁(yè)面內(nèi)容中, 也包含在Web 頁(yè)間超鏈接結(jié)構(gòu)與Web 頁(yè)面結(jié)構(gòu)之中。挖掘Web 結(jié)構(gòu)的目的是發(fā)現(xiàn)頁(yè)面的結(jié)構(gòu)和Web 間的結(jié)構(gòu),在此基礎(chǔ)上對(duì)頁(yè)面進(jìn)行分類和聚類,從而找到權(quán)威頁(yè)面,這種方法可以用來(lái)改進(jìn)搜索引擎。
在搜索引擎中存貯了數(shù)以億計(jì)的頁(yè)面,很容易得到它們的鏈接結(jié)構(gòu)。需要做到的是尋找一種好的利用鏈接結(jié)構(gòu)來(lái)評(píng)價(jià)頁(yè)面重要性的方法。Page Rank 的基本思想是: 一個(gè)頁(yè)面被多次引用,則這個(gè)頁(yè)面很可能是重要的;一個(gè)頁(yè)面盡管沒有被多次引用,但被一個(gè)重要頁(yè)面引用,該頁(yè)面也可能是很重要的;一個(gè)頁(yè)面的重要性被均分并被傳遞到它所引用的頁(yè)面。在Page Rank方法中,Page Rank被定義為: 設(shè)u為一個(gè)Web頁(yè)。Fu為所有的u指向的頁(yè)面的集合,Bu為所有的指向u的頁(yè)面的集合。設(shè)Nu={Fu}為從u發(fā)出的鏈接的個(gè)數(shù),C(C1)為一個(gè)歸一化的因子(因此所有頁(yè)面的總的Page Rank為一個(gè)常數(shù)),那么u頁(yè)面的Page Rank被定義為(簡(jiǎn)化的版本): 即一 個(gè) 頁(yè) 面的PageRank被分配到所有它所指向的頁(yè)面:每一個(gè)頁(yè)面求和所有指向它的鏈接所帶來(lái)的PageRank得到它的新的PageRank。該公式是一個(gè)遞歸公式,在計(jì)算時(shí)可以從任何一個(gè)頁(yè)面開始,反復(fù)計(jì)算直到其收斂。對(duì)于 搜 索 引擎的鍵值搜索結(jié)果來(lái)說(shuō),PageRank是一個(gè)好的評(píng)價(jià)結(jié)果的方法,查詢的結(jié)果可以按照PageRank從大到小依次排列。
從 we b結(jié) 構(gòu)挖掘的現(xiàn)狀來(lái)看,純粹的網(wǎng)絡(luò)結(jié)構(gòu)挖掘研究很少,多數(shù)是和其它web挖掘形式結(jié)合起來(lái)。主要的研究集中在網(wǎng)絡(luò)虛擬視圖生成與網(wǎng)絡(luò)導(dǎo)航、信息分類與索引結(jié)構(gòu)重組、文本分類、文本重要性確定等幾個(gè)方面。
關(guān)鍵頁(yè)/ 權(quán)威頁(yè)(Hub/ Authority) 方法
頁(yè)面的超鏈接關(guān)系十分復(fù)雜, 例如: 有的鏈接是為了導(dǎo)航, 因此不能簡(jiǎn)單認(rèn)為超鏈接即是引用關(guān)系; 此外由于商業(yè)的需要,很少有頁(yè)面會(huì)把其競(jìng)爭(zhēng)對(duì)手的頁(yè)面作為鏈接。正是由于超鏈接結(jié)構(gòu)中存在著以上的缺陷, 出現(xiàn)了關(guān)鍵頁(yè)/ 權(quán)威頁(yè)方法。關(guān)鍵頁(yè)/ 權(quán)威頁(yè)方法的思想是: Web 上存在著一種重要的頁(yè)面。所謂關(guān)鍵頁(yè)指的是自身不一定為多個(gè)頁(yè)面所鏈接, 但是它的頁(yè)面上存在著就某個(gè)專業(yè)領(lǐng)域而言最重要的站點(diǎn)鏈接。對(duì)于這種關(guān)鍵頁(yè), 它起到了隱含說(shuō)明其他Web文檔頁(yè)面重要性的作用。一個(gè)權(quán)威頁(yè)應(yīng)當(dāng)是被多個(gè)關(guān)鍵頁(yè)所鏈接的, 而一個(gè)關(guān)鍵頁(yè)應(yīng)當(dāng)包含很多權(quán)威頁(yè)的鏈接。將關(guān)鍵頁(yè)與權(quán)威頁(yè)的這種聯(lián)系按照算法計(jì)算出來(lái), 就是關(guān)鍵頁(yè)/ 權(quán)威頁(yè)方法的主要思想。
HITS和Page Rank、以及在鏈接結(jié)構(gòu)中增加了Web內(nèi)容信息的HITS改進(jìn)算法等,主要用于模擬Web站點(diǎn)的拓?fù)浣Y(jié)構(gòu),計(jì)算Web頁(yè)面的等級(jí)和Web頁(yè)面之間的關(guān)聯(lián)度,典型的例子是Clever System和Google.
Web 使用挖掘:
Web 使用挖掘又叫Web 使用記錄挖掘,是指通過挖掘Web 日志記錄來(lái)發(fā)現(xiàn)用戶訪問Web 頁(yè)面的模式??梢酝ㄟ^分析和研究Web 日志記錄中的規(guī)律,來(lái)識(shí)別電子商務(wù)的潛在客戶;可以用基于擴(kuò)展有向樹模型來(lái)識(shí)別用戶瀏覽模式,從而進(jìn)行Web 日志挖掘;可以根據(jù)用戶訪問Web 的記錄挖掘用戶的興趣關(guān)聯(lián)規(guī)則,存放在興趣關(guān)聯(lián)知識(shí)庫(kù)中,作為對(duì)用戶行為進(jìn)行預(yù)測(cè)的依據(jù),從而為用戶預(yù)取一些Web 頁(yè)面,加快用戶獲取頁(yè)面的速度。Web 日志挖掘過程一般分為3 個(gè)階段: 預(yù)處理階段、挖掘算法實(shí)施階段、模式分析階段。Web 服務(wù)器日志記錄了用戶訪問本站點(diǎn)的信息,其中包括IP 地址、請(qǐng)求時(shí)間、方法、被請(qǐng)求文件的URL 、返回碼、傳輸字節(jié)數(shù)、引用頁(yè)的URL 和代理等信息。這些信息中有的對(duì)Web 挖掘并沒有作用,因此要進(jìn)
行數(shù)據(jù)預(yù)處理。預(yù)處理包括數(shù)據(jù)凈化、用戶識(shí)別、事務(wù)識(shí)別等過程。通過對(duì)Web 日志預(yù)處理后,就可以根據(jù)具體的分析需求選擇訪問模式發(fā)現(xiàn)的技術(shù),如路徑分析、關(guān)聯(lián)分析、時(shí)序模式識(shí)別以及分類和聚類技術(shù)等。模式挖掘出來(lái)以后還要進(jìn)行分析,使之得到很好的利用。
常用有兩種方法發(fā)現(xiàn)用戶使用記錄信息。一種方法是通過對(duì)日志文件進(jìn)行分析, 包含兩種方式, 一是訪問前先進(jìn)行預(yù)處理, 即將日志數(shù)據(jù)映射為關(guān)系表并采用相應(yīng)的數(shù)據(jù)挖掘技術(shù), 如關(guān)聯(lián)規(guī)則或聚類技術(shù)來(lái)訪問日志數(shù)據(jù), 二是對(duì)日志數(shù)據(jù)進(jìn)行直接訪問以獲取用戶的導(dǎo)航信息; 另一種是通過對(duì)用戶點(diǎn)擊事件的搜集和分析發(fā)現(xiàn)用戶導(dǎo)航行為。從研究目標(biāo)的角度看, 已有的基于Web 服務(wù)器日志數(shù)據(jù)的研究大致可以分為3 類: ①以分析系統(tǒng)性能為目標(biāo); ②以改進(jìn)系統(tǒng)設(shè)計(jì)為目標(biāo); ③以理解用戶意圖為目標(biāo)。由于各目標(biāo)針對(duì)的功能不同, 采取的主要技術(shù)也不同。用戶使用記錄的挖掘通常要經(jīng)過下面3 個(gè)步驟: ①數(shù)據(jù)預(yù)處理階段。這是使用記錄信息挖掘最關(guān)鍵的階段, 數(shù)據(jù)預(yù)處理包括: 關(guān)于用戶使用記錄的預(yù)處理、關(guān)于內(nèi)容預(yù)處理和結(jié)構(gòu)的預(yù)處理; ②模式識(shí)別階段。該階段采用的方法包括: 統(tǒng)計(jì)法、機(jī)器學(xué)習(xí)和模式識(shí)別等方法。實(shí)現(xiàn)算法可以是: 統(tǒng)計(jì)分析、聚類、分類、關(guān)聯(lián)規(guī)則、序列模式識(shí)別等; ③模式分析階段。該階段的任務(wù)是從上一階段收集的數(shù)據(jù)集中過濾掉不感興趣和無(wú)關(guān)聯(lián)的數(shù)據(jù)及模式。具體的實(shí)現(xiàn)方法要依具體采用Web 挖掘技術(shù)而定,通常采用的方法有兩種: 一種采用SQL 查詢語(yǔ)句進(jìn)行分析; 另外一種將數(shù)據(jù)導(dǎo)人多維數(shù)據(jù)立方體中, 而后利用OLA P 工具進(jìn)行分析并提供可視化的結(jié)構(gòu)輸出。對(duì)挖掘用戶使用記錄的研究早期多采用的是統(tǒng)計(jì)的方法, 當(dāng)用戶通過瀏覽器對(duì)Web 站點(diǎn)進(jìn)行訪問時(shí), 建立統(tǒng)計(jì)模型對(duì)用戶訪問模式進(jìn)行多種簡(jiǎn)單的統(tǒng)計(jì), 如頻繁訪問頁(yè)、單位事件訪問數(shù)、訪問數(shù)據(jù)量隨時(shí)間分布圖等。早期使用的方法為以廣度優(yōu)先算法為主的統(tǒng)計(jì)模型, 還有一種啟發(fā)式的HPG(hypertext probabilistic grammar) 模型用于用戶導(dǎo)航行為的發(fā)現(xiàn), 它也是一種基于統(tǒng)計(jì)的方法, 由于HPG 模型與k 階馬爾可夫模型相當(dāng), 所以近來(lái)也有人提出用馬爾可夫模型挖掘用戶使用記錄。
Web日志的挖掘的方法可以分為 (1)以JiaWei Han為代表的基于數(shù)據(jù)立方體(data cube)的方法:將Web 日志保存為數(shù)據(jù)立方體,然后在其上進(jìn)行數(shù)據(jù)挖掘和OLAP操作;(2)以
Ming-Syan Chen為代表的基于Web 事物的方法:他們首先提出了最大向前引用序列(MFR)的概念,用MFR將用戶會(huì)話分割成一系列的的事務(wù),然后采用與關(guān)聯(lián)規(guī)則相似的方法挖掘頻繁瀏覽路徑。
Web 行為挖掘在電子商務(wù)中得到了廣泛的應(yīng)用, 在對(duì)事務(wù)進(jìn)行了劃分后, 就可以根據(jù)具體的分析需求選擇訪問模式發(fā)現(xiàn)的技術(shù)(路徑分析、關(guān)聯(lián)、規(guī)則挖掘、時(shí)序模式以及聚類和分類技術(shù)等)
Web 使用挖掘中的模式分析,主要是為了在模式發(fā)現(xiàn)算法找到的模式集合中發(fā)現(xiàn)有趣模式。開發(fā)各種Web 分析技術(shù)和工具,可輔助分析人員加深理解并使各種挖掘方法得到的模式獲得充分利用。如Webwiz (pitkow) 系統(tǒng)可將www 的訪問模式可視化;Webminer則采用類SQL 語(yǔ)言的知識(shí)查詢機(jī)制;另外也可以利用存儲(chǔ)Web 使用數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù),采用OLAP 方法發(fā)現(xiàn)數(shù)據(jù)中的特定模式。
6、Web 數(shù)據(jù)挖掘的四個(gè)步驟:
1、 查找資源: 任務(wù)是從目標(biāo)W e b文檔中得到數(shù)據(jù)。 2、 信息選擇和預(yù)處理: 任務(wù)是從取得的W e b 資源中剔除無(wú)用信息和將信息進(jìn)行必要的整理。3 、模式發(fā)現(xiàn): 自動(dòng)進(jìn)行模式發(fā)現(xiàn)??梢栽谕粋€(gè)站點(diǎn)內(nèi)部或在多個(gè)站點(diǎn)之間進(jìn)行。4、模式分析: 驗(yàn)證、解釋上一步驟產(chǎn)生的模式。
7、Web 挖掘在Internet 上有非常廣泛的應(yīng)用,比較常見的有:
(1) 幫助尋找用戶感興趣的新聞或其他信息以在Web 站點(diǎn)中提供個(gè)性化服務(wù),吸引更多用戶。
(2) 在搜索引擎上對(duì)文檔進(jìn)行自動(dòng)分類從而降低在搜索引擎上為組織整理Internet 文檔所需消耗的人力資源,也可以對(duì)Web 頁(yè)面進(jìn)行排序,改進(jìn)搜索引擎。
(3) Web 日志挖掘在電子商務(wù)領(lǐng)域有很廣闊的應(yīng)用前景,如發(fā)現(xiàn)顧客的購(gòu)買習(xí)慣和瀏覽興趣所在,有針對(duì)性調(diào)整銷售模式,提高業(yè)務(wù)量。
8、通常Web挖掘可以分為3個(gè)子任務(wù):資源發(fā)現(xiàn)、信息提取、概括。
·資源發(fā)現(xiàn):是指從Web上搜索可用的信息;
·信息提?。菏菑囊呀?jīng)發(fā)現(xiàn)的資源中提取出有用的信息。對(duì)于文本信息而言,不僅要考慮文本內(nèi)容,而且也要考慮文本的結(jié)構(gòu);
·概括:是對(duì)Web信息自學(xué)習(xí)的過程,通過學(xué)習(xí)抽取一定的規(guī)則。
一般來(lái)說(shuō),Web挖掘的數(shù)據(jù)來(lái)源途徑有兩個(gè):搜索引擎的結(jié)果集和Web上的在線信息。這兩種方式各有所長(zhǎng),需要視具體的應(yīng)用而定。目前,已經(jīng)有幾種資源發(fā)現(xiàn)模型廣泛應(yīng)用于Internet上:目錄/瀏覽模型(WAIS and Gopher)、檢索模型(Archie and AltaVista)、超立方體(Yahoo and Excite)。許多資源發(fā)現(xiàn)工具大都采用了基于Robot的檢索模型,這種方法掃描Web上的所有文檔,并建立索引,但它同時(shí)也將一些不相關(guān)的信息和過時(shí)的信息包含進(jìn)來(lái)。
9、Web挖掘的發(fā)展方向:
目前,在國(guó)內(nèi)外Web 挖掘的研究處于剛起步階段,是前沿性的研究領(lǐng)域。將來(lái)幾個(gè)非常有用的研究方向是:
(1)Web 數(shù)據(jù)挖掘中內(nèi)在機(jī)理的研究;
(2)Web 知識(shí)庫(kù)(模式庫(kù))的動(dòng)態(tài)維護(hù)、更新,各種知識(shí)和模式的融合、提升,以及知識(shí)的評(píng)價(jià)綜合方法;
(3)半結(jié)構(gòu)、非結(jié)構(gòu)化的文本數(shù)據(jù)、圖形圖像數(shù)據(jù)、多媒體數(shù)據(jù)的高效挖掘算法;
(4)Web數(shù)據(jù)挖掘算法在海量數(shù)據(jù)挖掘時(shí)的適應(yīng)性和時(shí)效性;
(5)基于Web挖掘的智能搜索引擎的研究;
(6)智能站點(diǎn)服務(wù)個(gè)性化和性能最優(yōu)化的研究;
(7)關(guān)聯(lián)規(guī)則和序列模式在構(gòu)造自組織站點(diǎn)的研究;
(8)分類在電子商務(wù)市場(chǎng)智能提取中的研究。
10、研究意義和方向:
路徑模式挖掘
在Web中,文檔通過超鏈連接便于用戶瀏覽,用戶為尋找信息經(jīng)常通過超鏈從一個(gè)頁(yè)面跳到另一個(gè)頁(yè)面。捕捉用戶瀏覽路徑稱為Path analysis。理解用戶瀏覽路徑有助于改進(jìn)系統(tǒng)設(shè)計(jì),而且有助于作出更好的市場(chǎng)決策,例如在適當(dāng)?shù)捻?yè)面出增加廣告.
Web中的智能查詢
數(shù)字 時(shí)代 的圖書館并不是一個(gè)有組織的信息倉(cāng)庫(kù),而更象一個(gè)又一個(gè)雜亂無(wú)章的信息倉(cāng)庫(kù),Web中的智能查詢包括以下三個(gè)方面:1)資源發(fā)現(xiàn):重點(diǎn)是自動(dòng)生成可查找的索引。2)信息抽取:發(fā)現(xiàn)了資源后,下一個(gè)任務(wù)就是進(jìn)行信息的自動(dòng)抽取。3)信息歸納:利用分類技術(shù)可自動(dòng)組織和管理數(shù)據(jù),也可以發(fā)現(xiàn)用戶感興趣的模式。
Web智能工具
We b上 的 用戶需要借助與軟件系統(tǒng)來(lái)抽取、定位和管理Web文檔,才能跟上信息的改變速度。這種軟件系統(tǒng)叫做Web工具.現(xiàn)有的Web工具缺乏識(shí)別和使用深層語(yǔ)義的能力,查詢語(yǔ)言描述能力有限。新一代 的 智能Web工具,利用智能Agent幫助用戶發(fā)現(xiàn)新的信息。它可以自動(dòng)地獲取用戶的興趣主題,發(fā)現(xiàn)用戶的瀏覽模式和信息資源的修改模式。能更有效地利用網(wǎng)絡(luò)資源,將多個(gè)用戶的查詢要求聚成組,減少查詢次數(shù)。將抽取的文檔及其全文索引保存在數(shù)據(jù)庫(kù)中,并發(fā)現(xiàn)各種有用的模式。
提高網(wǎng)絡(luò)響應(yīng)速度
傳統(tǒng) 解 決 網(wǎng)絡(luò)響應(yīng)速度慢的途徑,一般都基于客戶端:如優(yōu)化傳輸,減少阻塞;根據(jù)預(yù)測(cè),預(yù)先傳輸某些頁(yè)面。在服務(wù)器端利用關(guān)聯(lián)規(guī)則挖掘,不僅可以提高網(wǎng)絡(luò)的響應(yīng)速度而且可以有效地調(diào)度網(wǎng)絡(luò)代理的緩存。當(dāng)用戶瀏覽某個(gè)頁(yè)面時(shí),網(wǎng)絡(luò)代理可根據(jù)關(guān)聯(lián)規(guī)則預(yù)先下載與該頁(yè)面相關(guān)聯(lián)的頁(yè)面,即用戶很可能訪問到的頁(yè)面,從而提高網(wǎng)絡(luò)的響應(yīng)速度,因?yàn)殛P(guān)聯(lián)規(guī)則是基于統(tǒng)計(jì)規(guī)律的,反映了大多數(shù)用戶的興趣。
11、基于Web挖掘的個(gè)性化技術(shù)的發(fā)展
(1) 與人工智能技術(shù)的結(jié)合
個(gè)性化系統(tǒng)領(lǐng)域的許多問題最終都可歸結(jié)到機(jī)器學(xué)習(xí)、知識(shí)發(fā)現(xiàn)等問題上。用戶建模過程用通常都應(yīng)用到代理和多代理技術(shù)。因此人工智能技術(shù)與Web挖掘技術(shù)的結(jié)合將會(huì)促進(jìn)Web個(gè)性化系統(tǒng)的飛速發(fā)展。
(2) 與交互式多媒體Web技術(shù)的結(jié)合
隨著下一代Internet技術(shù)的飛速發(fā)展與應(yīng)用,未來(lái)的Web的將是多媒體的世界。Web個(gè)性化技術(shù)和Web多媒體系統(tǒng)結(jié)合出現(xiàn)了交互式個(gè)性化多媒體Web系統(tǒng)。支持海量多媒體數(shù)據(jù)流的內(nèi)容挖掘?qū)⒊蔀閃eb挖掘技術(shù)的基本功能之一。由于這種基于內(nèi)容的交互式個(gè)性化多媒體Web系統(tǒng)更能滿足用戶需要,因此也將成為Web個(gè)性化系統(tǒng)的發(fā)展方向之一。
(3) 與數(shù)據(jù)庫(kù)等技術(shù)的結(jié)合
12、數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的發(fā)展方向:
1、挖掘算法的效率和可擴(kuò)放性。目前數(shù)據(jù)庫(kù)數(shù)據(jù)量大,維數(shù)高,使得數(shù)據(jù)挖掘的搜索空間增大,發(fā)現(xiàn)知識(shí)的盲目性提高。如何充分利用領(lǐng)域的知識(shí),剔除與發(fā)現(xiàn)任務(wù)無(wú)關(guān)的數(shù)據(jù),有效地降低問題的維數(shù),設(shè)計(jì)出高效率的知識(shí)發(fā)現(xiàn)算法是下一步發(fā)展的重點(diǎn)。
2、數(shù)據(jù)的時(shí)序性。在應(yīng)用領(lǐng)域的數(shù)據(jù)庫(kù)中,數(shù)據(jù)在不斷地更新,隨著時(shí)間的推移,原先發(fā)現(xiàn)的知識(shí)將不再有用,我們需要隨時(shí)間逐步修正發(fā)現(xiàn)模式來(lái)指導(dǎo)新的發(fā)現(xiàn)過程。
3、和其它系統(tǒng)的集成。知識(shí)發(fā)現(xiàn)系統(tǒng)應(yīng)該是數(shù)據(jù)庫(kù)、知識(shí)庫(kù)、專家系統(tǒng)、決策支持系統(tǒng)、可視化工具、網(wǎng)絡(luò)等多相技術(shù)集成的系統(tǒng)。
4、交互性。可以利用貝葉斯確定數(shù)據(jù)的可能性及其分布來(lái)利用以前的知識(shí),再就是利用演繹數(shù)據(jù)庫(kù)本身的演繹能力發(fā)現(xiàn)知識(shí),并用于指導(dǎo)知識(shí)發(fā)現(xiàn)的過程。
5、發(fā)現(xiàn)模式的精煉??梢岳妙I(lǐng)域知識(shí)進(jìn)一步提煉發(fā)現(xiàn)模式,從中提取有用的知識(shí)。
6、互聯(lián)網(wǎng)上知識(shí)的發(fā)現(xiàn)。WWW正日益普及,從中可以找到很多新的知識(shí),已有一些資源發(fā)現(xiàn)工具來(lái)發(fā)現(xiàn)含有關(guān)鍵字的文本,但對(duì)在WWW上發(fā)現(xiàn)知識(shí)的研究不多。加拿大的HAN等人提出利用多層次結(jié)構(gòu)化的方法,通過對(duì)原始數(shù)據(jù)的一般化,構(gòu)造出多層次的數(shù)據(jù)庫(kù)。例如可將WWW上的圖象描述而不是圖像本身存儲(chǔ)在高層數(shù)據(jù)庫(kù)中?,F(xiàn)在的問題是如何從復(fù)雜的數(shù)據(jù)(例如多媒體數(shù)據(jù))中提取有用的信息,對(duì)多層數(shù)據(jù)庫(kù)的維護(hù),如何處理數(shù)據(jù)的異類性和自主性等等。
13、文本挖掘面臨許多新的研究課題:
( 1) 文本挖掘算法的可擴(kuò)展性問題Internet 的發(fā)展, 電子商務(wù)和數(shù)字圖書館的興起和廣泛應(yīng)用, 永久存儲(chǔ)設(shè)備價(jià)格的不斷降低, 所有這些都使得各單位儲(chǔ)存的文本信息規(guī)??涨褒嫶?。要對(duì)如此之大的文本集合進(jìn)行處理, 必須有快速高效的文本挖掘算法。
( 2) 文本表示文本挖掘處理的是自然語(yǔ)言表示的文本, 是無(wú)結(jié)構(gòu)或半結(jié)構(gòu)化數(shù)據(jù), 缺乏計(jì)算機(jī)可理解的含義, 在進(jìn)行文本挖掘之前,需要對(duì)文本進(jìn)行預(yù)處理及特征提取, 將其表示為計(jì)算機(jī)可讀的一種中間形式。目前, 雖然自然語(yǔ)言處理領(lǐng)域的研究已取得較大進(jìn)展, 但還沒有一種能夠完全表示文本語(yǔ)義的中間形式。對(duì)于不同的挖掘目的, 需要使用不同復(fù)雜度的中間表示形式。對(duì)于細(xì)粒度的、領(lǐng)域特定的知識(shí)發(fā)現(xiàn)任務(wù), 需要進(jìn)行語(yǔ)義分析, 以得到足夠豐富的表示, 抓住文本中對(duì)象或概念之間的關(guān)系。但是語(yǔ)義分析計(jì)算量大, 如何更快速地進(jìn)行語(yǔ)義分析并且對(duì)于大文本集合具有可擴(kuò)展性是一個(gè)挑戰(zhàn)性的問題。
( 3) 跨語(yǔ)言問題由于自然語(yǔ)言的多樣性, 各種語(yǔ)言各有其特點(diǎn),在一種語(yǔ)言中有效的文本挖掘功能卻很可能不適用于其它語(yǔ)言, 尤其是印歐語(yǔ)系語(yǔ)言與漢語(yǔ)之間。并且隨著經(jīng)濟(jì)的全球化, 待處理的文本集合中可能存在多種語(yǔ)言寫成的文本, 因此, 文本挖掘功能要考慮到多種語(yǔ)言之間的語(yǔ)義轉(zhuǎn)換。
( 4) 算法的選擇面對(duì)多種多樣的文本挖掘算法, 不同算法各有其特點(diǎn), 如何從中選擇一個(gè)合適的算法是一個(gè)尚待研究的問題。因?yàn)樽鳛橐话阌脩魜?lái)說(shuō), 他們很難搞懂每個(gè)算法的原理和要求。
( 5) 算法運(yùn)行中參數(shù)的設(shè)定很多算法運(yùn)行時(shí)需要用戶設(shè)定參數(shù), 有些參數(shù)的含義較難理解, 因而也很難正確設(shè)定。如何讓算法自動(dòng)地選擇相對(duì)較好的參數(shù)值, 并且在算法運(yùn)行的過程中自行調(diào)節(jié)參數(shù)的取值, 是很多算法能否被廣大使用的一個(gè)關(guān)鍵問題。
( 6) 模式的理解和可視化顯示文本挖掘算法所發(fā)現(xiàn)的知識(shí)模式形式多樣。提高這些模式的可理解性也是研究者們不得不面對(duì)的問題。提高可理解性的解決方法通常包括以圖形方式顯示結(jié)果, 提供相對(duì)少量的規(guī)則, 或者生成自然語(yǔ)言以及利用可視化技術(shù)等。而目前的文本挖掘系統(tǒng), 其面對(duì)的用戶大多是有經(jīng)驗(yàn)的專家, 一般用戶很難使用。
( 7) 領(lǐng)域的知識(shí)集成當(dāng)前的文本挖掘系統(tǒng)大都未采用領(lǐng)域知識(shí)。領(lǐng)域知識(shí)很有用, 它可以提高文本分析效率, 有助于取得更緊湊的表示形式等, 因此, 可以考慮把領(lǐng)域知識(shí)集成到文本挖掘系統(tǒng)中。
( 8) 中文文本分詞技術(shù)在印歐語(yǔ)系語(yǔ)言中, 詞與詞之間有空格作為固定的分隔符, 因此很容易進(jìn)行分詞。而在中文中, 詞與詞之間沒有分隔符, 一個(gè)句子是由一串連續(xù)的漢字組成, 加之漢語(yǔ)中的詞具有不同的長(zhǎng)度, 相同的字可出現(xiàn)在許多不同的詞中, 還有許多詞由單個(gè)字組成, 這使得對(duì)中文文本進(jìn)行正確分詞面臨較多挑戰(zhàn)。
盡管文本挖掘領(lǐng)域還存在許多亟待解決的問題, 但是在需求的強(qiáng)烈推動(dòng)下, 許多計(jì)算機(jī)廠商紛紛推出文本挖掘軟件, 典型的應(yīng)用領(lǐng)域包括將文本挖掘應(yīng)用于網(wǎng)站管理, 信息分流和過濾; 應(yīng)用于市場(chǎng)管理,質(zhì)量管理和顧客關(guān)系管理以及利用文本挖掘技術(shù)發(fā)現(xiàn)的知識(shí)引導(dǎo)投資的方向, 預(yù)測(cè)股票行情等。這些成功的案例都已經(jīng)給許多人帶來(lái)了可觀的經(jīng)濟(jì)利潤(rùn)。
14、搜索結(jié)果處理
對(duì)搜索引擎返回的結(jié)果進(jìn)行挖掘可提供給用戶更為準(zhǔn)確的查詢結(jié)果。如WebSQL 系統(tǒng)訪問搜索引擎獲取文檔,并從文檔內(nèi)部采集URL 標(biāo)題、內(nèi)容類型、內(nèi)容長(zhǎng)度、修改日期及鏈接等信息。而類SQL聲明式語(yǔ)言則提出了從搜索結(jié)果中獲取相關(guān)文檔的能力。
基于加權(quán)統(tǒng)計(jì)的Web搜索結(jié)果挖掘?qū)崿F(xiàn)智能元搜索引擎的結(jié)果去雜和排序。
個(gè)性化服務(wù)系統(tǒng)根據(jù)其所采用的信息推薦技術(shù)可以分為兩種:基于規(guī)則的系統(tǒng)和信息過濾系統(tǒng)。信息過濾系統(tǒng)又可分為基于內(nèi)容過濾的系統(tǒng)和協(xié)作過濾系統(tǒng)。基于規(guī)則的系統(tǒng)允許系統(tǒng)管理員根據(jù)用戶的靜態(tài)特征和動(dòng)態(tài)屬性來(lái)制定規(guī)則,一個(gè)規(guī)則本質(zhì)上是一個(gè)If-Then語(yǔ)句,規(guī)則決定了在不同的情況下如何提供不同的服務(wù)。基于規(guī)則的系統(tǒng)其優(yōu)點(diǎn)是簡(jiǎn)單、直接,缺點(diǎn)是規(guī)則質(zhì)量很難保證,而且不能動(dòng)態(tài)更新,此外,隨著規(guī)則的數(shù)量增多,系統(tǒng)將變得越來(lái)越難以管理。基于內(nèi)容過濾的系統(tǒng)利用資源與用戶興趣的相似性來(lái)過濾信息。基于內(nèi)容過濾的系統(tǒng)其優(yōu)點(diǎn)是簡(jiǎn)單、有效,缺點(diǎn)是難以區(qū)分資源內(nèi)容的品質(zhì)和風(fēng)格,而且不能為用戶發(fā)現(xiàn)新的感興趣的資源,只能發(fā)現(xiàn)和用戶己有興趣相似的資源。協(xié)作過濾系統(tǒng)利用用戶之間的相似性來(lái)過濾信息,基于協(xié)作過濾系統(tǒng)的優(yōu)點(diǎn)是能為用戶發(fā)現(xiàn)新的感興趣的信息,缺點(diǎn)是存在兩個(gè)很難解決的問題,一個(gè)是稀疏性,亦即在系統(tǒng)使用初期,由于系統(tǒng)資源還未獲得足夠多的評(píng)價(jià),系統(tǒng)很難利用這些評(píng)價(jià)來(lái)發(fā)現(xiàn)相似的用戶。另一個(gè)是可擴(kuò)展性,亦即隨著系統(tǒng)用戶和資源的增多,系統(tǒng)的性能會(huì)越來(lái)越低。還有一些個(gè)性化服務(wù)系統(tǒng)同時(shí)采用了基于內(nèi)容過濾和協(xié)作過濾這兩種技術(shù)結(jié)合這兩種過濾技術(shù)可以克服各自的一些缺點(diǎn),為了克服協(xié)作過濾的稀疏性問題,可以利用用戶瀏覽過的資源內(nèi)容預(yù)期用戶對(duì)其他資源的評(píng)價(jià),這樣可以增加資源評(píng)價(jià)的密度,利用這些評(píng)價(jià)再進(jìn)行協(xié)作過濾,從而提高協(xié)作過濾的性能。
網(wǎng)頁(yè)推薦算法
假定 網(wǎng)頁(yè)集為I={},當(dāng)前滑動(dòng)窗口W={pl,p2,... pm, |W|=m。從Web日志中挖掘的關(guān)聯(lián)規(guī)則集為R={X=>Y|X,Y屬于I且|Y|=1},假設(shè)客戶本次訪問的網(wǎng)頁(yè)序列為
,其中pi是一個(gè)URL,任意兩個(gè)URL都互不相同。設(shè)挖掘出的關(guān)聯(lián)規(guī)則集為R={X->Y, s},活動(dòng)窗口的大小為s,活動(dòng)窗口為:W=,其中(n-m)=s ,那么推薦算法的原理為:從R中查找這樣的規(guī)則:規(guī)則的前端與w匹配的最好,然后將規(guī)則的后端推薦給客戶。具體算法如下:
三、相關(guān)應(yīng)用論文
Web 挖掘及其在競(jìng)爭(zhēng)情報(bào)系統(tǒng)的應(yīng)用
介紹了Web 挖掘的分類、特點(diǎn)和實(shí)現(xiàn)技術(shù), 并對(duì)Web 挖掘在競(jìng)爭(zhēng)情報(bào)系統(tǒng)中的應(yīng)用進(jìn)行了闡述。
Web 挖掘技術(shù)在電子商務(wù)中的應(yīng)用研究
基于國(guó)內(nèi)外最新研究成果對(duì)電子商務(wù)中應(yīng)用的Web 挖掘技術(shù)進(jìn)行了研究。對(duì)于個(gè)性化電子商務(wù)網(wǎng)站中難以發(fā)現(xiàn)用戶行為特征問題,給出了基于Web 日志的客戶群體聚類算法及Web 頁(yè)面聚類算法。利用這些Web 挖掘技術(shù)可有效挖掘用戶個(gè)性特征,從而指導(dǎo)電子商務(wù)網(wǎng)站資源的組織和分配。電子商務(wù)中利用Web 日志的聚類算法: 客戶群體的模糊聚類算法, K-Paths 聚類方法,客戶群體聚類的Hamming 距離算法,神經(jīng)網(wǎng)絡(luò)方法,基于模糊理論的Web 頁(yè)面聚類算法,Web 頁(yè)面聚類的Hamming 距離算法,
Web 挖掘技術(shù)在搜索引擎中的應(yīng)用
對(duì)于搜索引擎而言, 通過借鑒Web 挖掘技術(shù), 可以提高查準(zhǔn)率與查全率, 改善檢索結(jié)果的組織, 增強(qiáng)檢索用戶的模式研究, 從而使得檢索效率得到改善。
Web挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
介紹了Web挖掘理論,包括Web挖掘定義、Web挖掘任務(wù)、Web挖掘分類3個(gè)方面,并簡(jiǎn)單介紹了實(shí)現(xiàn)Web文本挖掘系統(tǒng)WTMiner (Web Text Miner)的幾個(gè)關(guān)鍵技術(shù):分詞,特征提取,分類器的設(shè)計(jì)。在分詞中采用了支持首字Hash和二分查找從而提高了分詞速度,分類器的設(shè)計(jì)中考慮到SVM的訓(xùn)練算法速度慢的缺點(diǎn),用近鄰法以減少訓(xùn)練樣本集中樣本的數(shù)量,從而大大提高了算法速度。
Web 挖掘在網(wǎng)絡(luò)營(yíng)銷中的應(yīng)用研究
闡述了網(wǎng)絡(luò)營(yíng)銷的特點(diǎn)和Web 挖掘的概念,并探討了如何將Web 挖掘技術(shù)應(yīng)用于網(wǎng)絡(luò)營(yíng)銷,介紹了一種客戶群體和Web 頁(yè)面的模糊聚類算法。
Web 文本數(shù)據(jù)挖掘關(guān)鍵技術(shù)及其在網(wǎng)絡(luò)檢索中的應(yīng)用
在分析Web 文本信息特征的基礎(chǔ)上,揭示了Web 文本數(shù)據(jù)挖掘的目標(biāo)樣本的特征提取、分詞處理與Web 文本分類等關(guān)鍵技術(shù),以Google 為例討論了該技術(shù)在網(wǎng)絡(luò)信息檢索中的應(yīng)用。
電子商務(wù)公共服務(wù)平臺(tái)下的Web挖掘系統(tǒng)研究
針對(duì)我國(guó)電子商務(wù)的發(fā)展現(xiàn)狀,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到提高電子商務(wù)公共服務(wù)平臺(tái)的服務(wù)質(zhì)量上來(lái),設(shè)計(jì)了電子商務(wù)公共服務(wù)平臺(tái)下的Web挖掘系統(tǒng),并提出了系統(tǒng)的評(píng)價(jià)指標(biāo)體系,為電子商務(wù)公共服務(wù)平臺(tái)和我國(guó)電子商務(wù)的發(fā)展提供了一種新的思路和方法。研究了電子商務(wù)公共服務(wù)平臺(tái)下的Web挖掘系統(tǒng)中點(diǎn)擊流預(yù)處理及利用XML解決電子商務(wù)異構(gòu)數(shù)據(jù)源集成的問題。
多關(guān)系數(shù)據(jù)挖掘研究綜述
多關(guān)系數(shù)據(jù)挖掘是近年來(lái)快速發(fā)展的重要的數(shù)據(jù)挖掘領(lǐng)域之一。傳統(tǒng)的數(shù)據(jù)挖掘方法只能完成單一關(guān)系中的模式發(fā)現(xiàn),多關(guān)系數(shù)據(jù)挖掘能夠從復(fù)雜結(jié)構(gòu)化數(shù)據(jù)中發(fā)現(xiàn)涉及多個(gè)關(guān)系的復(fù)雜模式。該文綜述了多關(guān)系數(shù)據(jù)挖掘的研究狀況。首先分析了多關(guān)系數(shù)據(jù)挖掘領(lǐng)域發(fā)生的原因和背景,其次總結(jié)了多關(guān)系數(shù)據(jù)挖掘研究的一般方法,然后介紹、分析了最具代表性的多關(guān)系數(shù)據(jù)挖掘算法。最后總結(jié)了多關(guān)系數(shù)據(jù)挖掘?qū)?lái)發(fā)展需重點(diǎn)解決的問題和面臨的挑戰(zhàn)。
分詞技術(shù)研究及其在Web文本挖掘中的應(yīng)用
本文闡述了漢語(yǔ)自動(dòng)分詞技術(shù)在中文Web文本挖掘中的應(yīng)用,對(duì)有關(guān)理論進(jìn)行了論述,討論了Web文本挖掘系統(tǒng)的結(jié)構(gòu)和技術(shù).本文的工作集中在以下幾點(diǎn):
(1 )研究的重點(diǎn)在于中文關(guān)鍵信息提取,其中的難點(diǎn)就是中文自動(dòng)分詞。本文重點(diǎn)討論的算法是基于自動(dòng)建立詞庫(kù)的最佳匹配方法來(lái)進(jìn)行中文分詞,同時(shí)采用基于改進(jìn)型馬爾可夫N元語(yǔ)言模型的統(tǒng)計(jì)處理方法來(lái)處理分詞中出現(xiàn)的歧義問題,從而提高精度。
(2 )基于特定的分詞系統(tǒng),設(shè)計(jì)了相應(yīng)的分詞詞典,該分詞詞典支持詞條首字快速查找算法,并應(yīng)用于Web挖掘系統(tǒng)中,分析結(jié)果表明,此分詞方法在處理速度上,還是歧義處理上都有較大提高。
(3 )在未登錄詞識(shí)別方面,引入決策樹方法,使得未登錄詞識(shí)別能力有一定提高。
(4 )在分詞的切分排歧方面,我們采取了一種基于N一最短路徑的策略。在分詞早期階段召回N個(gè)最佳結(jié)果作為候選集,目的是覆蓋盡可能多的歧義字段,最終的結(jié)果會(huì)在完成識(shí)別之后從N個(gè)最有潛力的候選結(jié)果中選優(yōu)得到。
(5 )針對(duì)其他算法對(duì)系統(tǒng)資源占用比較大的問題,采取了改進(jìn)分詞算法中用到的數(shù)據(jù)結(jié)構(gòu),精簡(jiǎn)字典文件等方法。收效最明顯的做法是:將程序運(yùn)行賽程所需要的各種數(shù)據(jù)文件建成一個(gè)索引文件,大大節(jié)省了程序運(yùn)行時(shí)所需內(nèi)存空間, 并且大大提高了分詞處理速度。
基于Web使用挖掘的個(gè)性化服務(wù)系統(tǒng)
個(gè)性化服務(wù)系統(tǒng)是一種由多種WEB挖掘技術(shù)構(gòu)成的基于用戶使用的站點(diǎn)個(gè)性化系統(tǒng)。該系統(tǒng)使用事務(wù)聚類、使用聚類和關(guān)聯(lián)規(guī)則技術(shù)等數(shù)據(jù)挖掘技術(shù)分析用戶訪問模式,并結(jié)合用戶當(dāng)前訪問情況提供實(shí)時(shí)化個(gè)性服務(wù)。實(shí)驗(yàn)結(jié)果說(shuō)明,個(gè)性化服務(wù)系統(tǒng)具有較好的性能。
基于Web挖掘的智能門戶搜索引擎的研究
搜索引擎是人們?cè)贗nternet上快速獲得信息的重要工具之一,但是由于中文自身的特點(diǎn),使得檢索結(jié)果的準(zhǔn)確性和相關(guān)性不是很高,將Web挖掘技術(shù)應(yīng)用到搜索引擎領(lǐng)域,從而產(chǎn)生智能搜索引擎,將會(huì)給用戶提供一個(gè)高效、準(zhǔn)確的Web檢索工具。文章首先介紹了搜索引擎的工作原理和相關(guān)概念,然后介紹了Web挖掘的定義、分類和應(yīng)用。最后,詳細(xì)討論了Web挖掘技術(shù)在智能搜索引擎的重要應(yīng)用。
基于Web挖掘技術(shù)的信息檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
詳細(xì)介紹了一個(gè)基于Web文本挖掘技術(shù)的信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)?;赪eb文本挖掘技術(shù)的信息檢索技術(shù)融合了文本挖掘的思想,它將單一的資源發(fā)現(xiàn)或者單一的信息提取的傳統(tǒng)信息檢索方法結(jié)合起來(lái),從而達(dá)到在WWW發(fā)現(xiàn)資源并將其中的信息提取出來(lái)進(jìn)行處理的目的。
基于XML的Web數(shù)據(jù)挖掘技術(shù)
在經(jīng)濟(jì)全球化形勢(shì)下,充分利用Web資源,從中挖掘出有決策意義的信息,對(duì)企業(yè)的自主發(fā)展有著不可估量的意義。本文在分析了Web數(shù)據(jù)挖掘技術(shù)的難點(diǎn)后,根據(jù)互聯(lián)網(wǎng)技術(shù)的發(fā)展趨勢(shì),介紹了基于XML的Web數(shù)據(jù)挖掘技術(shù)并提出了一個(gè)基于XML的評(píng)判信息數(shù)據(jù)挖掘系統(tǒng)的實(shí)現(xiàn)框架。
基于XML的個(gè)性化Web內(nèi)容挖掘研究
基于XML的Web內(nèi)客挖掘逐漸成為Web數(shù)據(jù)挖掘的重要研究課題。論文定義了用戶模型,通過三種途徑建立用戶模型。將XML和個(gè)性化技術(shù)應(yīng)用到Web內(nèi)容挖掘,設(shè)計(jì)了一個(gè)基于XML的個(gè)性化Web內(nèi)容挖掘系統(tǒng)(PWCMS).并討論了PWCMS的關(guān)鍵技術(shù)及實(shí)現(xiàn)。實(shí)踐證明,將XML和個(gè)性化技術(shù)應(yīng)用到Web內(nèi)容挖掘是有效的。
基于數(shù)據(jù)挖掘的Web個(gè)性化信息推薦系統(tǒng)
基于數(shù)據(jù)挖掘的Web個(gè)性化信息推薦日益成為一個(gè)重要的研究課題。文章設(shè)計(jì)了一個(gè)基于數(shù)據(jù)挖掘的Web個(gè)性化信息推薦系統(tǒng)(WBIRS)在WBIRS中"提出了推薦策略"在推薦策略中考慮針對(duì)不同類型的用戶采用不同的推薦算法。根據(jù)用戶是否有新穎信息的需求WBIRS采用了兩種推薦算法。
基于搜索引擎的知識(shí)發(fā)現(xiàn)
數(shù)據(jù)挖掘一般用于高度結(jié)構(gòu)化的大型數(shù)據(jù)庫(kù),以發(fā)現(xiàn)其中所蘊(yùn)含的知識(shí)。隨著在線文本的增多,其中所蘊(yùn)含的知識(shí)也越來(lái)越豐富,但是,它們卻難以被分析利用。因而。研究一套行之有效的方案發(fā)現(xiàn)文本中所蘊(yùn)含的知識(shí)是非常重要的,也是當(dāng)前重要的研究課題。該文利用搜索引擎GOOGLE獲取相關(guān)Web 頁(yè)面,進(jìn)行過濾和清洗后得到相關(guān)文本,然后,進(jìn)行文本聚類,利用Episode進(jìn)行事件識(shí)別和信息抽取,數(shù)據(jù)集成及數(shù)據(jù)挖掘,從而實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)。最后給出了原型系統(tǒng),對(duì)知識(shí)發(fā)現(xiàn)進(jìn)行實(shí)踐檢驗(yàn),收到了很好的效果。
數(shù)據(jù)抽取及語(yǔ)義分析在Web 數(shù)據(jù)挖掘中的應(yīng)用
把復(fù)雜的網(wǎng)絡(luò)站點(diǎn)作為多個(gè)業(yè)務(wù)數(shù)據(jù)源,采用數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)挖掘技術(shù),從中抽取并凈化數(shù)據(jù)到挖掘數(shù)據(jù)庫(kù),從而將數(shù)據(jù)抽取及語(yǔ)義分析應(yīng)用于Web 數(shù)據(jù)挖掘中。在此基礎(chǔ)上又提出了運(yùn)用數(shù)據(jù)抽取進(jìn)行數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換并把語(yǔ)義分析技術(shù)應(yīng)用到數(shù)據(jù)抽取的過程中的思想,使數(shù)據(jù)提取更加準(zhǔn)確。
文本挖掘中運(yùn)用自組織特征映射算法分析中國(guó)人類工效學(xué)研究狀況
文本挖掘是抽取有效、新穎、有用、可理解的、散布在文本文件中的有價(jià)值知識(shí), 并且利用這些知識(shí)更好地組織信息的過程。利用文本挖掘中的自組織特征映射( SOM)算法,對(duì)中國(guó)《人類工效學(xué)》期刊數(shù)據(jù)庫(kù)的大量文檔進(jìn)行聚類分析,得到當(dāng)前國(guó)內(nèi)人類工效學(xué)研究領(lǐng)域里的主要研究類別、趨勢(shì),然后將聚類結(jié)果與國(guó)際人類工效學(xué)協(xié)會(huì)( IEA)公布的研究領(lǐng)域進(jìn)行對(duì)比分析。
現(xiàn)代遠(yuǎn)程教育個(gè)性化Web挖掘研究
從Web上異質(zhì)的、非結(jié)構(gòu)化的數(shù)據(jù)中發(fā)現(xiàn)有用的知識(shí)或者模式是目前數(shù)據(jù)挖掘研究中的一個(gè)重要內(nèi)容。Web挖掘就是從Web文檔和Web活動(dòng)中抽取感興趣的、潛在的有用模式和隱藏的信息。介紹了Web挖掘基本情況,在此基礎(chǔ)上對(duì)基于Web的文本挖掘進(jìn)行了分析研究,給出了一個(gè)基于Web的文本挖掘的結(jié)構(gòu)模型圖。重點(diǎn)介紹了網(wǎng)頁(yè)聚類算法,實(shí)現(xiàn)了遠(yuǎn)程教學(xué)的按需學(xué)習(xí)和因材施教的要求。提出了一個(gè)基于Web挖掘的智能化、個(gè)性化的現(xiàn)代遠(yuǎn)程教育系統(tǒng)結(jié)構(gòu)模型。
一種基于自然語(yǔ)言理解的Web 挖掘模型
如何從網(wǎng)上海量信息中發(fā)現(xiàn)有用的知識(shí), 滿足使用者的需要是一個(gè)迫切需要研究的課題。但現(xiàn)有的方法很難從W eb 上把大量非結(jié)構(gòu)信息抽取到數(shù)據(jù)庫(kù)中, 而且一般的搜索引擎也只是簡(jiǎn)單地把關(guān)鍵字匹配作為查詢依據(jù), 命中率較低。文章提出了將自然語(yǔ)言理解技術(shù)與Web 數(shù)據(jù)挖掘相結(jié)合, 根據(jù)用戶的需要定制個(gè)性化的Web 數(shù)據(jù)挖掘模型。初步試驗(yàn)結(jié)果表明該方案是可行的, 能很好的滿足用戶需要, 且模型的通用性和適用性強(qiáng)。