隨著網絡信息資源的急劇增長,人們越來越多地關注如何開發(fā)和利用這些資源。然而,目前中英文搜索引擎均存在查準率、查全率不高的現(xiàn)象,這種現(xiàn)狀無法適應用戶對高質量的網絡信息服務的需求;同時電子商務以及各種網絡信息服務迅速興起,原有的網絡信息處理與組織技術無法趕上這樣的發(fā)展趨勢,網絡信息挖掘就是在這樣一種環(huán)境下應運而生的,并迅速成為網絡信息檢索、信息服務領域的熱點之一。
1 網絡信息挖掘概述
1.1 數(shù)據(jù)挖掘(Data Mining)
網絡信息挖掘必須從數(shù)據(jù)挖掘談起。數(shù)據(jù)挖掘,又稱為數(shù)據(jù)采掘、數(shù)據(jù)開采,相近的術語有KDD(Knowledge Discovery in Database,數(shù)據(jù)庫知識發(fā)現(xiàn))、數(shù)據(jù)分析、數(shù)據(jù)融合(Data Fusion)等。根據(jù)W.J.Fraw
【數(shù)據(jù)挖掘研究院】(China Data Mining Research,CDMR)是一個專注于數(shù)據(jù)挖掘及其相關技術的討論組織,參與者都是數(shù)據(jù)挖掘及其相關學科的愛好者。作為論壇的組織者我們也是數(shù)據(jù)挖掘的忠實愛好者,希望能夠利用一些有限的資源為中國數(shù)據(jù)挖掘營造一個良好的發(fā)展環(huán)境。
ley和G.P.Shapiro等人的定義,數(shù)據(jù)挖掘是指從大型數(shù)據(jù)庫的數(shù)據(jù)中提取人們感興趣的知識,而這些知識是隱含的、事先未知的、潛在的有用信息。
數(shù)據(jù)挖掘的提出最初是針對大型數(shù)據(jù)庫的,這些數(shù)據(jù)庫容量可能達到GB(109)字節(jié),甚至TB(1012)字節(jié),最近IBM提出其數(shù)字圖書館的數(shù)據(jù)將可能達PB(1015)字節(jié)。
從更廣義的角度來講,數(shù)據(jù)挖掘意味著在一些事實或觀察數(shù)據(jù)的集合中尋找模式的決策支持過程。因而,數(shù)據(jù)挖掘的對象不僅是數(shù)據(jù)庫,還可以是任何組織在一起的數(shù)據(jù)集合,如WWW信息資源等。目前數(shù)據(jù)挖掘工具能處理數(shù)值型的結構化數(shù)據(jù),而文本、圖形、數(shù)學公式、圖像或WWW信息資源等半結構、無結構的數(shù)據(jù)形式將是數(shù)據(jù)挖掘的挑戰(zhàn)之一。
1.2 網絡信息挖掘
國外有人認為:網絡信息挖掘就是利用數(shù)據(jù)挖掘技術,自動地從網絡文檔以及服務中發(fā)現(xiàn)和抽取信息的過程。國內則眾說紛紜。有學者將網絡環(huán)境下的數(shù)據(jù)挖掘歸入網絡信息檢索與網絡信息內容的開發(fā)。也有站在信息服務的角度上提出“信息挖掘”,指出其有別于傳統(tǒng)的信息檢索,能夠在異構數(shù)據(jù)組成的信息庫中,從概念及相關因素的延伸比較上找出用戶需要的深層次的信息,并提出信息挖掘將改革傳統(tǒng)的信息服務方式而形成一個全新的適合網絡時代要求的信息服務組合。
網絡信息挖掘分為如下四個步驟(如圖1):(1)資源發(fā)現(xiàn),即檢索所需的網絡文檔;(2)信息選擇和預處理,即從檢索到的網絡資源中自動挑選和預先處理得到專門的信息;(3)概括化,即從單個的Web站點以及多個站點之間發(fā)現(xiàn)普遍的模式;(4)分析,對挖掘出的模式進行確認或者解釋。
資源發(fā)現(xiàn)
—↓
信息選擇與預處理
—↓
概括化
—↓
分 析
圖1 網絡信息挖掘的步驟圖
2 網絡信息挖掘的類型
根據(jù)挖掘的對象不同,網絡信息挖掘可以分為網絡內容挖掘(Web content mining)、網絡結構挖掘(Web structure mining)以及網絡用法挖掘(Web usage mining)。
2.1 網絡內容挖掘
網絡內容挖掘即從網絡的內容/數(shù)據(jù)/文檔中發(fā)現(xiàn)有用信息的過程。網絡信息資源類型眾多,Internet出現(xiàn)之前的Gopher、FTP、Usenet資源逐漸隱藏到WWW形式之后,但這些資源仍可以通過web進行訪問;目前WWW信息資源已經成為網絡信息資源的主體。然而除了大量的人們可以直接從網上抓取、建立索引、實現(xiàn)檢索服務的資源之外,一些網絡信息是“隱藏”著的數(shù)據(jù),如由用戶的提問而動態(tài)生成的結果,或是存在在DBMS(數(shù)據(jù)庫管理系統(tǒng))中的數(shù)據(jù),或是那些私人數(shù)據(jù),它們無法被索引,從而無法提供對它們有效的檢索方式。以上是從網絡信息源的角度探討,若從資源形式看,網絡信息內容是由文本、圖象、音頻、視頻、元數(shù)據(jù)等等形式的數(shù)據(jù)組成的,因而我們所說的網絡內容挖掘將是一種多媒體數(shù)據(jù)挖掘形式。
2.2 網絡結構挖掘
網絡結構挖掘即挖掘Web潛在的鏈接結構模式。這種思想源于引文分析,即通過分析一個網頁鏈接和被鏈接數(shù)量以及對象來建立Web自身的鏈接結構模式。這種模式可以用于網頁歸類,并且可以由此獲得有關不同網頁間相似度及關聯(lián)度的信息。網絡結構挖掘有助于用戶找到相關主題的權威站點,并且可以概觀指向眾多權威站點的相關主題的站點。
2.3 網絡用法挖掘
通過網絡用法挖掘,可以了解用戶的網絡行為數(shù)據(jù)所具有的意義。網絡內容挖掘、網絡結構挖掘的對象是網上的原始數(shù)據(jù),而網絡用法挖掘則不同于前兩者,它面對的是在用戶和網絡交互的過程中抽取出來的第二手數(shù)據(jù)。這些數(shù)據(jù)包括:網絡服務器訪問記錄、代理服務器日志記錄、瀏覽器日志記錄、用戶簡介、注冊信息、用戶對話或交易信息、用戶提問式等等。
上述三個網絡信息挖掘類型的比較見表1:
表1 網絡信息挖掘類型比較
網絡信息挖掘
網絡內容挖掘 網絡結構挖掘 網絡用法挖掘
信息檢索觀點 數(shù)據(jù)庫觀點
數(shù)據(jù)形式 非結構化、半結構化 半結構化、數(shù)據(jù)庫形式的網站 鏈接結構 交互形式
主要數(shù)據(jù) 文本文檔、超文本文檔 超文本文檔 鏈接結構 服務器日志記錄
瀏覽器日志記錄
表示 Bag of words、n-grams、詞、短語、概念或實體、關系型數(shù)據(jù) 邊界標志圖(OEM)、關系型數(shù)據(jù) 圖形 關系型表、圖形
方法 TFIDF和變體、機器學習、統(tǒng)計學(包括自然語言處理) Proprietary算法、ILP、(修改后)的關聯(lián)規(guī)則 Proprietary算法 機器學習、統(tǒng)計學、(修改后)的關聯(lián)規(guī)則
應用 歸類、聚類、發(fā)掘抽取規(guī)則、發(fā)掘文本模式、建立模式 發(fā)掘高頻的子結構、發(fā)掘網站體系結構 歸類、聚類 站點建設、改進與管理、營銷、建立用戶模式
表1中分別從5個方面比較了三類網絡信息挖掘。首先解釋一下結構化、半結構化、非結構化數(shù)據(jù)。結構化數(shù)據(jù)如數(shù)據(jù)庫表中的數(shù)據(jù)或者是由數(shù)據(jù)庫生成的HTML頁面;半結構化數(shù)據(jù)則指一般的HTML文檔;而非結構化數(shù)據(jù)是指自由文本之類的數(shù)據(jù)。網絡信息包括了上面列舉的所有形式的數(shù)據(jù)。本文中將不會詳細介紹各類挖掘所采用的數(shù)據(jù)表示形式及挖掘的方法。關于它們的具體應用將在第4點中加以介紹。
3 網絡信息挖掘與網絡信息檢索
狹義上講,網絡信息檢索就是網絡信息(內容)挖掘的一種。最初,信息檢索的目標是標引文本,并從集合中找出有用的文檔;發(fā)展到今天,信息檢索研究涉及到建立模型、文檔分類與歸類、用戶交互、數(shù)據(jù)可視化、數(shù)據(jù)過濾等等。從這個角度看,網絡信息挖掘只能作為信息檢索過程的一部分。最明顯的一個例子就是Web文檔的分類與歸類。
下面我們以國外著名的搜索引擎Google(http://www.google.com)為例,剖析網絡信息挖掘技術在網絡信息檢索中的應用。首先我們先看一下Google的體系結構(見圖2)。
Google的搜索機制是:幾個分布的Crawler(自動搜索軟件)同時工作——在網上“爬行”,URL服務器則負責向這些Crawler提供URL的列表。Crawler所找到的網頁被送到存儲服務器(Store Server)中。存儲服務器于是就把這些網頁壓縮后存入一個知識庫(repository)中。每個網頁都有一個關聯(lián)ID——doc ID,當一個新的URL從一個網頁中解析出來時,就被分配一個doc ID。索引庫(Indexer)和排序器(Sorter)負責建立索引,索引庫從知識庫中讀取記錄,將文檔解壓并進行解析。每個文檔就轉換成一組詞的出現(xiàn)狀況(word occurrences),稱為hits。hits記錄了詞、詞在文檔中的位置、字體大小、大小寫等。索引庫把這些hit又分成一組“barrels”,產生經過部分排序后的索引。索引庫同時分析網頁中所有的鏈接并將重要信息存在Anchors文檔中。這個文檔包含了足夠信息,可以用來判斷一個鏈接被鏈入或鏈出的結點信息。
URL分解器(URL Resolver)閱讀Anchors文檔,并把相對的URL轉換成絕對的URLs,并生成doc ID,它進一步為Anchor文本編制索引,并與Anchor所指向的doc ID建立關聯(lián)。同時,它還產生由doc ID對(pairs of doc ID)所形成的數(shù)據(jù)庫。這個鏈接數(shù)據(jù)庫(Links)用于計算所有文檔的頁面等級(Pagerank)。
排序器會讀取barrels,并根據(jù)詞的ID號(word ID)列表來生成倒排擋。一個名為DumpLexicon的程序則把上面的列表和由索引庫產生的一個新的詞表結合起來產生另一個新的詞表供搜索器(Searcher)使用。這個搜索器就是利用一個Web服務器,并使用由DumpLexicon所生成的詞表,并利用上述倒排擋以及頁面等級來回答用戶的提問。
從Google的體系結構、搜索原理中可以看到,其關鍵而具有特色的一步是:利用URL分解器獲得Links信息,并且運用一定的算法得出了頁面等級的信息,這采用的技術正是網絡結構挖掘技術。作為一個新興的搜索引擎,Google正是利用這種對WWW的連接進行分析和大規(guī)模的數(shù)據(jù)挖掘的技術,使其搜索技術遠勝一籌。前不久,Yahoo!與Google攜手合作,希望憑借Google的搜索技術來確保其在技術上領先與創(chuàng)新的優(yōu)勢。
圖2 Google的體系結構
4 網絡信息挖掘的應用前景
在國外,數(shù)據(jù)挖掘技術已經廣泛地應用于金融業(yè)、零售業(yè)、遠程通訊業(yè)、政府管理、制造業(yè)、醫(yī)療服務以及體育事業(yè)中,而它在網絡中的應用也正在成為一個熱點。網絡信息挖掘的應用涉及到電子商務、網站設計和搜索引擎服務等眾多方面。下面主要從這三個方面介紹其應用。
4.1 電子商務
運用網絡用法挖掘技術能夠從服務器以及瀏覽器端的日志記錄中自動發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式信息,了解系統(tǒng)的訪問模式以及用戶的行為模式,從而作出預測性分析。例如通過評價用戶對某一信息資源瀏覽所花的時間,可以判斷出用戶對資源興趣如何;對日志文件所收集到的域名數(shù)據(jù),根據(jù)國家或類型(.com,.edu,.gov)進行分類分析;應用聚類分析來識別用戶的訪問動機和訪問趨勢等。這項技術已經有效地運用在電子商務之中。
4.2 網站設計
通過對網站內容的挖掘,主要是對文本內容的挖掘,可以有效地組織網站信息,例如采用自動歸類技術實現(xiàn)網站信息的層次性(hierarchy)組織;同時可以結合對用戶訪問日志記錄信息的挖掘,把握用戶的興趣,從而有助于開展網站信息推送服務以及個人信息的定制服務。目前PDA(Personal Digital Assistant個人數(shù)字助理)以及Cellular phone(移動電話)都已經可以直接接受網絡信息服務。這些設備的顯示界面較小,因而網站面向這些設備的設計就應當突出精品化、個性化的特點,而這類特色推送服務就必須采用網絡信息挖掘技術。
4.3 搜索引擎
網絡信息挖掘技術在搜索引擎上的應用我們在上一節(jié)中已經作了一些介紹。Google搜索的最大特色就體現(xiàn)在它所采用的對網頁Links信息的挖掘技術上。而實際上,網絡信息挖掘是目前網絡信息檢索發(fā)展的一個關鍵。如通過對網頁內容挖掘,可以實現(xiàn)對網頁的聚類、分類,實現(xiàn)網絡信息的分類瀏覽與檢索;同時,通過用戶所使用的提問式(query)的歷史記錄的分析,可以有效地進行提問擴展(query expansion),提高用戶的檢索效果(查全率,precision;查準率,recall);另外,運用網絡內容挖掘技術改進關鍵詞加權算法,提高網絡信息的標引準確度,從而改善檢索效果。
上面僅僅列舉了網絡信息挖掘技術在這三個方面的應用。這項技術的應用正變得越來越廣泛;用戶對高品質、個性化的信息的需求也將進一步推動著學術界與實業(yè)界的研究開發(fā)工作。
參考文獻
1 胡侃、夏紹瑋.基于大型數(shù)據(jù)倉庫的數(shù)據(jù)采掘,研究綜述.軟件學報,1998,9(1)
2 鄒濤等.基于WWW的文本信息挖掘.情報學報,1999,18(4)
3 曾民族.“數(shù)象信息科學”和當前研究課題.情報理論與實踐,1998,21(2)
4 馬費成,陳悅.面向高速信息網絡的信息資源管理(一)從技術角度的分析.中國圖書館學報,1998,24(113)
5 Raymond Kosala and hendrik Blockeel.Web Mining Research:A Survey.ACM SIGKDD,July 2000.
6 S.Brin and L. Page. The anatomy of a large-scale hypertestual Web search engine. In Seventh International World Wide Web Conference, Brisbane, Australia, 1998
7 李紹華.OLAP和數(shù)據(jù)挖掘技術在Web日志上的應用.現(xiàn)代計算機,1999(3)