国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開(kāi)通VIP
中國(guó)科學(xué)院計(jì)算技術(shù)研究所
大規(guī)模內(nèi)容計(jì)算
王 斌 許洪波
摘要 網(wǎng)絡(luò)信息內(nèi)容安全和智能內(nèi)容管理是信息時(shí)代迫切而又長(zhǎng)期的重要需求。大規(guī)模內(nèi)容計(jì)算是解決這些需求的一系列關(guān)鍵支撐技術(shù)的總稱。本文主要介紹了大規(guī)模內(nèi)容計(jì)算的相關(guān)背景、概念、技術(shù)、應(yīng)用和發(fā)展前景。
關(guān)鍵詞:大規(guī)模內(nèi)容計(jì)算 內(nèi)容管理 信息處理 信息檢索 文本挖掘
1.1 1  引言
隨著全球信息網(wǎng)絡(luò)的普及和信息化進(jìn)程的推進(jìn),互聯(lián)網(wǎng)(Internet)信息數(shù)量巨大、良莠并存。一方面,從這些數(shù)據(jù)中高性能、高準(zhǔn)確度地獲取所需內(nèi)容早已成為服務(wù)社會(huì)、培育新興媒體的重要需求,于是,搜索引擎、信息Agent、垃圾郵件過(guò)濾等工具應(yīng)運(yùn)而生。不僅如此,上述需求逐漸成為不同政治、軍事力量甚至國(guó)家之間占領(lǐng)網(wǎng)上信息制高點(diǎn)和主動(dòng)權(quán)的舉足輕重的、迫切而又長(zhǎng)期的需求,信息安全特別是網(wǎng)絡(luò)信息內(nèi)容安全受到各國(guó)政府的高度重視。美國(guó)、日本、法國(guó)等發(fā)達(dá)國(guó)家已把網(wǎng)絡(luò)信息內(nèi)容安全列為國(guó)家重點(diǎn)發(fā)展規(guī)劃,投入了巨大的力量。近年來(lái),我國(guó)也逐漸加大信息內(nèi)容安全的投入力度。另一方面,如何有效地利用信息內(nèi)容、對(duì)這些內(nèi)容進(jìn)行智能化管理,也是信息社會(huì)提出的一項(xiàng)重要需求,科學(xué)院已經(jīng)把智能內(nèi)容管理作為信息技術(shù)研究的重要方向進(jìn)行規(guī)劃,數(shù)字圖書館、電子政務(wù)、科技奧運(yùn)等一系列重要任務(wù)都對(duì)智能內(nèi)容管理提出了更高要求。
不論是網(wǎng)絡(luò)信息內(nèi)容安全還是智能內(nèi)容管理,都可以看成信息內(nèi)容處理技術(shù)在網(wǎng)絡(luò)上的應(yīng)用。比起傳統(tǒng)的信息處理來(lái),網(wǎng)上的信息處理具有如下的特點(diǎn):(一)所處理的信息內(nèi)容規(guī)模極大,更新變化異常迅速;(二)信息來(lái)源、格式、載體和相互關(guān)聯(lián)多樣化,地理上、內(nèi)容上的分布散亂無(wú)序;(三)同時(shí)訪問(wèn)的用戶數(shù)目巨大,用戶的信息需求多樣化。核心的問(wèn)題是要以Internet上的TB甚至PB級(jí)(1PB≈103TB≈1015字節(jié))超大規(guī)模數(shù)據(jù)為基礎(chǔ)面向需求各異的用戶群實(shí)現(xiàn)高性能、高準(zhǔn)確度的信息服務(wù)。
大規(guī)模內(nèi)容計(jì)算是解決這個(gè)核心問(wèn)題的一系列關(guān)鍵技術(shù)的總稱。具體地說(shuō),大規(guī)模內(nèi)容計(jì)算是在大規(guī)模的網(wǎng)絡(luò)信息環(huán)境下,研究與網(wǎng)絡(luò)信息內(nèi)容的獲取、處理和服務(wù)相關(guān)的高性能計(jì)算模型、關(guān)鍵技術(shù)和關(guān)鍵算法的一門重要學(xué)科。所謂“大規(guī)?!?,主要是指它的處理對(duì)象數(shù)量規(guī)模巨大,基本在TB甚至PB的數(shù)量級(jí)。所謂“內(nèi)容”,主要是指非結(jié)構(gòu)化的或者半結(jié)構(gòu)化的數(shù)據(jù)。包括文本數(shù)據(jù)和多媒體數(shù)據(jù)。所謂“計(jì)算”,當(dāng)然是一種廣義的“處理”。單純以獲取、檢索、挖掘、過(guò)濾、分類、聚類、管理、跟蹤、理解、問(wèn)答等范疇來(lái)概括這個(gè)研究方向,都具有很大的局限性,只有用“計(jì)算”的概念才能從更高的高度覆蓋這個(gè)研究方向[1]。
大規(guī)模內(nèi)容計(jì)算總體上包括如下步驟(參見(jiàn)圖1):第一步是對(duì)大規(guī)模信息的獲取,即得到信息;第二步是對(duì)信息內(nèi)容的分析、加工和處理;第三步是利用分析處理的信息提供服務(wù)。本文將主要以文本為處理對(duì)象,介紹大規(guī)模內(nèi)容計(jì)算的相關(guān)技術(shù)和應(yīng)用。基于文本處理的很多思想同樣可以用于多媒體處理。另外,本文的對(duì)象是已經(jīng)數(shù)字化的文本內(nèi)容。多媒體處理、書面或者手寫信息的數(shù)字化過(guò)程等內(nèi)容可參見(jiàn)相關(guān)文獻(xiàn)[2]。
本文的后續(xù)內(nèi)容安排如下:第二節(jié)介紹信息獲取的相關(guān)技術(shù);第三節(jié)到第四節(jié)主要介紹內(nèi)容分析處理的相關(guān)技術(shù);第五到第六節(jié)主要介紹大規(guī)模內(nèi)容計(jì)算的兩個(gè)典型應(yīng)用。最后是總結(jié)和展望。需要說(shuō)明的是,本文的典型應(yīng)用(檢索和過(guò)濾)也常常被稱為技術(shù)。它們和本文前面章節(jié)介紹的技術(shù)可以從單項(xiàng)和組合這個(gè)方面加以區(qū)分,本文所講的技術(shù)基本上是單項(xiàng)技術(shù),即不太容易拆分或者一般不再拆分的基礎(chǔ)技術(shù),而典型應(yīng)用對(duì)應(yīng)的技術(shù)都是多項(xiàng)單項(xiàng)技術(shù)的組合應(yīng)用,在這個(gè)意義上,本文將組合后的技術(shù)稱為應(yīng)用。
圖1 大規(guī)模內(nèi)容計(jì)算流程
1.2 2  信息獲取技術(shù)
信息獲取是指從網(wǎng)絡(luò)收集數(shù)據(jù)的過(guò)程。它是進(jìn)行后續(xù)信息處理、信息服務(wù)的基礎(chǔ)。如何快速、準(zhǔn)確地獲取所需要的信息,是信息獲取研究的主要內(nèi)容。在大規(guī)模內(nèi)容計(jì)算中,信息獲取分為主動(dòng)獲取和被動(dòng)獲取。被動(dòng)獲取通常是將設(shè)備介入網(wǎng)絡(luò)的特定部位進(jìn)行獲取。而主動(dòng)獲取主要是指基于WEB(萬(wàn)維網(wǎng)-World Wide WEB)的信息采集(WEB Crawling, 簡(jiǎn)稱WC),即根據(jù)WEB協(xié)議,直接從WEB上采集或下載信息。本文主要介紹WEB信息采集技術(shù)。
WEB信息采集技術(shù)可以分成[3]:基于整個(gè)WEB的信息采集(Scalable WC),增量式WEB信息采集(Incremental WC),基于主題的WEB信息采集(Focused WC),基于用戶個(gè)性化的WEB信息采集(Customized WC),基于Agent的信息采集(Agent-based WC),遷移的信息采集(Relocatable WC)等等。實(shí)際系統(tǒng)往往是以上幾個(gè)采集技術(shù)的組合。
采集系統(tǒng)主要研究的是:如何高效穩(wěn)定地以較小的代價(jià)獲取最相關(guān)的信息。為了提高采集速度,大規(guī)模的采集系統(tǒng)往往采用并行采集結(jié)構(gòu)。如Google、百度、天網(wǎng)等搜索引擎后臺(tái)都采用了并行體系結(jié)構(gòu)。這些體系結(jié)構(gòu)的基本想法都是將采集的各個(gè)部分(控制、分析、執(zhí)行、存儲(chǔ))設(shè)計(jì)成并行流水結(jié)構(gòu),盡量減少采集系統(tǒng)的不合理等待、保證采集過(guò)程的通暢。
為了降低采集的空間代價(jià),更新策略是研究的重點(diǎn)之一。最理想的是采集系統(tǒng)能夠自動(dòng)學(xué)到每個(gè)網(wǎng)站或站點(diǎn)的更新規(guī)律,從而能夠指導(dǎo)采集器的刷新策略,盡量做到?jīng)]有變化的網(wǎng)頁(yè)不采集,只采集那些更新的網(wǎng)頁(yè)?,F(xiàn)實(shí)的搜索引擎采集系統(tǒng),都或多或少地采用了更新策略,避免重復(fù)性的采集。一種方法是通過(guò)統(tǒng)計(jì)不同類型站點(diǎn)的更新周期來(lái)指導(dǎo)采集。而IBM設(shè)計(jì)完成的信息采集器WEBFountain則采用了一個(gè)優(yōu)化模型來(lái)控制采集策略。這個(gè)模型沒(méi)有對(duì)WEB頁(yè)面變化的統(tǒng)計(jì)行為做任何假設(shè),而是采用了一種適應(yīng)性的方法,根據(jù)先前采集周期里采集到的結(jié)果的實(shí)際變化率進(jìn)行調(diào)整。
基于主題的信息采集是主要針對(duì)相關(guān)主題的采集,目前是采集研究的熱點(diǎn)之一。只采集相關(guān)的信息也可以降低采集的代價(jià)?;谥黝}的采集的關(guān)鍵是采集結(jié)果和主題的相似度計(jì)算。一方面,可以通過(guò)采集結(jié)果與主題的內(nèi)容相似度來(lái)計(jì)算該值;另一方面,可以通過(guò)相關(guān)鏈接信息(如錨文本anchor text、鏈接關(guān)系)來(lái)預(yù)測(cè)待采集結(jié)果的相似度,從而指導(dǎo)采集的方向。Aggarwal則提出了一種針對(duì)兩個(gè)假設(shè)的基于主題的WEB信息采集方法:一是Linkage Locality,即被相關(guān)于某一主題的頁(yè)面鏈接到的頁(yè)面趨向于擁有同一主題。 二是Sibling Locality,即對(duì)于某個(gè)鏈接到某主題的頁(yè)面,它所鏈接到的其它頁(yè)面也趨向于擁有這個(gè)主題。Menczer則評(píng)價(jià)了三種關(guān)于基于主題采集的策略 :Best first Crawler(通過(guò)計(jì)算鏈接所在頁(yè)面與主題的相似度來(lái)得到采集優(yōu)先級(jí))、PageRank(通過(guò)每25頁(yè)計(jì)算一遍PageRank值來(lái)得到采集優(yōu)先級(jí),PageRank值計(jì)算方法參見(jiàn)第五節(jié))以及InfoSpiders(通過(guò)鏈接周圍的文字,利用神經(jīng)網(wǎng)絡(luò)和遺傳算法來(lái)得到采集優(yōu)先級(jí))。
由于使用采集的用戶需求各異,一些采集系統(tǒng)的設(shè)計(jì)者把目光投向了基于用戶個(gè)性化的WEB信息采集(Customized WEB Crawling)?;趥€(gè)性化的信息采集的目標(biāo)就是只采集用戶感興趣的信息。它與基于主題的采集的不同之處在于它針對(duì)某個(gè)用戶而不是某個(gè)主題。即使對(duì)同一主題,個(gè)性化的信息采集系統(tǒng)對(duì)不同用戶也可能返回不同結(jié)果。個(gè)性化信息采集主要是對(duì)用戶的行為(包括瀏覽習(xí)慣、興趣等)進(jìn)行跟蹤從而指導(dǎo)采集的進(jìn)行??▋?nèi)基梅隆大學(xué)(CMU)研制的SPHINX是一個(gè)Java工具包組成的環(huán)境交互式信息采集器,它是一個(gè)典型的個(gè)性化信息采集系統(tǒng)。
另外,還有將智能Agent和采集技術(shù)相結(jié)合的信息采集技術(shù)以及將采集放在服務(wù)器端進(jìn)行的遷移式采集技術(shù)等等。限于篇幅,這里不再一一介紹。
1.3 3  內(nèi)容分析技術(shù)
從網(wǎng)上獲取數(shù)據(jù)以后,要對(duì)這些數(shù)據(jù)進(jìn)行包括格式分析和轉(zhuǎn)換、編碼識(shí)別和轉(zhuǎn)換、內(nèi)容意義分析等等相關(guān)的處理。本文只介紹基于自然語(yǔ)言文本的分析技術(shù)。當(dāng)然,自然語(yǔ)言處理本身就是一個(gè)重要的研究方向,內(nèi)容包羅萬(wàn)象??梢哉f(shuō),任何自然語(yǔ)言處理的技術(shù)都可以用于大規(guī)模內(nèi)容計(jì)算??紤]到篇幅關(guān)系,這里只對(duì)幾種最基礎(chǔ)、與大規(guī)模內(nèi)容計(jì)算最相關(guān)的自然語(yǔ)言處理技術(shù)進(jìn)行介紹。
文本的內(nèi)容分析主要包括詞法分析、句法分析、語(yǔ)義分析和語(yǔ)用分析等部分[4]。內(nèi)容分析是實(shí)現(xiàn)網(wǎng)絡(luò)內(nèi)容安全和內(nèi)容管理的基礎(chǔ)算法。大規(guī)模內(nèi)容計(jì)算的絕大多數(shù)應(yīng)用都會(huì)用到內(nèi)容分析技術(shù),如垃圾郵件的內(nèi)容特征分析、文本的自動(dòng)摘要、重要事件的發(fā)現(xiàn)和跟蹤等等。
1.3.1 3.1 詞法分析
詞法分析是對(duì)自然語(yǔ)言的形態(tài)進(jìn)行分析,判定詞的結(jié)構(gòu)、類別和性質(zhì)的過(guò)程。對(duì)于以英文為代表的形態(tài)豐富的語(yǔ)言來(lái)說(shuō),英文的詞法分析的一個(gè)重要過(guò)程是形態(tài)分析,即將英文詞還原成詞干。而漢語(yǔ)形態(tài)變化很少,其主要的問(wèn)題在于書寫時(shí)詞與詞之間沒(méi)有空格。所以通常中文詞法分析的第一步是分詞。分詞往往是后續(xù)進(jìn)一步處理的基礎(chǔ)。詞法分析的另一個(gè)主要任務(wù)是標(biāo)注每個(gè)詞在上下文句子中的詞性。
3.1.1  英文形態(tài)分析
英語(yǔ)的詞常常由前綴、詞根、后綴等部分組成。具體到句子中,詞還有性、數(shù)、格以及時(shí)態(tài)引起的詞形變化。英文的形態(tài)分析的主要目標(biāo)是將句子中的詞從詞形還原到詞甚至詞根。英文的形態(tài)分析常常也稱為stemming,分析器稱為stemmer。形態(tài)分析常常采用基于自動(dòng)機(jī)的規(guī)則方法,即將詞形變化的規(guī)律總結(jié)成規(guī)則,然后通過(guò)自動(dòng)機(jī)的方法對(duì)詞形進(jìn)行轉(zhuǎn)換。轉(zhuǎn)換的過(guò)程當(dāng)中可使用或者不使用詞典。目前使用最廣泛的Stemmer是Martin Porter提出的Porter Stemmer。相對(duì)而言,英文形態(tài)分析比較簡(jiǎn)單。以使用最廣泛的Porter為例,它僅僅使用了一組規(guī)則,連詞典都沒(méi)有用上。但是,要做一個(gè)百分之百正確的形態(tài)分析工具也是非常困難的,需要用到詞性分析、句法分析甚至語(yǔ)義分析的信息。好在,很多應(yīng)用對(duì)stemmer的要求不是很高,利用不同stemmer的應(yīng)用結(jié)果也相差不大。有些應(yīng)用(如TREC評(píng)測(cè)會(huì)議中的Home Page Finding任務(wù))中詞形信息很重要,不需要stemmer進(jìn)行詞根還原。
3.1.2  中文分詞技術(shù)
目前的中文分詞方法[5]可以總結(jié)為兩大類:基于機(jī)械匹配的分詞方法及基于概率統(tǒng)計(jì)的分詞方法。前者通過(guò)對(duì)已有詞典的機(jī)械匹配來(lái)得到分詞結(jié)果。后者不需要任何詞典就可以得到分詞結(jié)果,或者對(duì)粗切分結(jié)果進(jìn)行基于概率統(tǒng)計(jì)的后處理來(lái)得到最終的分詞結(jié)果。所謂機(jī)械匹配是指與已有詞典里的詞進(jìn)行一一匹配,匹配上的詞輸出到結(jié)果,匹配不上的詞常常以單字的形式輸出。中文分詞技術(shù)面臨的兩個(gè)最大問(wèn)題是切分歧義和未定義詞問(wèn)題。前者要解決在上下文環(huán)境下不同切分結(jié)果的選擇;后者要解決詞典中未收錄詞(如人名、地名、機(jī)構(gòu)名等)的識(shí)別??梢栽跈C(jī)械匹配的基礎(chǔ)上通過(guò)規(guī)則的方法來(lái)求解上述兩個(gè)問(wèn)題。然而規(guī)則方法很難窮盡真實(shí)文本的各種現(xiàn)象。目前比較主流的方法是通過(guò)對(duì)真實(shí)文本的概率統(tǒng)計(jì)來(lái)求解切分歧義和未定義詞問(wèn)題。包括北航、北師大、清華大學(xué)、北京大學(xué)、北工大、哈工大、東北大學(xué)、山西大學(xué)、中科院計(jì)算所等等在內(nèi)的多家單位都進(jìn)行了中文分詞的研究,包括N元語(yǔ)言模型、隱馬爾可夫模型以及多種統(tǒng)計(jì)量等等都被引入到中文分詞,促進(jìn)了中文分詞結(jié)果準(zhǔn)確率的提高。值得一提的是,一些研究(如微軟研究院)將中文分詞的一部分歧義問(wèn)題延到后續(xù)句法分析階段利用更加豐富的信息加以解決并進(jìn)行反饋,實(shí)現(xiàn)了基于這一新思路的分詞系統(tǒng)。
中文分詞的一個(gè)巨大非技術(shù)障礙乃是分詞規(guī)范和標(biāo)準(zhǔn)問(wèn)題。雖然中文分詞已經(jīng)有很多年的研究歷史,但是迄今為止國(guó)內(nèi)仍沒(méi)有一個(gè)公開(kāi)的、受到廣泛認(rèn)可的、可操作的分詞規(guī)范,也不存在一個(gè)通用的大規(guī)模評(píng)測(cè)語(yǔ)料。這使得眾多研究者的研究結(jié)果之間缺乏真正的可比性,從而制約了中文分詞技術(shù)的提高。能夠真正公開(kāi)為大眾所用的較好的分詞工具很少。目前,ACL(國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì))的SIGHAN分會(huì)已經(jīng)在這方面進(jìn)行了初步嘗試,并于2003年組織了國(guó)際第一次漢語(yǔ)分詞評(píng)測(cè),吸引了國(guó)內(nèi)外10多家研究單位參加,應(yīng)該受到中文分詞研究者的廣泛注意。另外,值得一提的是,中科院計(jì)算所的ICTCLAS分詞系統(tǒng)[15]可供公開(kāi)測(cè)試和開(kāi)放源碼下載使用,目前已經(jīng)引起了較大反響,在分詞工具可用化方面做出了重要的探索。
3.1.3  詞性標(biāo)注技術(shù)
詞性標(biāo)注的根本性原因在于詞的兼類現(xiàn)象,即一個(gè)詞可以有多個(gè)詞性,但在相關(guān)的上下文中,一個(gè)詞通常只能表現(xiàn)為一個(gè)詞性。詞性標(biāo)注的目的就是多里挑一。
詞性標(biāo)注也經(jīng)過(guò)了從規(guī)則方法到統(tǒng)計(jì)方法的過(guò)程。國(guó)外二十世紀(jì)60年代就開(kāi)始自動(dòng)詞性標(biāo)注的研究。其中,1971年,美國(guó)Brown大學(xué)的TAGGIT系統(tǒng)利用3300條上下文框架規(guī)則和86個(gè)詞類標(biāo)記進(jìn)行自動(dòng)標(biāo)注,正確率達(dá)到77%?;诟怕式y(tǒng)計(jì)的方法中,1983年Leech和Garside等人建立了CLAWS系統(tǒng),通過(guò)共現(xiàn)概率矩陣的方法使得自動(dòng)標(biāo)注的正確率達(dá)到96%~97%。1988年,DeRose對(duì)CLAWS系統(tǒng)進(jìn)行了改進(jìn),降低了該系統(tǒng)的復(fù)雜性,使得自動(dòng)詞性標(biāo)注的正確率達(dá)到了實(shí)用的水平?;谡Z(yǔ)言模型和隱馬模型的概率統(tǒng)計(jì)方法也取得了很好的結(jié)果。另外,也出現(xiàn)了很多將詞法分析整個(gè)過(guò)程一體化的工作,如英文的形態(tài)分析和詞性標(biāo)注一體化、中文的分詞和詞性標(biāo)注一體化等等。值得一提的工作還包括Eric Brown的基于錯(cuò)誤驅(qū)動(dòng)的規(guī)則學(xué)習(xí)詞性標(biāo)注方法。該方法可以通過(guò)初始標(biāo)注語(yǔ)料,自動(dòng)學(xué)習(xí)到有序的多條標(biāo)注規(guī)則來(lái)對(duì)未標(biāo)注語(yǔ)料進(jìn)行標(biāo)注。有人將該方法歸入規(guī)則方法,也有人將之納入統(tǒng)計(jì)方法,每種歸類都有自己的道理。目前,該詞性標(biāo)注方法可以達(dá)到97%的封閉測(cè)試正確率,是網(wǎng)上可以下載的實(shí)用詞法標(biāo)注工具之一。對(duì)于中文詞性標(biāo)注,國(guó)內(nèi)清華大學(xué)、山西大學(xué)、北京大學(xué)、東北大學(xué)、中科院計(jì)算所等都做了大量有效的工作。見(jiàn)諸報(bào)道的中文詞性標(biāo)注的最高正確率也在95%以上。
1.3.2 3.2  句法分析
句法分析是將線性的詞序列轉(zhuǎn)變成某種句法結(jié)構(gòu)(最常見(jiàn)的是短語(yǔ)結(jié)構(gòu)樹)的過(guò)程[6]。由于短語(yǔ)結(jié)構(gòu)語(yǔ)法(特別是上下文無(wú)關(guān)語(yǔ)法)應(yīng)用最為廣泛,因此以短語(yǔ)結(jié)構(gòu)樹為目標(biāo)的上下文無(wú)關(guān)語(yǔ)法(CFG)句法分析器研究得最為徹底。其他類型的句法分析器可以由CFG句法分析器改造而成。句法分析的策略主要包括自頂向下、自底向上以及左角分析法。著名的句法分析算法有:CYK、Early、Tomita、Chart等等。真正實(shí)現(xiàn)時(shí),句法分析系統(tǒng)通常由短語(yǔ)規(guī)則和具體算法組成。短語(yǔ)規(guī)則指出了從詞到短語(yǔ)、從短語(yǔ)到句子結(jié)合的規(guī)律。句法分析的最大難點(diǎn)在于句法歧義。也就是說(shuō),根據(jù)句法規(guī)則,一個(gè)短語(yǔ)或者句子往往有多棵句法樹,而這其中往往只有一棵是正確的。句法分析的主要目標(biāo)是消除句法歧義。消除句法歧義可以通過(guò)在句法規(guī)則中不斷地引入上下文句法或者語(yǔ)義判定規(guī)則來(lái)進(jìn)行。但是這種方法引入的個(gè)性化規(guī)則一方面十分龐大,另一方面很難保證規(guī)則的一致性。另一種方法是在句法分析中引入概率,根據(jù)概率的大小來(lái)選擇句法樹的生成。在進(jìn)行句法分析的過(guò)程中,研究者發(fā)現(xiàn)對(duì)真實(shí)語(yǔ)料生成完全的句法分析樹似乎太理想化,從而萌生了部分分析[7](partial parsing,也叫組塊分析或淺層分析,chunking parsing or shallow parsing)的思想,即不進(jìn)行完全的句法分析,而是產(chǎn)生部分語(yǔ)言單位組塊(如基本名詞短語(yǔ)、人名、地名、機(jī)構(gòu)名等等)。這些組塊在大規(guī)模內(nèi)容處理中可以得到很好的應(yīng)用。從所發(fā)表論文公布的結(jié)果看,英文部分分析的測(cè)試結(jié)果(F值)可達(dá)93%以上。中文部分分析的測(cè)試結(jié)果也能達(dá)到這個(gè)值。不過(guò),由于很多研究部分分析的定義、標(biāo)準(zhǔn)和語(yǔ)料并不統(tǒng)一,有些研究結(jié)果無(wú)法評(píng)價(jià),結(jié)果之間也缺乏可比性。有實(shí)驗(yàn)報(bào)告證明,查詢語(yǔ)句中名詞短語(yǔ)的識(shí)別可以改善系統(tǒng)檢索文檔的相關(guān)性,并可提高檢索系統(tǒng)的召回率和精確率。
目前,美國(guó)賓州大學(xué)已經(jīng)建立了用于句法分析的中英文句法結(jié)構(gòu)庫(kù)(tree bank),可供研究者實(shí)驗(yàn)和評(píng)價(jià)句法分析的成果。
1.3.3
3.3 語(yǔ)義分析
語(yǔ)義分析的主要目標(biāo)有兩個(gè):一是確定每個(gè)語(yǔ)言單位在文中的某種語(yǔ)義類;二是確定這些語(yǔ)言單位之間的語(yǔ)義關(guān)系。前者的工作稱為語(yǔ)義排歧(WSD, word sense disambiguation),即根據(jù)上下文從語(yǔ)言單位可能的多個(gè)語(yǔ)義中選擇最恰當(dāng)?shù)恼Z(yǔ)義。后者也常常稱為(狹義的)語(yǔ)義分析。
語(yǔ)義分析通常需要語(yǔ)義詞典的支持,目前著名的英文語(yǔ)義詞典有:WordNet、FrameNet、MindNet等,中文語(yǔ)義詞典有:HowNet、同義詞詞林等等。
WSD的研究同樣有規(guī)則方法和統(tǒng)計(jì)方法。統(tǒng)計(jì)方法可以通過(guò)對(duì)上下文窗口的統(tǒng)計(jì)分析來(lái)確定詞匯的語(yǔ)義。在大規(guī)模內(nèi)容計(jì)算中,WSD可以借鑒上下文的歷史查詢、以及對(duì)用戶的興趣跟蹤來(lái)對(duì)查詢?cè)~的語(yǔ)義進(jìn)行排歧。
語(yǔ)義分析常常建立在某種語(yǔ)法或理論體系上。如語(yǔ)義語(yǔ)法、格語(yǔ)法、語(yǔ)義網(wǎng)絡(luò)、蒙格塔語(yǔ)法、范疇語(yǔ)法、概念依存理論等等。
1.4 4  聚類、分類技術(shù)
聚類、分類技術(shù)是模式識(shí)別的基本技術(shù)。目前在文本處理中,也是最常用的兩項(xiàng)技術(shù)。兩者都是將未知文本歸入某個(gè)類別的過(guò)程。聚類也稱為無(wú)監(jiān)督的分類。它事先沒(méi)有類別,而是根據(jù)樣本之間的某種相似程度自動(dòng)地聚集成某種類別。而分類過(guò)程事先都有給定的類別及相關(guān)訓(xùn)練樣本。分類的過(guò)程包括分類器的參數(shù)訓(xùn)練以及對(duì)測(cè)試樣本的預(yù)測(cè)兩個(gè)部分。不論是聚類還是分類的結(jié)果往往都能降低大規(guī)模文本處理的復(fù)雜性。
信息聚類和信息分類都包括特征選擇、信息表示、相似度計(jì)算以及分組算法等主要組成部分。相對(duì)而言,由于信息分類有訓(xùn)練樣本,其特征選擇方法繁多且更為復(fù)雜。同樣,信息分類中不涉及到訓(xùn)練樣本的特征選擇方法都能用于信息聚類。文本聚類和文本分類中的文本大都采用向量空間模型(參見(jiàn)第五節(jié)),相似度計(jì)算方面有各種距離計(jì)算方法,如夾角余弦、內(nèi)積等等。
1.4.1 4.1  文本聚類技術(shù)
聚類技術(shù)通??梢苑殖蓛深悾簩哟涡停℉ierarchical)聚類和分割型(Partitional)聚類。層次型聚類生成一個(gè)樹型的聚類譜系圖,根據(jù)需要可以在不同層次上選取類別個(gè)數(shù)。分割型聚類對(duì)原有數(shù)據(jù)集生成一個(gè)劃分。層次型聚類方法包括基于最短距離、基于最長(zhǎng)距離、基于均值距離的方法。分割型聚類又包括方差法(如k-means方法)和基于圖論的方法等等。
文本聚類是聚類方法在文本處理領(lǐng)域的應(yīng)用。應(yīng)用領(lǐng)域包括敏感話題的發(fā)現(xiàn)、敏感社區(qū)的發(fā)現(xiàn)、信息過(guò)濾中用戶(興趣)的自動(dòng)聚類(用戶興趣可以采用文本表示)等等。
1.4.2 4.2  文本分類技術(shù)
文本分類的特征選擇有很多方法,如文檔頻率(Document Frequency, DF)、信息增益(Information Gain, IG)、互信息(Mutual Information, MI)、χ2統(tǒng)計(jì)量等等。CMU的Yang Yiming[8]對(duì)這些方法進(jìn)行了基于英文的分類對(duì)比實(shí)驗(yàn),得出的結(jié)論是χ2統(tǒng)計(jì)量和IG方法最好。近年以來(lái),也有一些基于中文分類的特征選擇實(shí)驗(yàn),得到的實(shí)驗(yàn)結(jié)論不盡相同。特征選擇的結(jié)果空間可能仍然維數(shù)很高,因此,研究人員提出對(duì)特征空間進(jìn)行降維。隱性語(yǔ)義索引(Latent Semantic Indexing, LSI) 和主成分分析(Principle Component Analysis, PCA)都是常用的特征降維方法。文本分類算法有很多。如線性最小平方擬合、貝葉斯(Bayes)、k近鄰(k-Nearest Neighbor, kNN)、決策樹、支持向量機(jī)(Support Vector Machine, SVM)、基于神經(jīng)網(wǎng)絡(luò)的分類等等?!    ang Yiming[9]對(duì)眾多的英文文本分類方法進(jìn)行了比較,得出的結(jié)論是SVM、kNN以及線性最小平方擬合法較優(yōu)。目前,還沒(méi)有見(jiàn)到關(guān)于中文分類算法性能比較的較權(quán)威的書面報(bào)道。
文本分類技術(shù)應(yīng)用十分廣泛,比如垃圾郵件的檢測(cè)、敏感話題的跟蹤、內(nèi)容的分層次組織管理等等。
1.5 5  WEB檢索
所謂WEB檢索是指以檢索查詢方式從WEB中挑選出和用戶需求最相關(guān)的頁(yè)面。WEB檢索是大規(guī)模內(nèi)容檢索中一個(gè)重要應(yīng)用。之所以把它歸結(jié)成應(yīng)用是因?yàn)樗烁鞣N基本技術(shù)的復(fù)雜組合。WEB檢索的對(duì)象是WEB,與傳統(tǒng)的IR處理對(duì)象并不相同,因此,WEB檢索中融合了傳統(tǒng)IR和一些現(xiàn)代的新技術(shù)。一方面,現(xiàn)代IR一直對(duì)傳統(tǒng)IR進(jìn)行補(bǔ)充和改進(jìn),另一方面,也出現(xiàn)了和傳統(tǒng)IR不一樣的新技術(shù)。
本質(zhì)上,WEB檢索的關(guān)鍵就是將用戶的需求和網(wǎng)頁(yè)進(jìn)行匹配打分。根據(jù)打分依賴對(duì)象的不同,本節(jié)按照內(nèi)容、結(jié)構(gòu)、用戶行為三個(gè)方面來(lái)總結(jié)WEB檢索應(yīng)用中的種種技術(shù)。
網(wǎng)絡(luò)內(nèi)容安全和智能內(nèi)容管理的很多問(wèn)題都可以歸結(jié)為對(duì)某個(gè)已知主題的查詢檢索問(wèn)題。如:查詢與伊拉克戰(zhàn)爭(zhēng)相關(guān)的文檔。
1.5.1 5.1  基于內(nèi)容的檢索
基于內(nèi)容的檢索就是根據(jù)頁(yè)面的內(nèi)容(可以是標(biāo)題、正文、錨文本-anchor text甚至是URL-Universal Resources Locator本身)來(lái)打分。這里面主要包括三種模型:布爾模型(Boolean Model)、向量空間模型(Vector Space Model,VSM)及概率模型(Probabilistic Model)。
布爾模型實(shí)際就是將用戶提交的查詢?cè)~和每個(gè)頁(yè)面直接匹配。用戶提交的查詢是多個(gè)詞組成的布爾表達(dá)式。符合這個(gè)布爾表達(dá)式的頁(yè)面得1分,否則0分?;镜牟紶柲P鸵?yàn)椴荒芴峁└?xì)微的排名而飽受指責(zé)。研究者們提出了各種各樣的方法,如根據(jù)命中關(guān)鍵詞的詞頻排序、將布爾模型進(jìn)行推廣以支持部分匹配等等。推廣的一個(gè)結(jié)果是Extended 布爾模型以至p-norm模型。推廣的另一個(gè)結(jié)果是向量空間模型。需要指出的是,現(xiàn)今的大部分搜索引擎仍然采用了布爾模型的主要思想。
康奈爾大學(xué)的Salton等人提出的向量空間模型將查詢和文本表示成標(biāo)引項(xiàng)(標(biāo)引項(xiàng)term是向量表示的基本單位,可以是字、詞、短語(yǔ)及其他語(yǔ)言單位)及其權(quán)重的向量。一個(gè)例子是:<信息,3,檢索,5,模型1>,然后通過(guò)向量之間的相似度比較來(lái)計(jì)算每個(gè)文本的相似程度。向量空間模型不僅可以用于檢索,而且廣泛用于包括文本分類的諸多領(lǐng)域中。標(biāo)引項(xiàng)權(quán)重的計(jì)算方法有很多種。最基本的是一種稱為TFIDF(Term Frequency & Inverse Document Frequency)的方法,即同時(shí)考慮標(biāo)引項(xiàng)在所在文本中的分布情況以及在全部文本集合中的分布情況。后續(xù)的研究還考慮文本的長(zhǎng)度因素,提出了多種改進(jìn)的權(quán)重計(jì)算公式。其中一種稱為Pivoted Normalization的權(quán)重計(jì)算方法近些年來(lái)受到了廣泛關(guān)注。標(biāo)引項(xiàng)的選擇也是向量空間模型在使用中遇到的問(wèn)題之一。有研究認(rèn)為,中文檢索中的標(biāo)引項(xiàng)選擇詞和二元字的組合較好。最典型的向量空間模型原型系統(tǒng)是康奈爾大學(xué)的SMART,它提供源代碼開(kāi)放下載,目前已經(jīng)被成千上萬(wàn)的研究者所用。
概率檢索模型是通過(guò)概率的方法將查詢和文本聯(lián)系起來(lái)。最經(jīng)典的概率檢索模型是英國(guó)倫敦城市大學(xué)的Robertson和劍橋大學(xué)的Sparck Jones提出的二元獨(dú)立概率模型(Binary Independence Retrieval, BIR)。它主要通過(guò)計(jì)算查詢?cè)~中每個(gè)標(biāo)引項(xiàng)和文本的相關(guān)概率來(lái)計(jì)算整個(gè)查詢和文本的概率。BIR模型的關(guān)鍵問(wèn)題是對(duì)其中各參數(shù)的估計(jì),Robertson和Sparck Jones利用偽相關(guān)反饋技術(shù)來(lái)計(jì)算模型的參數(shù),從而最終實(shí)現(xiàn)檢索。概率模型和向量空間模型在測(cè)試中表現(xiàn)出的性能不相上下,很難說(shuō)哪種模型就比另一種模型優(yōu)越。另外,概率檢索中的相似度計(jì)算公式也融入了不少向量空間模型的思想,比如文本長(zhǎng)度的引入。最著名的概率檢索原型系統(tǒng)是倫敦城市大學(xué)的OKAPI。其他的概率檢索模型還包括基于神經(jīng)網(wǎng)絡(luò)的概率模型、基于語(yǔ)言學(xué)模型的檢索模型。后者90年代中期由麻省大學(xué)(UMass)提出,已經(jīng)引起了廣泛的關(guān)注。CMU實(shí)現(xiàn)的原型系統(tǒng)Lemur(同時(shí)實(shí)現(xiàn)了多種檢索模型)已經(jīng)支持基于語(yǔ)言學(xué)模型的檢索模型。
基于內(nèi)容的檢索還有各種提高檢索精度的辦法,比如查詢擴(kuò)展或重構(gòu)(利用詞典或者統(tǒng)計(jì)信息對(duì)用戶初始查詢進(jìn)行修正)、相關(guān)性反饋(在初始檢索的結(jié)果上通過(guò)用戶交互或者自動(dòng)方式進(jìn)行反饋,構(gòu)造更合適的查詢)、結(jié)果組合(多種檢索系統(tǒng)結(jié)果的融合)等等。它們的最終目的都是為了精確逼近查詢和文本在內(nèi)容上的相似度。
基于內(nèi)容的檢索的另外一個(gè)側(cè)重點(diǎn)是數(shù)據(jù)的存儲(chǔ)和組織,包括索引文件、壓縮方法、數(shù)據(jù)結(jié)構(gòu)等等。篇幅所限,請(qǐng)有興趣的讀者參看相關(guān)文獻(xiàn)[10]。
1.5.2 5.2  基于結(jié)構(gòu)的檢索
前面提到,WEB檢索的對(duì)象是WEB。而WEB最大的一個(gè)特征是互聯(lián)。另外,很多網(wǎng)頁(yè)都是半結(jié)構(gòu)文本。充分利用結(jié)構(gòu)信息是現(xiàn)代信息檢索,尤其是WEB檢索的一項(xiàng)重要內(nèi)容。首先可以想到的是,可以利用頁(yè)面本身的半結(jié)構(gòu)信息,比如標(biāo)題、段落位置、字體信息等等來(lái)細(xì)化不同位置標(biāo)引項(xiàng)的權(quán)重。這種思想已經(jīng)廣泛融入到基于內(nèi)容的檢索中去,而且取得了很好的效果。除此之外,WEB中各頁(yè)面之間的鏈接關(guān)系是一項(xiàng)可以利用的重要信息。基于這種信息的技術(shù)被稱為鏈接分析技術(shù)。絕大部分鏈接分析算法都有共同的出發(fā)點(diǎn):更多地被其他頁(yè)面鏈接的頁(yè)面是質(zhì)量更好的頁(yè)面,并且從更重要的頁(yè)面出發(fā)的鏈接有更大的權(quán)重。這個(gè)循環(huán)定義可以通過(guò)迭代算法巧妙打破。
最著名的鏈接分析算法是Stanford大學(xué)提出并應(yīng)用到Google搜索引擎中的PageRank算法以及IBM用于CLEVER搜索引擎的HITS算法[11]。
PageRank定義的是在WEB中頁(yè)面的訪問(wèn)概率。訪問(wèn)概率越大的頁(yè)面的PageRank值也越大。具體的計(jì)算公式是:
Pr(t)=(1-d)/T+d(Pr(t1)/C(t1)+ Pr(t2)/C(t2)+…+Pr(tn)/C(tn))
即,每個(gè)頁(yè)面的PageRank (Pr)是無(wú)意中直接瀏覽到的概率和從上一頁(yè)中繼續(xù)訪問(wèn)的概率總和。其中,T是節(jié)點(diǎn)(頁(yè)面)總數(shù),C(t)是從頁(yè)面t指出的超鏈接總數(shù),d稱為阻尼因子(damping factor),一般取值為0.85。概率Pr(t)反映了節(jié)點(diǎn)t的重要程度。
HITS是IBM Almaden研究中心開(kāi)發(fā)的另一種鏈接分析算法。它認(rèn)為每個(gè)WEB頁(yè)面都有被指向、作為權(quán)威(Authority)和指向其他頁(yè)面作為資源中心(Hub)的兩方面屬性,其取值分別用A(p)和H(p)表示。A(p)值為所有指向p的頁(yè)面q的中心權(quán)重H(q)之和,同樣,頁(yè)面p的中心權(quán)重H(p)值是所有p所指向的頁(yè)面q的權(quán)威權(quán)重A(q)之和,如下式:
A(p)=∑H(qi) (其中qi是所有鏈接到p的頁(yè)面)
H(p)=∑A(qi)(其中qi是所有頁(yè)面p所鏈接到的頁(yè)面)
鏈接分析方法常常和基于內(nèi)容的檢索方法相結(jié)合。盡管很多基于較小的數(shù)據(jù)規(guī)模(數(shù)十G)網(wǎng)頁(yè)數(shù)據(jù)的實(shí)驗(yàn)并不能證明鏈接分析算法能夠提高檢索的性能。但是,很多人都相信,鏈接分析方法能夠反映WEB社會(huì)的一些最自然的屬性,應(yīng)該能夠在大規(guī)模真實(shí)環(huán)境下提高檢索結(jié)果。Google的使用成功也增強(qiáng)了大家的信心砝碼。
1.5.3 5.3 基于日志的檢索
WEB日志記錄了用戶訪問(wèn)WEB的歷史信息。根據(jù)該歷史信息可以挖掘出許多對(duì)提高檢索效果有用的信息,從而可以改進(jìn)檢索的結(jié)果。通過(guò)分析用戶的歷史請(qǐng)求,可以獲得用戶的興趣愛(ài)好,從而提供最符合用戶興趣的結(jié)果。通過(guò)分析用戶對(duì)結(jié)果的瀏覽記錄,也可以獲得用戶的興趣愛(ài)好和行為方式,從而指導(dǎo)檢索過(guò)程。其他用戶的訪問(wèn)和瀏覽信息(如訪問(wèn)頻度、用戶查詢聚類、用戶瀏覽結(jié)果聚類等等)同樣對(duì)提高單個(gè)特定用戶的檢索結(jié)果有幫助。利用日志信息提高檢索結(jié)果是當(dāng)前商用搜索引擎的一個(gè)發(fā)展趨勢(shì)。
1.6 6  信息過(guò)濾
信息過(guò)濾是大規(guī)模內(nèi)容處理的另一種典型應(yīng)用。它是對(duì)陸續(xù)到達(dá)的信息進(jìn)行過(guò)濾操作,將符合用戶需求的信息保留,并根據(jù)用戶的操作不斷調(diào)整過(guò)濾策略。如果把信息檢索稱為一種典型的“拉”(pull)的方式(用戶主動(dòng),系統(tǒng)被動(dòng)服務(wù))的話,那么信息過(guò)濾則可以稱為
“推”(push)方式(用戶被動(dòng),系統(tǒng)主動(dòng)服務(wù))。信息過(guò)濾的典型應(yīng)用場(chǎng)景包括:垃圾郵件的過(guò)濾、信息的個(gè)性化服務(wù)、智能內(nèi)容分發(fā)和內(nèi)容推薦等等。
信息過(guò)濾包括兩種:一種稱為基于內(nèi)容的信息過(guò)濾(Content-based Filtering);另一種稱為基于合作的信息過(guò)濾(Social Filtering,又叫協(xié)同過(guò)濾或社會(huì)過(guò)濾)。
在基于內(nèi)容的過(guò)濾中,通常采用某種方式(如VSM)來(lái)表示用戶的興趣模型和信息資源模型。實(shí)現(xiàn)時(shí),當(dāng)歷史正例文本達(dá)到一定規(guī)模時(shí),可以采用各種分類技術(shù)。內(nèi)容過(guò)濾最主要工作之一是對(duì)用戶興趣的不斷學(xué)習(xí)和反饋,以保證在任一時(shí)刻過(guò)濾的文本和當(dāng)前用戶興趣相吻合。最常用的反饋算法是Rocchio算法。中科院計(jì)算所提出了一種在反饋信息很少的情況下盡可能提高過(guò)濾性能的自適應(yīng)算法ICTFilter[12]。
基于合作的過(guò)濾算法從用戶相似度的角度出發(fā)。它的基本假設(shè)是經(jīng)常訪問(wèn)相似資源的用戶興趣相似,相似興趣的用戶又會(huì)訪問(wèn)相似的資源。因此,通過(guò)對(duì)相似興趣用戶的判定,來(lái)確定某個(gè)用戶對(duì)某一未知資源是否感興趣。合作過(guò)濾的關(guān)鍵在于建立用戶的相似度關(guān)系??梢圆捎肞earson Correlation Coefficient (PCC)方法和Vector Similarity (VS),考慮上述方法中矩陣的稀疏性(即用戶—資源矩陣是稀疏矩陣)導(dǎo)致潛在相似興趣用戶的難以發(fā)現(xiàn),有人提出了基于用戶分類的方法和基于LSI的方法,取得了一定的效果。合作過(guò)濾常常和內(nèi)容過(guò)濾方法配合使用。
1.7 7  總結(jié)及展望
上面介紹了大規(guī)模內(nèi)容處理的相關(guān)背景、技術(shù)和應(yīng)用,總之,大規(guī)模內(nèi)容計(jì)算具有廣闊的應(yīng)用前景,是Internet網(wǎng)絡(luò)內(nèi)容安全和智能內(nèi)容管理的關(guān)鍵支撐技術(shù)。這兩方面的迫切和長(zhǎng)期需求促進(jìn)了大規(guī)模內(nèi)容計(jì)算的發(fā)展。
大規(guī)模內(nèi)容計(jì)算技術(shù)的發(fā)展有以下幾個(gè)趨勢(shì):
(1) 個(gè)性化趨勢(shì)。從與用戶的交互中挖掘出用戶的興趣從而更好地為不同用戶提供量身定體的服務(wù)是大規(guī)模內(nèi)容計(jì)算的發(fā)展趨勢(shì)之一。
(2) 融合化趨勢(shì)。各種技術(shù)甚至學(xué)科的交融也是大規(guī)模內(nèi)容計(jì)算的一個(gè)發(fā)展趨勢(shì),包括               數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)推斷、模式識(shí)別等等學(xué)科研究領(lǐng)域的技術(shù)廣泛地引入到大規(guī)模內(nèi)容計(jì)算,從而推動(dòng)了大規(guī)模內(nèi)容計(jì)算的發(fā)展。大規(guī)模內(nèi)容計(jì)算的巨大規(guī)模同樣需要并行處理、海量存儲(chǔ)、高性能計(jì)算等等各方面的技術(shù)。而大規(guī)模傳統(tǒng)技術(shù)之間也有融合的趨勢(shì),檢索和過(guò)濾、分類和聚類、各種檢索模型等等之間都逐漸相互借鑒和融合。
另外,與大規(guī)模內(nèi)容計(jì)算技術(shù)的發(fā)展同樣相關(guān)還有一個(gè)語(yǔ)料庫(kù)建設(shè)、標(biāo)準(zhǔn)化和評(píng)測(cè)的趨勢(shì)。為了促進(jìn)相關(guān)技術(shù)的發(fā)展,必須要有大量的實(shí)驗(yàn)語(yǔ)料庫(kù)、技術(shù)標(biāo)準(zhǔn)和評(píng)測(cè)評(píng)比。美國(guó)政府NIST和DARPAR組織的TREC[13](Text REtrieval Conference)是評(píng)測(cè)會(huì)議中典型的代表,大大促進(jìn)了大規(guī)模內(nèi)容計(jì)算技術(shù)的提高。大陸包括微軟亞洲研究院、復(fù)旦大學(xué)、中科院計(jì)算所、哈工大、清華大學(xué)、中科院自動(dòng)化所、軟件所都先后加入了TREC評(píng)測(cè)隊(duì)伍的行列并取得了不錯(cuò)的成績(jī)。目前,國(guó)內(nèi)也有部分組織機(jī)構(gòu)(如北大天網(wǎng)網(wǎng)頁(yè)分類評(píng)測(cè)、中科院計(jì)算所內(nèi)容檢索評(píng)測(cè)等)開(kāi)展了評(píng)測(cè)相關(guān)的工作。這些工作已經(jīng)或者勢(shì)必促進(jìn)大規(guī)模內(nèi)容計(jì)算技術(shù)的發(fā)展。
參考文獻(xiàn)
[1] 白碩,程學(xué)旗,郭莉,王斌,余智華,劉群,大規(guī)模內(nèi)容計(jì)算,2003年,全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合會(huì)議論文集,13~25,清華大學(xué)出版社。
[2] 高文,劉峰,黃鐵軍等著,數(shù)字圖書館――原理與技術(shù)實(shí)現(xiàn),2000年,清華大學(xué)出版社。
[3] 李盛韜,基于主題的WEB信息采集技術(shù)研究,2002年,中科院計(jì)算所碩士學(xué)位論文。
[4] 馮志偉,自然語(yǔ)言的計(jì)算機(jī)處理,1996年,上海外語(yǔ)教育出版社。
[5] 孫茂松,鄒嘉彥,漢語(yǔ)自動(dòng)分詞研究評(píng)述,當(dāng)代語(yǔ)言學(xué),2001年,第一期,22~32。
[6] 劉群,中科院研究生院《計(jì)算語(yǔ)言學(xué)》講義,2003年,http://www.nlp.gov.cn.
[7] 李素建,漢語(yǔ)組塊計(jì)算的若干研究,2002年,中科院計(jì)算所博士學(xué)位論文。
[8] Yiming Yang and Jan O. Pederson, A Comparative Study on Feature Selection in Text Categorization, Proceedings of the Fourteenth International Conference on Machine Learning (ICML‘97), 1997.
[9] Yiming Yang and Xin Lin, A re-examination of text categorization methods. Proceedings on the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval: 42-49.
[10] Baeza-Yates, R. and Ribeiro-Neto, B. 1999. Modern Information Retrieval. Addison Wesley Longman, Reading, MA.
[11] 劉悅,WWW上鏈接分析算法的若干研究,2004年,中科院計(jì)算所博士學(xué)位論文。
[12] 許洪波,大規(guī)模信息過(guò)濾技術(shù)研究及其在WEB問(wèn)答系統(tǒng)中的應(yīng)用,2003年,中科院計(jì)算所博士學(xué)位論文。
[13] TREC 會(huì)議網(wǎng)站,http://trec.nist.gov/
[14] 大規(guī)模內(nèi)容計(jì)算網(wǎng)站,http://lcc.software.ict.ac.cn/
[15] 中文資源開(kāi)放平臺(tái)網(wǎng)站,http://www.nlp.gov.cn/
作者:             王  斌  中國(guó)科學(xué)院計(jì)算技術(shù)研究所 博士 副研究員
許洪波  中國(guó)科學(xué)院計(jì)算技術(shù)研究所 博士 助理研究員
來(lái)源:中國(guó)科學(xué)院計(jì)算技術(shù)研究所
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
詳解自然語(yǔ)言處理(NLP)5大語(yǔ)義分析技術(shù)及14類應(yīng)用(建議收藏)
自然語(yǔ)言處理的若干問(wèn)題
NLPIR大數(shù)據(jù)搜索與挖掘共享平臺(tái)
阿里自然語(yǔ)言處理部總監(jiān)分享:NLP技術(shù)的應(yīng)用及思考
文本挖掘?qū)嵅僬n!手把手教你用文本挖掘剖析54萬(wàn)首詩(shī)歌
自然語(yǔ)言處理在醫(yī)學(xué)領(lǐng)域中的應(yīng)用
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服