|
12/8/05
1
陳清才
國(guó)家信息安全保障持續(xù)發(fā)展計(jì)劃
漢語(yǔ)自動(dòng)文摘系統(tǒng) InsunAbs
12/8/05
2
主要內(nèi)容
系統(tǒng)概述
研究背景
主要的自動(dòng)文摘技術(shù)
系統(tǒng)目標(biāo)
主要研究?jī)?nèi)容
系統(tǒng)處理過(guò)程
知識(shí)庫(kù)建設(shè)
統(tǒng)計(jì)語(yǔ)言模型的建立
基于內(nèi)容的壓縮算法研究
信息提取
摘要生成技術(shù)
系統(tǒng)優(yōu)化
系統(tǒng)性能
未來(lái)的工作
12/8/05
3
系統(tǒng)概述
研究背景
互聯(lián)網(wǎng)的迅速普及在提供了信息獲取途徑的同時(shí)卻給人們留下了另一個(gè)難題,那就是如何在每天都不斷涌現(xiàn)的海量信息面前更快速、準(zhǔn)確的獲得有用的信息,顯然,通過(guò)閱讀文摘而不是全文能夠極大的加快人們的信息過(guò)濾速度,幫助人們更容易地解決這個(gè)問(wèn)題,從而使得對(duì)自動(dòng)文摘技術(shù)的需求由過(guò)去的科技人員轉(zhuǎn)向了普通用戶,這也極大的鼓勵(lì)了人們對(duì)自動(dòng)文摘技術(shù)的研究熱情。然而,自動(dòng)文摘技術(shù)當(dāng)前所取得的研究成果還不如其他自然語(yǔ)言處理技術(shù)那樣成熟和得到廣泛應(yīng)用,這主要是因?yàn)闉橐黄?b style="COLOR: white; BACKGROUND-COLOR: #880000">文章撰寫真正的文摘,首先必須真正的“理解”原文的內(nèi)容,這一任務(wù)對(duì)人來(lái)說(shuō)比較容易完成,但對(duì)計(jì)算機(jī)而言卻是顯得異常困難, 而這就導(dǎo)致了自動(dòng)文摘的質(zhì)量,尤其是摘要的邏輯連貫性還很難與人工摘要相比。
12/8/05
4
系統(tǒng)概述
主要的自動(dòng)文摘技術(shù)
基于淺層分析的自動(dòng)文摘技術(shù)
只涉及到對(duì)文檔中所蘊(yùn)含的一些淺層的特征進(jìn)行統(tǒng)計(jì)與分析,然后將其中的某些特征按特定的量化模型結(jié)合起來(lái)作為文檔信息的量化度量,并據(jù)此選擇出文檔的核心內(nèi)容,對(duì)于文檔的淺層分析往往不需要復(fù)雜的文檔內(nèi)部表示,而只需要能夠劃分出文摘提取時(shí)的基本單元就可以了。
基于實(shí)體分析的自動(dòng)文摘技術(shù)
實(shí)現(xiàn)實(shí)體層的分析需要首先將文檔轉(zhuǎn)化成內(nèi)部表示的形式,分化出文檔的各個(gè)實(shí)體并建立起文檔實(shí)體間的相互關(guān)系,通過(guò)對(duì)文檔實(shí)體及其相互關(guān)系建模,將有助于確定個(gè)個(gè)實(shí)體對(duì)于表述文檔內(nèi)容的作用。
基于話語(yǔ)結(jié)構(gòu)的自動(dòng)文摘技術(shù)
主要是對(duì)全文的宏觀結(jié)構(gòu)進(jìn)行建模,這些結(jié)構(gòu)包括:文檔格式 、用于區(qū)分文本主題的線索 、文體結(jié)構(gòu)如議論文或者說(shuō)明文的結(jié)構(gòu)特征。
12/8/05
5
系統(tǒng)概述
系統(tǒng)目標(biāo)
基于內(nèi)容的網(wǎng)絡(luò)信息壓縮及摘要自動(dòng)生成系統(tǒng)(以下簡(jiǎn)稱“系統(tǒng)”)的目標(biāo)是結(jié)合計(jì)算語(yǔ)言學(xué)與人工智能的技術(shù),開發(fā)一個(gè)基于內(nèi)容的信息壓縮系統(tǒng),使之能高效、準(zhǔn)確、精練地抽取出網(wǎng)絡(luò)中的各種文本信息的主要內(nèi)容,生成摘要,從而極大地加快計(jì)算機(jī)或人工獲取與處理信息的速度。系統(tǒng)通過(guò)將語(yǔ)義、結(jié)構(gòu)、統(tǒng)計(jì)方法等多知識(shí)源與當(dāng)前的漢語(yǔ)自然語(yǔ)言處理的研究成果進(jìn)行融合,并采用這一方法來(lái)開發(fā)一個(gè)漢語(yǔ)文本信息壓縮與摘要自動(dòng)生成系統(tǒng),以基本達(dá)到實(shí)用化的商業(yè)系統(tǒng)對(duì)摘要的質(zhì)量要求。
12/8/05
6
主要研究?jī)?nèi)容
知識(shí)庫(kù)建設(shè)
開發(fā)適合于文本信息壓縮系統(tǒng)的語(yǔ)義詞典,通過(guò)人工總結(jié),從大規(guī)模語(yǔ)料庫(kù)中建立起信息壓縮用知識(shí)庫(kù),手工建立文摘語(yǔ)料庫(kù)。
統(tǒng)計(jì)語(yǔ)言模型的建立
建立一個(gè)語(yǔ)義量化模型,用以快速確定文本段落或語(yǔ)句的信息量以及各語(yǔ)言單元之間的語(yǔ)義關(guān)聯(lián)度,為信息壓縮提供重要線索。
基于內(nèi)容的壓縮算法研究
獲取文章中心語(yǔ)義,確定語(yǔ)言單元之間的邏輯關(guān)系,
確立統(tǒng)計(jì)語(yǔ)言模型為基本文本單元進(jìn)行加權(quán)的方法,
綜合分析所得的多個(gè)知識(shí)源來(lái)決定組成不同類型文檔的摘要候選單元。
采用文檔分類模塊來(lái)識(shí)別文檔所屬類別。
信息提取
針對(duì)不同類型文章的文摘組成方式有可能不同的特征,從文檔的摘要基本單元候選中進(jìn)一步確定文摘句的組成,從而提高文摘句間的內(nèi)在邏輯連貫性。
摘要生成技術(shù)
在信息提取算法獲得的文摘句基礎(chǔ)上,結(jié)合人名識(shí)別與指代消解技術(shù)以及一些人工總結(jié)的規(guī)則來(lái)生成文檔摘要,以確保摘要良好的流暢性與連貫性。
系統(tǒng)優(yōu)化
優(yōu)化系統(tǒng)的主要參數(shù)
12/8/05
7
系統(tǒng)處理過(guò)程
12/8/05
8
知識(shí)庫(kù)建設(shè)
建立了一個(gè)包含有11萬(wàn)詞的通用詞典,詞典中包含了詞性、詞義和統(tǒng)計(jì)信息,其中除了我們?cè)械脑~條外,又增加了手工從網(wǎng)上抽取的約6萬(wàn)詞
建立了一個(gè)層次結(jié)構(gòu)分析用詞典,該詞典由通過(guò)對(duì)大規(guī)模網(wǎng)絡(luò)文檔的研究而總結(jié)出的可以反映網(wǎng)絡(luò)文本的內(nèi)容層次結(jié)構(gòu)的特征詞組成,該詞典包含42項(xiàng),每一項(xiàng)代表一種層次表示方法而不是一個(gè)詞條。
建立了一個(gè)連接結(jié)構(gòu)分析用詞典,該詞典同樣通過(guò)手工構(gòu)造,共包含190詞條。
此外,還建立了人名識(shí)別詞典用于人名識(shí)別模塊
12/8/05
9
統(tǒng)計(jì)語(yǔ)言模型
構(gòu)造過(guò)程
首先借助于語(yǔ)義詞典來(lái)選擇特征詞。
建立一個(gè)基于詞矢量的語(yǔ)義量化模型,通過(guò)對(duì)700M文本語(yǔ)料的統(tǒng)計(jì)來(lái)建立特征矩陣。
通過(guò)引入粗集技術(shù)來(lái)進(jìn)行坐標(biāo)詞的選擇以及特征矩陣的約簡(jiǎn)。
語(yǔ)義相似度計(jì)算:
12/8/05
10
文檔壓縮算法
結(jié)構(gòu)分析
文本內(nèi)容層次結(jié)構(gòu)分析
隱式章節(jié)切分
語(yǔ)句連接結(jié)構(gòu)分析
文檔自動(dòng)分類
多知識(shí)源融合
摘要抽取
12/8/05
11
文本層次結(jié)構(gòu)分析
文本層次結(jié)構(gòu)分析包括宏觀結(jié)構(gòu)分析和微觀結(jié)構(gòu)分析。文本宏觀結(jié)構(gòu)是指全文結(jié)構(gòu),研究組成全文的各自然段之間的依存關(guān)系。文本微觀結(jié)構(gòu)是指復(fù)句結(jié)構(gòu)。研究的是各自然段內(nèi)部各復(fù)句之間的依存關(guān)系。通過(guò)對(duì)文本結(jié)構(gòu)依存樹進(jìn)行文本層次結(jié)構(gòu)分析,我們建立一棵用于抽取文摘的層次結(jié)構(gòu)依存樹。
由于網(wǎng)上的文章來(lái)源眾多,且無(wú)法統(tǒng)一格式,所以造成了網(wǎng)絡(luò)文章格式各異的情況。要進(jìn)行網(wǎng)絡(luò)文章結(jié)構(gòu)依存樹模型,先要分析網(wǎng)絡(luò)文章格式,從中找到統(tǒng)一的特性。
層次結(jié)構(gòu)分析分成三步:
建立層次結(jié)構(gòu)詞典:需要從大規(guī)模真是網(wǎng)絡(luò)文檔中人工總結(jié)出能夠反映層次結(jié)構(gòu)的知識(shí)
初始化文檔結(jié)構(gòu):根據(jù)排歧規(guī)則來(lái)確定每個(gè)語(yǔ)句中所包含的層次結(jié)構(gòu)知識(shí)
建立分析樹:根據(jù)相關(guān)規(guī)則分析文本基本單元間的層次關(guān)系并建立層次結(jié)構(gòu)依存樹
12/8/05
12
隱式章節(jié)切分
目的:
通過(guò)將以自然段落為基礎(chǔ)的文本的物理結(jié)構(gòu)轉(zhuǎn)換成以意義段為基礎(chǔ)的文本的邏輯結(jié)構(gòu)來(lái)提高系統(tǒng)生成的文摘的中心主題覆蓋率及文摘抽取的準(zhǔn)確率。
切分方法:
語(yǔ)義量化模型,通過(guò)建立基于詞矢量的漢語(yǔ)語(yǔ)義量化模型來(lái)對(duì)漢語(yǔ)語(yǔ)義進(jìn)行量化,以便能夠以可計(jì)算的形式利用語(yǔ)義信息。
語(yǔ)義相似度計(jì)算,在語(yǔ)義量化模型的基礎(chǔ)上對(duì)詞語(yǔ)之間的語(yǔ)義相似度進(jìn)行計(jì)算。
改進(jìn)Dotplot文本切分算法: 通過(guò)用語(yǔ)義相似度來(lái)取代Reynar模型的字符串匹配,將Dotplot中的二值運(yùn)算轉(zhuǎn)換成模糊計(jì)算,同時(shí)避免了簡(jiǎn)單的字符串匹配所帶來(lái)的無(wú)法描述同義詞、詞語(yǔ)縮寫等問(wèn)題。
12/8/05
13
連接結(jié)構(gòu)分析
目的:
通過(guò)快速分析單句或者復(fù)句間的語(yǔ)義依存關(guān)系,來(lái)確定每個(gè)語(yǔ)句在表達(dá)文本內(nèi)容時(shí)的角色,為文摘抽取提供判別依據(jù)。
任務(wù):
關(guān)聯(lián)詞排歧:需要區(qū)分一個(gè)連接詞所引導(dǎo)的是分句還是復(fù)句。
根據(jù)語(yǔ)法語(yǔ)義規(guī)則來(lái)進(jìn)行分句或復(fù)句間的語(yǔ)義依存關(guān)系分析。本課題共采用了6條規(guī)則,他們描述如下:
完整性規(guī)則:
<L><S(1)><R><S(2)> 舉例:雖然贏了,但是問(wèn)題很多
<R><S(1)><L><S(2)> 舉例:之所以輸了,是因?yàn)槲覀儨?zhǔn)備不好
簡(jiǎn)化規(guī)則:
<S(1)><R><S(2)> 舉例:我們贏了,但是問(wèn)題很多
<L><S(1)> <S(2)>舉例:如果贏了,我們要慶祝
<S(1)><L><S(2)> 舉例:我們要慶祝,如果我們贏了
<R><S(1)><S(2)> 舉例:所以我們出線了,我們努力了
構(gòu)造分析樹
12/8/05
14
文本自動(dòng)分類
文本分類的主要步驟:
文本的表示
向量空間模型(VSM)
基本思想是以向量來(lái)表示文本:(W1,W2,W3……Wn),其中 Wi 為第 i 個(gè)特征項(xiàng)的權(quán)重 。
TF*IDF
本系統(tǒng)采用的加權(quán)方法:TF—特征詞在文本中的頻率;
IDF —包含該詞的文檔數(shù)目的倒數(shù) 。
本系統(tǒng)采用的分類方法
k近鄰方法 :通過(guò)找出訓(xùn)練集中與待分類文檔最相似的k篇文檔,然后根據(jù)這k個(gè)文檔的類別確定該文檔的類別。我們采用的相似度度量標(biāo)準(zhǔn)是余弦夾角。
算法描述:
1) 輸入待分類文檔y和訓(xùn)練集X;
2) 計(jì)算y和X中所有文檔的相似度;
3) 找出X中和y最相似的K篇文檔;
4) 設(shè)n1、n2分別是K篇文檔中屬于C1和C2類的文檔數(shù)目,計(jì)算以下兩個(gè)條件概率:
5) 如果前一概率大于后一項(xiàng)的概率,則y屬于C1類,否則屬于C2類。
12/8/05
15
多知識(shí)源融合
目的:
多知識(shí)源融合的目的是將多個(gè)結(jié)構(gòu)分析模塊的分析結(jié)果按一個(gè)統(tǒng)一的量化度量融合到一起來(lái)定量的確定每個(gè)語(yǔ)句在文章中的作用。
融合方法:
由于文本的隱式章節(jié)劃分涉及到語(yǔ)義相似度計(jì)算,算法復(fù)雜度較大,因而只有當(dāng)文本內(nèi)容結(jié)構(gòu)分析無(wú)法給出文本章節(jié)劃分的信息時(shí)才進(jìn)行隱式章節(jié)劃分。一般而言,當(dāng)文本的長(zhǎng)度超過(guò)2000字以后,作者往往會(huì)以各種形式對(duì)文本進(jìn)行章節(jié)劃分,而這種劃分是由文本內(nèi)容結(jié)構(gòu)分析來(lái)處理的,所以只有文本較短的時(shí)候會(huì)用到隱式章節(jié)分析,從而避免了算法的處理瓶頸。
對(duì)于結(jié)構(gòu)分析模塊,我們的分析結(jié)果都是以樹的形式來(lái)表示的,樹中各個(gè)節(jié)點(diǎn)之間通過(guò)不同類型的關(guān)系來(lái)進(jìn)行連接,為了融合多棵不同類型的分析樹,我們構(gòu)造了一個(gè)加權(quán)有向圖,圖中的每個(gè)節(jié)點(diǎn)都唯一對(duì)應(yīng)于文檔中的一個(gè)文摘基本單元。
需要將有向圖中的每種連接關(guān)系轉(zhuǎn)化成一個(gè)統(tǒng)一的量化度量:權(quán)值,不同類型的分析結(jié)果采用線性插值的方式統(tǒng)一到一起,每種知識(shí)源對(duì)應(yīng)一個(gè)插值系數(shù)。
對(duì)于其他的非樹型知識(shí)源,即其分析結(jié)果不是以分析樹的形式給出,則需要根據(jù)其分析結(jié)果直接給文摘基本單元加權(quán),并將該權(quán)值與上述分析結(jié)果進(jìn)行融合。
12/8/05
16
文摘抽取
文摘抽取主要完成的工作:
遍歷文本結(jié)構(gòu)圖,根據(jù)知識(shí)源加權(quán)規(guī)則計(jì)算圖中每個(gè)節(jié)點(diǎn)的權(quán)值。
將人工總結(jié)的加權(quán)規(guī)則應(yīng)用到圖中的每個(gè)節(jié)點(diǎn)來(lái)對(duì)節(jié)點(diǎn)權(quán)值進(jìn)行調(diào)整。
根據(jù)文摘比率抽取出特定數(shù)量的節(jié)點(diǎn)組成原始文摘集。
12/8/05
17
摘要生成
人名識(shí)別
指代消解
12/8/05
18
人名識(shí)別
人名識(shí)別的主要方法:
基于規(guī)則識(shí)別、應(yīng)用HMM識(shí)別、建立特定統(tǒng)計(jì)語(yǔ)言模型識(shí)別、應(yīng)用最大熵方法識(shí)別、使用SVM算法識(shí)別等多種方法;
系統(tǒng)人名識(shí)別的特點(diǎn):
考慮到文摘系統(tǒng)的實(shí)時(shí)性與準(zhǔn)確性的綜合要求,經(jīng)過(guò)對(duì)大規(guī)模真實(shí)語(yǔ)料的統(tǒng)計(jì)研究,本系統(tǒng)采用了計(jì)算語(yǔ)言模型與人名相關(guān)規(guī)則結(jié)合的識(shí)別方法,發(fā)現(xiàn)文章中的中國(guó)人名,以達(dá)到靈活、快速、準(zhǔn)確的識(shí)別目的。
人名識(shí)別的統(tǒng)計(jì)資源
結(jié)合《百家姓》和《人民日?qǐng)?bào)》語(yǔ)料,統(tǒng)計(jì)收集650個(gè)姓氏用字;
統(tǒng)計(jì)收集人名上下文的特殊名詞476 條、動(dòng)詞343 條;
根據(jù)訓(xùn)練語(yǔ)料庫(kù), 計(jì)算出本系統(tǒng)使用的基本數(shù)據(jù)值。
12/8/05
19
指代消解
方法:
系統(tǒng)采用了基于句子結(jié)構(gòu)和人稱格的指代消解方法,通過(guò)對(duì)大量的漢語(yǔ)句子的分析,提出了十條指代消解規(guī)則和基于這些規(guī)則的一個(gè)消解算法框架。這些規(guī)則的提取綜合考慮了系統(tǒng)的效率以及指代消解準(zhǔn)確率兩方面的因素。算法能處理文章中出現(xiàn)的80%以上的指代現(xiàn)象,而且,對(duì)一些人物環(huán)境比較簡(jiǎn)單的文章幾乎能完全正確處理,因而,這對(duì)自動(dòng)文摘系統(tǒng)來(lái)說(shuō)基本上能滿足要求。此外,針對(duì)文摘系統(tǒng)的特點(diǎn),我們?cè)趯?shí)現(xiàn)過(guò)程中忽略了句內(nèi)的指代消解問(wèn)題,以避免造成對(duì)文摘系統(tǒng)的處理瓶頸。下面我們所總結(jié)出的規(guī)則的兩個(gè)例子。
12/8/05
20
指代消解
規(guī)則1:
設(shè)A為人稱代詞,B為其指代對(duì)象,
A=B==〉(GENDER(A)=GENDER(B))∧(NUMBER(A)=NUMBER( B))
規(guī)則2:
PRON_SET((SUBJ(SS))∧EXIST(PERS_SET(SUBJ(PRESS(SS)))) ∧( GENDER( SUBJ( SS))=GENDER( SUBJ( PRESS( SS))))∧
( NUMBER( SUBJ( SS))=NUMBER( SUBJ( PRESS( SS))))==>
SUBJ(SS)=SUB(PRESS(SS))
其中,SS(Single Sentence)表示當(dāng)前單句;PRON_SET((SUBJ(SS))表示當(dāng)前單句的主語(yǔ)是人稱代詞;EXIST(PERS_SET(SUBJ(PRESS(SS))))表示這樣的事實(shí)存在,既,在當(dāng)前單句之前,位于同一個(gè)復(fù)句內(nèi)的一個(gè)單句的主語(yǔ)是人名。如果這個(gè)條件不滿足,則繼續(xù)向前檢查,直到越過(guò)這個(gè)復(fù)句的范圍。表達(dá)式SUBJ(SS)=SUB(PRESS(SS))中的“=”表示,人稱代詞SUBJ(SS)的指代對(duì)象為SUB(PRESS(SS)) 。
12/8/05
21
系統(tǒng)參數(shù)優(yōu)化
系統(tǒng)的參數(shù)主要包括:
文本層次結(jié)構(gòu)中不同關(guān)系的權(quán)值
連接結(jié)構(gòu)的權(quán)值
多知識(shí)源融合時(shí)每個(gè)知識(shí)源的權(quán)重
參數(shù)優(yōu)化方法:
建立一個(gè)文摘系統(tǒng)的定量評(píng)測(cè)體系
采用系統(tǒng)的平均召回率與平均準(zhǔn)確率作為目標(biāo)參數(shù),通過(guò)遺傳算法來(lái)尋找最優(yōu)的參數(shù)值。
12/8/05
22
系統(tǒng)性能
定量測(cè)試:
根據(jù)合同要求,當(dāng)文摘比率為20%時(shí),系統(tǒng)封閉測(cè)試時(shí)的平均召回率與準(zhǔn)確率應(yīng)分別達(dá)到85%,當(dāng)前系統(tǒng)對(duì)100篇網(wǎng)絡(luò)文本進(jìn)行測(cè)試的平均召回率與準(zhǔn)確率分別為86.19%和85.5%。
文摘質(zhì)量:
根據(jù)合同要求,系統(tǒng)應(yīng)能夠生成具有良好的連貫性與流暢性的摘要。當(dāng)前系統(tǒng)生成的文摘已經(jīng)具有了良好的流暢性與連貫性。
實(shí)時(shí)性:
根據(jù)合同要求,對(duì)于1000字左右的文本文檔,系統(tǒng)應(yīng)在每分鐘完成15~20篇文本的摘要生成,當(dāng)前系統(tǒng)的平均處理時(shí)間在0.3秒左右(測(cè)試環(huán)境為Intel (R) PIII 866,256M內(nèi)存),即每分鐘完成200篇左右文本的處理。
系統(tǒng)的移植性:
雖然本系統(tǒng)開發(fā)的主要目的是針對(duì)新聞?lì)惥W(wǎng)絡(luò)文本,但由于系統(tǒng)中所引入的主要知識(shí)源與文本所屬的領(lǐng)域無(wú)關(guān),因而系統(tǒng)具有良好的移植性能,同時(shí),系統(tǒng)的定量評(píng)測(cè)體系及自動(dòng)優(yōu)化算法提供了對(duì)于特定領(lǐng)域進(jìn)行自動(dòng)優(yōu)化以尋找最佳系統(tǒng)參數(shù)的方法。
12/8/05
23
未來(lái)的工作
進(jìn)一步完善評(píng)測(cè)系統(tǒng)
定量評(píng)測(cè)系統(tǒng)不僅僅可以客觀的評(píng)價(jià)一個(gè)系統(tǒng)的性能,更主要的是能夠?yàn)橄到y(tǒng)的自動(dòng)優(yōu)化與學(xué)習(xí)提供了一個(gè)目標(biāo)函數(shù),無(wú)法做到自動(dòng)定量評(píng)測(cè),就無(wú)法進(jìn)行有效的自動(dòng)學(xué)習(xí)與性能優(yōu)化。當(dāng)前的定量評(píng)測(cè)系統(tǒng)采用了召回率與精度來(lái)進(jìn)行定量評(píng)測(cè),但這一評(píng)測(cè)方法不能完全評(píng)定系統(tǒng)生成的文摘的質(zhì)量,因此還需要進(jìn)一步完善。
進(jìn)一步改善系統(tǒng)模型
本系統(tǒng)采用的多知識(shí)源融合模型可以用來(lái)建立文本的內(nèi)部表示,即加權(quán)有向圖,圖中每條邊的權(quán)值是由一個(gè)有限的系統(tǒng)參數(shù)集來(lái)確定的,由于系統(tǒng)的復(fù)雜度受到處理時(shí)間的限制,該參數(shù)集合的勢(shì)往往需要限制在一個(gè)合理的范圍內(nèi),如何用有限的參數(shù)來(lái)描述形式完全自由的文本結(jié)構(gòu)則成了一個(gè)非常關(guān)鍵的問(wèn)題。要提高系統(tǒng)的適應(yīng)性以及可優(yōu)化的空間,就需要通過(guò)增加新的知識(shí)源以及引入更多的系統(tǒng)參數(shù),同時(shí)要保證系統(tǒng)的復(fù)雜度不會(huì)過(guò)度膨脹,這也是需要進(jìn)一步研究的問(wèn)題。
多文檔自動(dòng)文摘
通過(guò)進(jìn)一步改進(jìn)語(yǔ)義量化模型并引入語(yǔ)義自動(dòng)聚類算法,基于單文檔的自動(dòng)文摘算法將有可能運(yùn)用于多文檔的文摘生成中。
12/8/05
24
多文檔自動(dòng)文摘系統(tǒng)
12/8/05
25
未來(lái)的工作
文摘系統(tǒng)的應(yīng)用開發(fā)
網(wǎng)絡(luò)信息管理與信息安全,信息管理與信息安全的一個(gè)主要任務(wù)在于對(duì)網(wǎng)絡(luò)中的大量即時(shí)信息進(jìn)行獲取與內(nèi)容分析,而這一任務(wù)完全由人工來(lái)完成顯然是不現(xiàn)實(shí)的,通過(guò)高性能的信息壓縮與摘要生成系統(tǒng)將極大的提高信息的獲取與內(nèi)容的手工或自動(dòng)分析速度,因此系統(tǒng)在該領(lǐng)域的應(yīng)用將是下一步工作的重點(diǎn)。
移動(dòng)互連網(wǎng)中的郵件到達(dá)通知服務(wù),移動(dòng)互聯(lián)網(wǎng)目前正以迅猛的速度發(fā)展,用移動(dòng)設(shè)備來(lái)處理郵件已經(jīng)具有了相當(dāng)廣泛的應(yīng)用基礎(chǔ),由于郵件到達(dá)后通常服務(wù)商是以短信的形式來(lái)發(fā)送郵件到達(dá)通知的,通過(guò)生成郵件內(nèi)容的摘要并將摘要以短信形式發(fā)送到移動(dòng)設(shè)備如手機(jī)等,將給用戶快速獲知郵件的內(nèi)容以及進(jìn)行進(jìn)一步處理提供很大的便利,因而這一應(yīng)用具有很大的市場(chǎng)前景。
信息檢索服務(wù),信息檢索技術(shù)是人們從互聯(lián)網(wǎng)上獲取信息的鑰匙,由于現(xiàn)有的信息檢索技術(shù)還無(wú)法做到準(zhǔn)確返回用戶所真正需要的信息,而是返回大量相關(guān)信息讓用戶自己從中再進(jìn)行選擇,為了加快用戶的信息選擇與獲取速度,檢索結(jié)果中往往需要將每個(gè)文本的信息進(jìn)行基于內(nèi)容的壓縮,通常是返回包含用戶的查詢條件的語(yǔ)句,這一方法雖然能加快系統(tǒng)的查詢性能,但是用戶卻往往很難從查詢系統(tǒng)所返回的信息中準(zhǔn)確判斷全文的內(nèi)容,以至于不得不下載全文來(lái)重新判斷,如果用戶發(fā)現(xiàn)這不是他所需要的內(nèi)容時(shí),必然會(huì)對(duì)檢索系統(tǒng)的性能與質(zhì)量提出質(zhì)疑。因此,為了切實(shí)提高檢索系統(tǒng)的服務(wù)質(zhì)量,在查詢過(guò)程中對(duì)查詢結(jié)果的內(nèi)容事先進(jìn)行分析并返回一個(gè)準(zhǔn)確概括全文的摘要將顯得非常必要,而本課題開發(fā)的系統(tǒng)正好能滿足這方面的需求。
12/8/05
26
謝謝!
聯(lián)系客服