国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
潛伏語義分析的理論及其應(yīng)用資料
您的位置:資料中心->文史論文->文字學(xué)論文-> 潛伏語義分析的理論及其應(yīng)用資料
文字學(xué)論文
資料閱讀排行
·方位語素地理名詞造詞的內(nèi)在手段和外在因素
·新世紀(jì)的澳門語言策略
·中國符號(hào)學(xué)研究20年
·中古音分期綜述
·新詞新語規(guī)范基本原則
·藏緬語的形修名語序
·苗瑤語核心詞的詞源關(guān)系
·】“的”的基本功能和派生功能
·吳徽語入聲演變的方式
·潛伏語義分析的理論及其應(yīng)用
潛伏語義分析的理論及其應(yīng)用
作者:未知 來源:http://www.7784.cn 加入時(shí)間:2006-3-8
1.柏拉圖問題談起
從古希臘哲人柏拉圖(Plato)開始,人們就為一個(gè)關(guān)于認(rèn)知的神秘問題所困惑:人們?yōu)槭裁茨軌蛟谒麄兯玫降南∩傩畔⒒A(chǔ)上獲得那么多的知識(shí)?這個(gè)問題有時(shí)被稱為柏拉圖問題(注:在柏拉圖對(duì)話錄里,有幾處接觸到知識(shí)來源問題。他在Meno里指出,靈魂是不滅的,已經(jīng)學(xué)習(xí)了所有的事物,所以真正的學(xué)習(xí)無非是回憶內(nèi)在的、忘記了的事物;在Phaedo里,他又把內(nèi)在論和形式理論聯(lián)系起來,例如“平等”的形式不可能來自實(shí)際的觀察,而是與生俱來的;在Cratylus里則認(rèn)為,詞語是天生(physis),不是約定俗成(nomos)的。),有時(shí)被稱為“刺激的貧乏”、“缺乏負(fù)面證據(jù)”或語言習(xí)得的邏輯問題。這個(gè)問題引起了哲學(xué)家、心理學(xué)家、語言學(xué)家、計(jì)算機(jī)科學(xué)家的廣泛興趣,各自提出不同的解釋。Chomsky派(注:Chomsky(1965,1986,2000)在不同場(chǎng)合都以兒童詞匯習(xí)得為例反復(fù)說明這個(gè)問題,因?yàn)?#8220;負(fù)面的證據(jù)”已成為他的語言共項(xiàng)論的主要支柱:Pinker(1994)從進(jìn)化、歷史、解剖、生理和兒童發(fā)育的不同角度觀察了語言的起源,認(rèn)為語言習(xí)得一定是建筑在一個(gè)強(qiáng)有力的和特殊的內(nèi)在機(jī)制,并稱之為“語言天性”。)秉承了柏拉圖和笛卡兒的觀點(diǎn)提出了“天賦論”或“內(nèi)在論”,對(duì)這個(gè)問題作出了一種回答。但是心理語言學(xué)家MacWhinney(注:Brian  Mac  Whinney最近在廣東外語外貿(mào)大學(xué)召開的心理語言學(xué)與外語教學(xué)討論會(huì)上談到,在他所提出的競(jìng)爭模型里沒有負(fù)面的證據(jù),只有正面的證據(jù)。)、自然語言處理家Sampson(注:Geoffrer  Sampson(1997)寫了一本關(guān)于語言天性爭論的專著Educating  Eve,認(rèn)為負(fù)面證據(jù)之說是自我矛盾的。在Empirical  Linguistics(2001)里,更進(jìn)一步指出,負(fù)面證據(jù)是內(nèi)省法臆想出來的。我們沒有負(fù)面證據(jù)也能歸納出萬有引力定律,為什么要編一本故意把of  of  the  of(負(fù)面證據(jù))排除在外的語法?)卻對(duì)此提出質(zhì)疑。哲學(xué)家Quine對(duì)這個(gè)問題做出另一種回答,他舉了一個(gè)所謂"Gavagai"的有趣的例子:一個(gè)到外國訪問的人看到一只兔子,偶然聽到他的資料提供人說gavagai。在這種證據(jù)貧乏的情況下,gavagai可以指“兔子”(一個(gè)完整的事物),“有皮毛的”(事物的未分離部分),或“天氣不錯(cuò),是嗎?”(事物發(fā)生的時(shí)間段),他認(rèn)為純粹以經(jīng)驗(yàn)為基礎(chǔ)的客觀真理和意義根本不存在,這簡直是“歸納法的恥辱”(scandal  of  induction)。對(duì)田野作業(yè)的語言學(xué)家來說,分析和綜合的區(qū)別并不存在。進(jìn)化心理學(xué)家Shepard(1987)卻認(rèn)為柏拉圖問題是心理學(xué)的核心問題,關(guān)于概括和相似性的普遍理論對(duì)心理學(xué)就等于牛頓定律對(duì)物理學(xué)那樣重要。
盡管大多數(shù)人都承認(rèn)語言能力的遺傳性,但是這種生物機(jī)制的存在并沒有解決Shepard所提出的概括(在母語習(xí)得里,更成為“過度概括”)和相似性的問題。這個(gè)歸納性難題經(jīng)常被看成是范疇化的問題,那就是說我們必須找出的這樣一個(gè)機(jī)制,足以把一系列刺激、語詞或概念(例如獵豹和老虎)看成是一類的(相似的)事物。但是相似性以什么為基礎(chǔ)卻眾說紛紜,有特征論、原型論,范式論、心理本質(zhì)論、心理語境論,等等,不一而足(桂詩春2000)。這些理論模型都旨在提出一些制約,以縮小歸納(也就是說學(xué)習(xí))所要解決的問題空間。就兒童詞匯習(xí)得而言,一些心理語言學(xué)家假設(shè)存在一些對(duì)詞語賦予意義的制約,兒童在早期習(xí)得詞匯時(shí)都假定:多數(shù)詞語在感知上都是對(duì)應(yīng)物體的名稱;兩個(gè)詞通常都有兩個(gè)不同的意義;享有共同聲音的詞語通常都是意義上相關(guān)的;一個(gè)不熟悉的言語聲音可能指一些兒童還未能掌握其對(duì)應(yīng)詞的東西。但是這也不是沒有問題,Landauer與Dumais(1997)指出,一個(gè)問題是我們不知道某一個(gè)制約是否真正存在;少年兒童雖然假定相同的物體只有一個(gè)名稱,但是他們所接觸的語言是否也是這樣呢?又如某一種制約的產(chǎn)生是逐步進(jìn)化的,還是通過認(rèn)知而起作用的一種普遍性制約?還有一個(gè)問題是,某些制約的存在和產(chǎn)生出于邏輯的需要,但這又是不夠的,可以從3方面看:1)某一套制約是否邏輯上和語用上充分,也就是說使用了它們以后是否就能解決問題?例如兒童認(rèn)為沒有同義詞,這在多大程度上能幫助他們學(xué)習(xí)詞匯?2)和方法論有關(guān),怎樣才能獲得前一個(gè)問題的答案?怎樣知道某一些特定制約的組合應(yīng)用到自然環(huán)境的輸入時(shí)才能解決問題?3)怎樣決定一個(gè)提出來的模型是否具有心理現(xiàn)實(shí)性?Landauer認(rèn)為要解決這些問題必須使用模擬的模型。而他和其他幾個(gè)研究人員Foltz、Dumais、Deerwester、Furnas等人(Deerwester  et.al.1990)所提出的,而又得到著名語篇研究者Kintsch支持的模型就是潛伏語義分析(Latent  Semantic  Analysis,LSA)。這是一個(gè)多維數(shù)的線性組合模型,“這個(gè)模型只是一個(gè)普遍的學(xué)習(xí)機(jī)制,本身并不體現(xiàn)人類知識(shí),但是它通過分析一個(gè)很大的自然語言文本語料庫來生成一個(gè)足以體現(xiàn)詞語和文本片段的相似性的表征。”
2.LSA的理據(jù)
從潛伏性語義分析的角度看來,歸納就是減少維數(shù)(reduction  of  dimensionality)。Landauer舉了一個(gè)形象的例子,一個(gè)人站在高原上打電話告訴他的朋友三間房子的位置,A和B、A和C的距離都是5個(gè)單位,而B和C的距離則是8個(gè)單位。在他的朋友腦海里就形成一個(gè)兩個(gè)維數(shù)的三角形。如果他繼續(xù)補(bǔ)充說,這三間房子是在一條直線上,他的朋友就會(huì)說,他一定是看錯(cuò)了這三個(gè)房子的距離。A和B、C的距離應(yīng)該是4.5個(gè)單位,而B和C的距離應(yīng)該是9個(gè)單位。因?yàn)樵谝粋€(gè)兩維數(shù)的三角形里,其底邊應(yīng)該是其他兩個(gè)邊的和。這說明,減少維數(shù)可改善估算。在研究工作中,研究人員往往通過減少維數(shù)來降低計(jì)算的復(fù)雜性,即把數(shù)據(jù)作平滑化處理:簡化數(shù)據(jù)并填補(bǔ)所缺的節(jié)點(diǎn)。在東京召開的聯(lián)合國大學(xué)主持的混沌對(duì)科學(xué)和社會(huì)的沖擊學(xué)術(shù)會(huì)議上,兩個(gè)著名的混沌學(xué)專家Feigenbaun和Aihara就一致認(rèn)為,人腦由100億個(gè)神經(jīng)元組成,而我們要對(duì)它的相互作用進(jìn)行觀察只能選取一個(gè)極低的維數(shù)。(注:這次大會(huì)的文集我國已由楊立、劉巨彬等譯,劉式達(dá)、杜先之等校,湖南科學(xué)技術(shù)出版社出版,題為《混沌:對(duì)科學(xué)和社會(huì)的沖擊》,兩人的對(duì)話見該書394-395頁。)在統(tǒng)計(jì)學(xué)中,這種減少維數(shù)的方法,例如因子分析、多維數(shù)量表也經(jīng)常被采用,Osgood(1971)在70年代所做的語義微分分析就用過因子分析。同樣地,我們也可以把兩個(gè)詞的語義相似性表示為距離:距離越近,相似性就越強(qiáng)。假定兩個(gè)詞在一個(gè)語篇單位(短語、句子或段落)中出現(xiàn)的頻率和它們的語義距離成反比例(頻率越多,距離越近),那它們就和語義相似性直接相關(guān)。我們可以通過觀察兩個(gè)詞在同一單位中出現(xiàn)的相對(duì)頻率來估算出其語義相似性。因?yàn)槿藗冞M(jìn)行交際時(shí),都會(huì)使用一些基本成分(如詞),使兩個(gè)詞語中存在某種相對(duì)的相似性。發(fā)送者會(huì)選擇同一語義空間彼此相近的詞,它們就會(huì)有不同的語義距離;而接收者則會(huì)按照它們?cè)谕簧舷挛闹械南鄬?duì)頻率來估算這些距離。但是自然語言中的詞語數(shù)量極為龐大,而接收到的詞語卻數(shù)量極少,例如兩個(gè)詞的頻率都是百萬分之一,它們雖然有相關(guān)的意義,也不大可能會(huì)一起發(fā)生。可是如果我們的接收機(jī)制按照統(tǒng)計(jì)知識(shí)把接受到的詞語表示為相似的語義空間,即同一個(gè)維數(shù)的各個(gè)節(jié)點(diǎn),情況就會(huì)大大改善。
附圖
基于上述的假設(shè),潛伏性語義分析可以用來比較不同語篇的語義相似性。研究語篇理解的首要目標(biāo)是:了解有哪些足以影響讀者從文本材料中抽取和保存信息的能力的因素,例如讓受試寫一篇文本材料的摘要,然后再看他們從文本中獲取了什么信息。這意味著把讀者的文本表征(認(rèn)知模型)和原來的文本表征加以比較,即把摘要中每一個(gè)句子的信息和文本中的句子信息加以比較。但是要對(duì)信息進(jìn)行比較并非易事,它要求掃描原文,找出信息的所在。而且受試所寫的摘要往往并不全都采用原文中的詞語。所以光比較詞語也不成。研究人員要比較的是摘要和原來文本的語義內(nèi)容。Kintsch(1988,1998)所提出的構(gòu)建整合模型(construction-integration  model)就是一個(gè)觀察讀者對(duì)文本表征的認(rèn)知模型,它把讀者摘要的語義信息表示為一些語義成分組合,稱之為命題(prepositions)。文本中的每一個(gè)子句是一個(gè)命題(如the  red  rose和the  rose  is  red,都屬于一個(gè)命題)。這些命題根據(jù)各種范疇連接起來,例如看它們是否共享中項(xiàng)(arguments)和指稱(referents)。一個(gè)文本的所有命題組合起來就成為文本結(jié)構(gòu)。不少實(shí)驗(yàn)都證明命題是人們的心理處理單位(如Graesser1981)。對(duì)文本和受試對(duì)它回述進(jìn)行命題分析可以對(duì)一系列語義基本元素加以比較,其好處是這種比較并非表層結(jié)構(gòu)的比較。但問題是,目前還沒有生成命題的自動(dòng)化程序,因?yàn)橛?jì)算機(jī)必須對(duì)文本進(jìn)行正確的語法分析,并且了解詞語的正確意義。于是可以利用計(jì)算機(jī)來對(duì)語義相似性進(jìn)行比較的潛伏性語義分析就應(yīng)運(yùn)而生了。
LSA原來是建筑在以語義內(nèi)容的基礎(chǔ)上以改善信息提取的一種設(shè)計(jì),稱為潛伏性語義索引(Latent  Semantic  Indexing,LSI)。在現(xiàn)實(shí)生活里,往往同一個(gè)語義概念表示為不同的詞語,如果以原詞作為檢索單位,就費(fèi)時(shí)失事。例如“電子計(jì)算機(jī)”往往又可以簡稱為“計(jì)算機(jī)”或“電腦”,甚至“服務(wù)器”和“機(jī)器”。如果在檢索中只鍵入任何一種說法就能查出“電子計(jì)算機(jī)”,不是方便得多嗎?這種方法還可以避免同義性的問題。LSA的基本假設(shè)是不同文件(文件可大可小,可以是詞語所出現(xiàn)的整個(gè)語境,也可以是某些文本、段落和句子)的詞語使用型式存在著某種“潛伏的”結(jié)構(gòu),而使用一些統(tǒng)計(jì)的方法可以估量出這種潛伏性結(jié)構(gòu)。這些方法通過分析詞語和文件之間的聯(lián)系,產(chǎn)生一個(gè)在相同語境中使用的詞語將會(huì)在語義上更為密切聯(lián)系的表征。例如:
(1)The  U.S.S.Nashville  arrived  in  Colon  harbor  with  42  marines
(2)With  the  warship  in  Colon  harbor,the  Colombian  troops  withdrew.
"warship"所出現(xiàn)的語境(LSA稱之為“向量”,vector)和"Nashville"所出現(xiàn)的語境相似,兩者的上下文都有"Colon"和"harbor"。LSA所使用的技巧可以自動(dòng)找出這些更深層的聯(lián)系的結(jié)構(gòu)。
又如我們讀到下面的句子:
(3)John  is  Bob‘s  brother  and  Mary  is  Anne‘s  mother.
(4)Mary  is  Bob‘s  mother.
這兩句話里并沒有出現(xiàn)表示親屬關(guān)系的sister,daughter,father,son等詞語,但第(4)句使我們意識(shí)到Bob和Ann是兄弟姐妹,Anne是John的女兒,John是Ann的父親,Bob是Mary的兒子。當(dāng)然LSA所推斷出的詞際關(guān)系往往并非完全符合邏輯,它所揭示的僅是相似性關(guān)系。這些關(guān)系相互牽連和制約,可以產(chǎn)生出一些模糊的間接推斷,關(guān)系上可強(qiáng)可弱,邏輯上可對(duì)可錯(cuò)。
3.怎樣做LSA?
LSA以大規(guī)模的語料庫為基礎(chǔ),使用了一種完全自動(dòng)化的數(shù)學(xué)/統(tǒng)計(jì)技巧來抽取和推斷詞際關(guān)系,這種技巧就是線性代數(shù)中的奇異值分解(Singular  Value  Decomposition,SVD)。從概念上說,LSA模型可以理解為一個(gè)具有三層的神經(jīng)網(wǎng)絡(luò)系統(tǒng)。在SVD里,一個(gè)m×n的長方形矩陣{A}(m是行,n是列,m>n),被分解為三個(gè)矩陣:一個(gè)是m×n的成分矩陣{U},把原來的列的實(shí)體表示為派生的正交因子值的向量;另一個(gè)矩陣{w}用同樣的方法表示原來列N×N的實(shí)體;第三個(gè)矩陣{V}的轉(zhuǎn)置(transpose)是一個(gè)包括有標(biāo)度值的直角矩陣(N×N)。
{A}={U}{w}{V}[T]
 
這三個(gè)矩陣相乘就可以恢復(fù)原來矩陣。如果我們?cè)诨謴?fù)時(shí)減少維數(shù),就可以取得壓縮語義空間的效果。
附圖
下面是一個(gè)常被引用的例子:現(xiàn)有9條技術(shù)備忘錄的題目,其中5條是關(guān)于人和計(jì)算機(jī)交互作用的,4條是關(guān)于數(shù)學(xué)圖論的。這些題目在概念上不大相關(guān),它們構(gòu)成一個(gè)9列12行的矩陣,每一行是在這些題目中出現(xiàn)起碼兩次的實(shí)義詞(均標(biāo)為斜體),整理為表1。
c1:Human  machine  interface  for  ABC  computer  applications
c2:A  survey  of  user  opinion  of  computer  system  response  time
c3:The  EPS  user  interface  management  system
c4:System  and  human  system  engineering  testing  of  EPS
c5:Relation  of  user  perceived  response  time  to  error  measurement
m1:The  generation  of  random,  binary,ordered  trees
m2:The  intersection  graph  of  paths  in  trees
m3:Graph  minors  IV:Widths  of  trees  and  well-quasi-ordering
m4:  Graph  minors:A  survey
表1
附圖
使用SVD技術(shù),就得到下列的3個(gè)矩陣,如表2:
表2
附圖
然后我們?nèi)∵@三個(gè)矩陣的頭兩列(即取其兩個(gè)維數(shù))來加以還原,便得到下面的矩陣(表3):
表3
附圖
我們可以首先看m4列的survey和trees。trees這個(gè)詞在m4題目里并沒有出現(xiàn),但是m4里有Graph  minors,而m3里也有Graph  minors,且出現(xiàn)了trees,所以在原來矩陣?yán)餅?的值被變?yōu)?.66,它表示在有g(shù)raph和minors的題目的無限樣本中,trees可能出現(xiàn)0.66倍。相反地,survey在原來矩陣中的m4中為1,但是卻變?yōu)?.42,反映了它在這樣的上下文里并非人們所期望的,不足以表示這個(gè)題目的特征。我們還可以比較human和user,human和minors在原來矩陣和后來矩陣的相關(guān)系數(shù):前者原為-.38,后者原為-.29,現(xiàn)分別提高到.94和-.83。而在原來的矩陣?yán)?,human并沒有和user或minors一起出現(xiàn)。減少了維數(shù)后顯示human和user是更為相似,而human和minors則相反,更為不相似。
LSA可以用來揭示一些隱含的內(nèi)部關(guān)系。讓我們?cè)倏戳硪粋€(gè)例子。中國學(xué)生英語語料庫(桂詩春、楊惠中,2002)是一個(gè)有100萬詞的作文語料庫,對(duì)5種不同水平——中學(xué)生(st2)、大學(xué)英語4級(jí)(st3)、大學(xué)英語6級(jí)(st4)、專業(yè)英語低年級(jí)(st5)、專業(yè)英語高年級(jí)(st6)——的寫作失誤進(jìn)行了標(biāo)注(共有61種)。最常見的失誤有21種,占全部失誤的87%。根據(jù)Landauer等人的意見,在進(jìn)行SVD之前,必須對(duì)這些數(shù)據(jù)作預(yù)處理:1)把每個(gè)頻數(shù)+1,然后轉(zhuǎn)換成對(duì)數(shù);2)把每一列的數(shù)值計(jì)算為-plog  p,然后除以每列的平均信息量(即熵,entropy)。其公式(Maletic  et  al.1999)為:
附圖
這樣做的目的是通過估算每一個(gè)詞項(xiàng)在每一個(gè)語篇的重要性(即該詞項(xiàng)與它所出現(xiàn)的語篇所提供的信息量的程度成反比例),對(duì)它的出現(xiàn)率加權(quán)。在信息提取中經(jīng)常使用這種轉(zhuǎn)換,可獲顯著效果。限于篇幅,我們略去了計(jì)算的中間數(shù)據(jù)和經(jīng)SVD處理后(包括將維數(shù)減為2個(gè))結(jié)果(注:我們使用的工具是Excel的“數(shù)據(jù)分析”和國際牲畜研究院Greg  Hood所編制的,可在Excel上運(yùn)轉(zhuǎn)的Poptools2.4版。),只報(bào)告幾個(gè)有意義的變化,這些變化說明,由于減少了維數(shù),幾種學(xué)習(xí)者的言語失誤的關(guān)系都有所微調(diào),趨于更為合理。例如第一種失誤是拼寫失誤(Fml)。轉(zhuǎn)換值并沒有改變?cè)瓉淼拇涡颍髮W(xué)英語4級(jí)和6級(jí)學(xué)習(xí)者的拼寫失誤比中學(xué)學(xué)習(xí)者略多,因?yàn)樗鼈兊恼Z源來自CET考試的命題寫作,而中學(xué)生則是自由作文的居多。命題寫作有特定的用詞要求,往往成為拼寫失誤的來源(如要求學(xué)習(xí)者用pollution)?,F(xiàn)在的分析并沒有把特定用詞要求考慮在里面,而僅就失誤的頻數(shù)和其他失誤的關(guān)系而言,經(jīng)過SVD處理后,這種失誤的發(fā)生率呈現(xiàn)為逐步略有降低的趨勢(shì),較符合中國英語學(xué)習(xí)者的實(shí)際。和寫作用詞有很大聯(lián)系的是用錯(cuò)了詞(wd3),經(jīng)過SVD處理后的變化如下:
Fm1   St2   St3   St4   St5   St6
原始頻數(shù) 1929   2877  2113   1827  1687
轉(zhuǎn)換值  3.30   3.47  3.34   3.27  3.24
處理后值 3.52   3.46  3.36   3.25  3.00
Wd3   St2   St3   St4   St5   St6
原始頻數(shù) 1102   1635  1815   757360
轉(zhuǎn)換值  3.27   3.45  3.50   3.09  2.75
處理后值 3.30   3.49  3.44   2.99  2.84
經(jīng)處理后,St3仍然是最高的,但St4的絕對(duì)頻數(shù)雖然是最高的,處理后則比St3略低。St6的絕對(duì)頻數(shù)比St5的少一半,但處理后的值為2.84并沒有比2.99少一半,僅低0.15倍,這說明用錯(cuò)詞在St6中仍然是一個(gè)常犯的失誤。句法結(jié)構(gòu)(Sn8)的失誤也是中國學(xué)習(xí)者常見的失誤,下面是另一個(gè)SVD處理后的變化:
Sn8   St2   St3   St4   St5   St6
原始頻數(shù) 1104   446   862   493   232
轉(zhuǎn)換值  3.27   2.85  3.16   2.90  2.55
處理后值 3.14   3.06  2.97   2.90  2.68
從絕對(duì)頻數(shù)來看,St3似乎比St2和St4、St5都少,處理后則顯得較為合理,趨于逐步降低。
一般來說,在SVD處理后還可以比較處理前后的余弦cosine(θ)(注:余弦Cosine(θ)為兩個(gè)向量的夾角,比相關(guān)系數(shù)更能表示相似性的程度。其公式為:),有時(shí)亦用相關(guān)系數(shù)來表示。經(jīng)過計(jì)算,相關(guān)系數(shù)從處理前的0.604增至0.728。拼寫失誤是中國學(xué)習(xí)者最容易犯的失誤,和各種失誤都有密切的關(guān)系。經(jīng)處理后,它的平均相關(guān)系數(shù)從0.614提高到0.817。
4.LSA的應(yīng)用
LSA以矩陣代數(shù)的SVD為依托,而SVD在信息處理,如圖象壓縮、噪音過濾、開發(fā)軟件的源代碼等方面都得到較廣泛的使用。LSA在語篇處理和語義的分析和提取方面均有廣闊應(yīng)用前景。
第一、我們要看LSA模型是怎樣回答我們柏拉圖問題。需要證明的是通過大量接觸自然文本,人們能否獲得語義相似性的知識(shí)?Landauer等人先對(duì)一個(gè)有代表性的英語語料庫(包括美聯(lián)社的新聞、給學(xué)生看的Grolier‘s美國大百科詞典和有代表性的兒童讀物)做SVD分析,然后用這個(gè)模型來做一次TOEFL同義詞測(cè)試(共80個(gè)項(xiàng)目)。為了模擬人的行為,他們把題目中的測(cè)試詞和每個(gè)選項(xiàng)的余弦都計(jì)算出來,然后讓LSA模型來選擇意義最接近的詞。LSA的答對(duì)率為65%,相當(dāng)于在美國的來自非英語國家的考生的平均答對(duì)率。但是要進(jìn)一步回答兒童怎樣在“負(fù)面的證據(jù)”的情況下習(xí)得詞匯,還要考慮效率問題。Landauer等人認(rèn)為,歸納方法取決于重建一個(gè)處于高維數(shù)空間的多重相似性系統(tǒng),這樣出現(xiàn)在局部上下文的事件也就可以反映高層次語義空間的相似性。因?yàn)樗姆种脑~語知識(shí)都是來自間接歸納,即接觸一些那些詞語并不在其中出現(xiàn)的文本。他們進(jìn)一步完善其語料庫的選詞辦法,并對(duì)照Carroll等人的Word  Frequency  Book(1971)所提供的數(shù)據(jù),推斷出每一段文本后的詞匯增長率為0.20。如果一般學(xué)生每天平均讀50段文字,就可每天增長10個(gè)新詞。
第二、在信息提取方面,出現(xiàn)了LSI技術(shù),以取代一般的主題詞檢索。早在80年代,Dumais等人(1982)對(duì)一個(gè)包括有1033個(gè)醫(yī)學(xué)文獻(xiàn)的摘要和題目的數(shù)據(jù)庫,自動(dòng)檢索到出現(xiàn)兩次以上的詞語5823個(gè),經(jīng)過SVD處理取得100個(gè)因子,然后對(duì)數(shù)據(jù)庫提出30個(gè)問題,LSI比原來的主題詞檢索改善了13%。后來技術(shù)有所提高,據(jù)Berry等人(1994)對(duì)幾個(gè)系統(tǒng)的檢驗(yàn),LSI的改善程度已達(dá)30%。Deerwester等人(1990)認(rèn)為,LSI的優(yōu)點(diǎn)是,它可以解決同義性、多義性和詞語依賴性(term  dependency)三方面的問題。LSI的研究還在發(fā)展,一些令人興奮的進(jìn)展是信息過濾、增加檢索問題的長度(TREC系統(tǒng)可以提出長達(dá)50個(gè)詞的問題來進(jìn)行檢索)和進(jìn)行跨語種檢索(Rosario  2000)。
第三、文本相似性研究。在語篇理解方面,F(xiàn)oltz,Kintsch和Landauer(1993)等人用LSA來自動(dòng)化處理語篇連貫(以心臟科學(xué)文獻(xiàn)為試驗(yàn)樣本),把一個(gè)句子或片段和接著的句子或片段的連貫性來分析比較,其相關(guān)系數(shù)高達(dá).90。在他們所建立的網(wǎng)站http://LSA.colorado.edu上面提供了一些已經(jīng)根據(jù)心理學(xué)、百科全書、文學(xué)成語、心臟科學(xué)的語料庫給讀者進(jìn)行網(wǎng)上比較文本相似性研究。例如我們隨機(jī)從一本認(rèn)知心理學(xué)教科書里找了兩段在詞語上沒有多大聯(lián)系的話:
"These  findings  indicate  a  considerable  degree  of  functional  equivalence  of
perception
and  imagery.However,it  is  possible  that  subjects  in  the  imagery  condition  merely
made
plausible  guesses  about  the  fields  of  resolution,and  did  not  actually  rely  on
imagery
at  a11."
"While  it  is  very  straightforward  to  see  that  previous  learning  can  facilitate
problem
solving  by  supplying  well-practiced  skills  and  strategies,it  is  perhaps  less  obvious  that  knowledge  acquired
in  the  past  can  sometimes  disrupt,and  interfere  with,subsequent  attempts  to  solve
problems."
這兩段話在用詞方面沒有太多相同之處,但是和心理學(xué)語料庫的維數(shù)比較以后,它們的相關(guān)是.82。
第四、使用LSA來進(jìn)行寫作質(zhì)量評(píng)估。Landauer,Laham和Foltz(1998)試驗(yàn)使用5種不同的方法來應(yīng)用LSA對(duì)作文題目的答案進(jìn)行評(píng)分,如讓評(píng)分員對(duì)一些作文樣本進(jìn)行評(píng)分,然后計(jì)算出評(píng)了分的作文和未評(píng)分的作文的余弦,再根據(jù)相似性權(quán)重把最相似的作文分?jǐn)?shù)的平均分賦予未評(píng)分的作文,等等。這5種方法所評(píng)出的分?jǐn)?shù)的相關(guān)程度接近于它們和專家評(píng)分的相關(guān)程度。在另一項(xiàng)研究中,他們還用這方法來評(píng)估8個(gè)考試,題目從心臟解剖和生理學(xué)到心理學(xué)概念,美國歷史,當(dāng)前社會(huì)問題和市場(chǎng)問題。通過元分析發(fā)現(xiàn)LSA和專業(yè)評(píng)分員(來自教育考試服務(wù)公司或其他專業(yè)機(jī)構(gòu)或課程導(dǎo)師)的相關(guān)高于專業(yè)評(píng)分員之間的相關(guān)。LSA評(píng)分的可靠性說明一個(gè)篇章的全面的語義表征主要決定于詞的選擇,而對(duì)句法使用則要求不高。
第五、使用LSA來模擬心理語言學(xué)試驗(yàn)。語義啟動(dòng)是一種常用的試驗(yàn),Landauer用LSA方法來模擬Till等人(1988)的判斷多義詞的試驗(yàn),結(jié)果完全一致。這些結(jié)果顯示在語篇理解中,忽略了詞序、句子結(jié)構(gòu)、非線性的詞與詞的相互作用的詞義關(guān)系也能夠預(yù)測(cè)人類的行為。Kintsch等人(1999)還通過LSA所獲得的信息提出長時(shí)工作記憶(Long-term  Working  Memory,LTWM)的理論。他認(rèn)為人類的記憶系統(tǒng)包括了感知特征、語言特征、命題結(jié)構(gòu)、宏結(jié)構(gòu)、語境模型、控制結(jié)構(gòu)、目標(biāo)、詞匯知識(shí)、框架、一般知識(shí)、情節(jié)記憶等等成分。它們對(duì)理解語篇至為重要,遠(yuǎn)遠(yuǎn)超過短時(shí)記憶。LTWM認(rèn)為在某些條件下工作記憶可以大大延伸,LSA在某種程度模擬了這種機(jī)制,實(shí)際上也模擬了人類的知識(shí)系統(tǒng)。大部分人類知識(shí)都體現(xiàn)為語言,而LSA通過減少維數(shù)來篩選它所處理的信息,從而保留了它所處理的文本的主要語義關(guān)系。例如在LSA處理的文件中,mountain和mountains的相關(guān)系數(shù)可能很低,但是通過減少維數(shù)后,它們的相關(guān)卻是.81。它的推斷是這兩個(gè)詞在語義上有密切聯(lián)系。同樣地,圍繞mountain還可以找到peaks,rugged,ridges和climber,而圍繞mountains又可以找到peaks,rugged,plateaus和foothills。我們所需要的正是這些信息,以認(rèn)識(shí)人們?cè)诶斫膺^程中是怎樣通過LTWM來激活知識(shí)的。又如"The  band  played  a  waltz."(樂隊(duì)奏了一曲華爾茲)和"Mary  loved  to  dance."  (瑪麗喜歡跳舞)這兩句話雖然無甚直接聯(lián)系,但它們都分別激活了一些第三方的互有聯(lián)系的語詞,故其余弦為.45。
第六、在LSA的基礎(chǔ)上,Kintsch等(2000)及Steinhart(2001)又開發(fā)了訓(xùn)練學(xué)生寫作的軟件。這個(gè)軟件是一個(gè)在線的輔導(dǎo)學(xué)生寫摘要的軟件,叫做Summary  Street。Steinhart認(rèn)為,寫摘要是一種比較難的技能,低年級(jí)學(xué)生(如初中生)往往依靠“抄和減”的策略來寫摘要,而高年級(jí)的學(xué)生(如高中生)則使用較復(fù)雜的壓縮規(guī)則,如重建和歸納。寫摘要訓(xùn)練不僅僅是一種寫作技巧的訓(xùn)練,它可以提高學(xué)生的閱讀理解、獲取知識(shí)和思維能力。這個(gè)軟件首先讓學(xué)生看一些文章如能源科學(xué)、古代文明、血液循環(huán)系統(tǒng)等,然后提出寫摘要的一些要求,如找出主題句、找出支持主題句的兩三個(gè)重要思想和細(xì)節(jié),把它們組成一句話,用一個(gè)概括性的詞語來代替具體的項(xiàng)目和事件,避免煩瑣的信息和細(xì)節(jié),避免重復(fù)信息等等。學(xué)生根據(jù)這些要求把閱讀的文章寫成摘要,在網(wǎng)上輸入到Summary  Street系統(tǒng)里,系統(tǒng)就能分析摘要,告訴學(xué)生摘要在多大程度上反映原文,長度是否合乎要求,等等。學(xué)生可以通過系統(tǒng)提供的反饋信息(包括指出拼寫錯(cuò)誤和用詞不當(dāng),信息覆蓋面是否足夠等),不斷改寫摘要。他在Boulder縣中學(xué)試驗(yàn)的結(jié)果說明,運(yùn)用Summary  Street訓(xùn)練學(xué)生所寫出的摘要比使用傳統(tǒng)的文字處理器寫出的摘要要好,特別是處理難度比較大的文章更是如此。
5.啟發(fā)和問題
LSA直逼哲學(xué)上的認(rèn)識(shí)論問題,卻又開拓了廣闊的應(yīng)用前景,惹人深思。一是人們認(rèn)識(shí)世界從意義開始,語篇里隱含著許多錯(cuò)綜復(fù)雜的語義關(guān)系,是了解語義的鑰匙。二是現(xiàn)代科學(xué)技術(shù)為建立、儲(chǔ)存和提取包括了大量語篇的語料庫創(chuàng)造了條件,也為人們認(rèn)識(shí)這些錯(cuò)綜復(fù)雜的語義關(guān)系創(chuàng)造了條件,使我們有可能解決許多與文本有關(guān)的問題。三是認(rèn)識(shí)問題的一個(gè)有效途徑是減少維數(shù),提高概括力。和維數(shù)匹配的歸納可以大大改善知識(shí)的提取和表征。四是LSA要解決的語篇中的語義關(guān)系,它既依賴于計(jì)算機(jī)技術(shù),又利用了奇異值分解的線性代數(shù)模型,充分體現(xiàn)了文理互相滲透的特點(diǎn)。
但是LSA也留下了一些有待我們繼續(xù)探索的問題。最主要的是它只考慮語詞,而不考慮句法信息,甚至不考慮詞序的信息。而且它完全依賴于數(shù)學(xué)模型,所得到的結(jié)果有時(shí)不好解釋。
【參考文獻(xiàn)】
1 Berry,M.,S.Dumais,&  G.O‘Brien[M].1994.Using  linear  algebra  for  Intelligent  Information  Retrieval  [M].Boston:
Houghton
Mifflin  Company.
2 Carroll,J.,et  al.1971.Word  Frequency  Book.Houghton  Mifflin  Company  &  American
Heritage
Publishing  Co.,Inc.
3 Chomsky,N.1965.Aspects  of  the  Theory  of  Syntax  [M].Cambridge,MA:
MIT  Press.
4 Chomsky,N.1986.Knowledge  of  language:Its  nature,origin,and  use  [M].
Westport:
Greenwood
Publishing  Group.
5 Chomsky,N.2000.New  horizons  in  the  study  of  language  and  mind[M].Cambridge:Cambridge  University  Press.
6 Deerwester,S,S.Dumais,G.Fumas,T.Landuauer,&  R.Harshman.1990.Indexing  by  latent
semantic  analysis  [J]
.Journal  of  the  American  Society  for  Information  Science  41:391-407.
7 Dumais,S.et  al.1982.Using  semantic  analysis  to  improve  access  to  textual
information  [J].Machine  Studies  17:87-107.
8 Foltz,P.W.,W.Kintsch  &  T.K.Landauer.1993  (Jan).  An  analysis  of  textual  coherence
using  Latent  Semantic  Indexing  [A].Paper  presented  at  the  meeting  of  the  Society
for  Text  and  Discourse,Jackson,WY.
9 Geoffrey  sampson.2001.Empirical  Linguistics  [M].London:Continuum.
10 Graesser,A.1981.Prose  Comprehension  beyond  the  word  [M].New  York:Springer.
11 Kintsch,W.,D.Steinhart,G.Stahl  &  LSA  Research  Group.2000.  Developing  summarization
skills  through  the  use  of  LSA-Based  Feedback  [J].Interactive  learning  environments  8  (2):87-109.
12 Kintsch,W.1988.The  role  of  knowledge  in  discourse  comprehension:A  construction-integration  model  [J].Psychological  Review  95:163-182.
13 Kintsch,W.1998.Comprehension  [M].Cambridge  University  Press:86-91.
14 Kintsch,W.,L.Vimla,K.Patel  &  A.Ericsson.1999.The  role  of  long-term  working  memory  in  text  comprehension  [J].Psychologia  42:186-198.
15 Landauer,T.&  S.Dumais.1997.A  solution  to  Plato‘s  problem:The  Latent  Semantic
Analysis  theory  of  the  acquisition,induction,and  representation  of  knowledge
[J].Psychological  Review  104:211-240.
16 Landauer,T.K.,D.Laham  &  P.W.Foltz.1998.Computer-based  grading  of  the  conceptual  content  of  essays.Unpublished  manuscript.
17 Landauer,T.,P.W.Foltz  &  D.Lanham.1998  An  introduction  to  latent  semantic
analysis  [J].  Discourse  Processes  25:259-284.
18 Maletic,J.et  al.1999.14[th]IEEE  ASE‘99  [A].Cocoa  Beach  FL.12-15[th][C].pp.251-254.
19 Osgood,C  1971.Exploration  in  semantic  space:A  personal  diary  [J].Journal  of  Social
Issues  27:5-64.
20 Pinker.1994.The  Language  Instinct.[M].New  York:William
Morrow  Company,Inc.
21 Rosario,B.2000.Latent  Semantic  Indexing:An  overview
[A].INFOSYS
240  Spring  2000.
22 Shepard,R.1987.Towards  a  universal  law  of  generalization
for  psychological
science  [J].Science  237:1317-1323.
23 Steinhart,D.2001.Summary  Street:an  intelligent  tutoring  system
for  improving  student  writing  through
the  use  of  latent  semantic  analysis  [D].Unpublished  doctoral
dissertation,Institute  of  Cognitive
Science,University  of  Colorado,Boulder.
24 Till,R,E.Mross  &  W.Kintsch.1988.Time  course  of  priming  for
associate  and  inference
words  in  discourse
context  [J].Memory  and  Cognition  16:283-299.
25 van  Dijk,T.,&  W.Kintsch.1983.Strategies  of  discourse
comprehension
[M].New  York:Academic  Press.
26 桂詩春,2000,《新編心理語言學(xué)》[M]。上海:上海外語教育出版社,308-329。
 
下一篇資料:吳徽語入聲演變的方式
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
使用python進(jìn)行新聞文檔聚類(潛在語義分析)
向量語義與嵌入
基于用戶的協(xié)同過濾和皮爾遜相關(guān)系數(shù)
今天來聊一聊人工智能技術(shù)中的矩陣和張量分解
Edwin Chen的Netflix推薦競(jìng)賽技術(shù)總結(jié)
推薦系統(tǒng)與協(xié)同過濾、奇異值分解
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服