国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
知識(shí)增強(qiáng)的文本生成研究進(jìn)展

?作者|李軍毅

機(jī)構(gòu)|中國(guó)人民大學(xué)高瓴人工智能學(xué)院

研究方向 | 自然語(yǔ)言生成與知識(shí)融合


本文梳理近些年在知識(shí)增強(qiáng)的文本生成領(lǐng)域的一系列研究進(jìn)展,其主要內(nèi)容參考以下這篇論文。


A Survey of Knowledge-Enhanced Text Generation
(https://arxiv.org/abs/2010.04389)

 我們建立了自然語(yǔ)言處理、深度學(xué)習(xí)、知識(shí)圖譜等方向的討論組,歡迎大家加入討論(人數(shù)達(dá)到上限,添加下方好友手動(dòng)邀請(qǐng)),注意一定備注喔!

一、研究背景

文本生成是目前自然語(yǔ)言處理(NLP)領(lǐng)域一個(gè)非常重要且有挑戰(zhàn)的任務(wù)。文本生成任務(wù)通常是以文本作為輸入(例如序列,關(guān)鍵詞),通過(guò)將輸入文本數(shù)據(jù)處理成語(yǔ)義表示,生成可以理解的自然語(yǔ)言文本。幾個(gè)具有代表性的文本生成任務(wù),例如機(jī)器翻譯,文件摘要,對(duì)話系統(tǒng)。自從2014年Seq2Seq框架提出以來(lái),文本生成迅速成為研究熱點(diǎn),包括一系列經(jīng)典而有效的模型,例如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),卷積神經(jīng)網(wǎng)絡(luò)(CNN),Transformer?;谶@些模型,注意力機(jī)制(attention)和拷貝機(jī)制(copy/pointer-generator)的提出也極大促進(jìn)了文本生成的研究。但是,研究人員發(fā)現(xiàn),傳統(tǒng)的文本生成任務(wù)只依靠輸入文本進(jìn)行生成,缺乏更加豐富的“知識(shí)”信息,因此生成的文本往往非常乏味,缺少有意思的內(nèi)容。例如在對(duì)話系統(tǒng)中,如果只提供一段輸入文本而沒(méi)有其他上下文,對(duì)話機(jī)器人往往會(huì)回答“我也是一樣”,“我聽(tīng)不懂你在說(shuō)什么”等。相比之下,人類(lèi)通過(guò)從外界獲取、學(xué)習(xí)和儲(chǔ)存知識(shí),可以迅速理解對(duì)話里的內(nèi)容從而做出合適的回復(fù)。所以,“知識(shí)”對(duì)于文本生成任務(wù)而言,可以超越輸入文本中的語(yǔ)義限制,幫助文本生成系統(tǒng)生成更加豐富、有意思的文本。在文本生成任務(wù)中,“知識(shí)”是對(duì)輸入文本和上下文的一種“補(bǔ)充”,可以由不同方法和信息源獲得,包括但不限于關(guān)鍵詞,主題,語(yǔ)言學(xué)特征,知識(shí)庫(kù),知識(shí)圖譜等,可以參考下圖1中的 Information Sources。這些“知識(shí)”可以通過(guò)不同的表示方法學(xué)習(xí)到有效的知識(shí)表示,用于增強(qiáng)文本生成任務(wù)的生成效果,這就被稱(chēng)為知識(shí)增強(qiáng)的文本生成(Knowledge-Enhanced Text Generation)。因此,知識(shí)增強(qiáng)的文本生成主要有兩個(gè)難點(diǎn):如何獲取有用的知識(shí)(圖1 Information Sources),以及如何理解并借助知識(shí)促進(jìn)文本生成(圖1 Methods)。接下來(lái)的內(nèi)容將主要圍繞著這兩個(gè)問(wèn)題進(jìn)行展開(kāi)。


圖 1

二、知識(shí)融合的文本生成

這一部分主要介紹幾種通用的將知識(shí)融入文本生成的方法。下圖2是常用的數(shù)學(xué)符號(hào)標(biāo)記。


圖 2

2.1 基礎(chǔ)文本生成模型

傳統(tǒng)的文本生成模型主要是基于encoder-decoder框架,encoder學(xué)習(xí)將輸入文本編碼為向量表示,decoder則負(fù)責(zé)將此向量表示解碼為文本序列。從概率角度來(lái)說(shuō),encoder-decoder框架就是學(xué)習(xí)一個(gè)條件概率分布,給定輸入文本文本,即下式:

經(jīng)典模型包括2014年提出的RNN-Seq2Seq模型(其中  ):

以及2017年提出的Transformer模型(其中  ):

文本生成過(guò)程可以看做是一個(gè)序列化的多標(biāo)簽分類(lèi)問(wèn)題,它可以通過(guò)負(fù)對(duì)數(shù)似然(NLL)損失進(jìn)行優(yōu)化。因此,文本生成模型的目標(biāo)函數(shù)是一個(gè)最大化似然估計(jì)(MLE):

2.2 知識(shí)融合方法

下面介紹幾種廣泛用于將知識(shí)融入生成模型的方法,包括注意力機(jī)制,拷貝機(jī)制,記憶網(wǎng)絡(luò),圖網(wǎng)絡(luò)和預(yù)訓(xùn)練模型。

注意力機(jī)制 (Attention Mechanism) 在論文[1]中,注意力機(jī)制主要是在decoder中加入上下文向量 ,用于刻畫(huà)輸入文本對(duì)于生成過(guò)程的重要程度:

如何借助注意力機(jī)制將知識(shí)融入文本生成模型?模型學(xué)習(xí)一個(gè)針對(duì)“知識(shí)”的上下文向量  ,反映了“知識(shí)”對(duì)于生成文本的重要性,最后將  和  結(jié)合 (例如,  )加入到decoder中。下圖3羅列了對(duì)于不同的知識(shí)類(lèi)型,注意力機(jī)制的計(jì)算方式。

圖 3 

拷貝機(jī)制 (Copy and Pointer-Generator Mechanism) 拷貝機(jī)制主要是用于從輸入文本序列中選擇合適的子序列放到輸出序列中。論文[2]提出了CopyNet框架。在CopyNet框架中,生成概率由兩種模式的概率組合而成:生成模式和拷貝模式 (  ):

其中  是全局詞典,  是輸入序列的詞典,  是unknown token。論文[3]提出了Pointer-Generator,與CopyNet不同,Pointer-Generator顯式地計(jì)算生成模式和拷貝模式之間的轉(zhuǎn)換概率  ,并且將注意力分布作為拷貝概率使用:

如何借助拷貝機(jī)制將知識(shí)融入文本生成模型?針對(duì)知識(shí)設(shè)計(jì)了知識(shí)模式和知識(shí)相關(guān)的詞典  ,最后生成概率由三種模式的概率組合而成:生成模型,拷貝模式和知識(shí)模式,其中知識(shí)模式的概率是在  上進(jìn)行計(jì)算。以知識(shí)庫(kù)為例,知識(shí)模式會(huì)從知識(shí)庫(kù)中拷貝相應(yīng)的實(shí)體和關(guān)系到生成文本中。下圖4展示了針對(duì)不同知識(shí)所設(shè)計(jì)的知識(shí)模式計(jì)算方式。

圖  4 

記憶網(wǎng)絡(luò) (Memory Network) 論文[4]提出了記憶網(wǎng)絡(luò),通俗來(lái)說(shuō),記憶網(wǎng)絡(luò)類(lèi)似于作用在外部存儲(chǔ)上的循環(huán)注意力模型,通過(guò)循環(huán)地利用輸入序列“讀取”存儲(chǔ)上的記憶表示,然后將更新的記憶表示寫(xiě)回存儲(chǔ)上。給定輸入集合  ,Memory Network會(huì)將其存儲(chǔ)為記憶表示  ,其中  是一個(gè)矩陣,每一列是每個(gè)輸入 的向量表示。在第輪中,輸入序列向量  作為讀取“query”,計(jì)算當(dāng)前輪的記憶表示 :

之后,下一輪的讀取“query”在此基礎(chǔ)上更新  ,繼續(xù)重復(fù)上述步驟  次,得到最終的記憶表示  ,加入到decoder生成過(guò)程中。如何借助記憶網(wǎng)絡(luò)將知識(shí)融入文本生成模型?將外部知識(shí)存儲(chǔ)為記憶,然后按照上述過(guò)程。

圖網(wǎng)絡(luò) (Graph Network) 圖網(wǎng)絡(luò)主要依靠message passing機(jī)制捕捉圖上各節(jié)點(diǎn)之間的依賴(lài)關(guān)系。通過(guò)圖神經(jīng)網(wǎng)絡(luò),一系列圖結(jié)構(gòu)的“知識(shí)”(例如,知識(shí)圖譜,關(guān)鍵詞圖譜,依賴(lài)圖等)都可以融入文本生成模型。形式化地,圖可以表示為  ,其中  表示節(jié)點(diǎn)集合,  表示邊集合。在圖神經(jīng)網(wǎng)絡(luò)中,每個(gè)節(jié)點(diǎn)通過(guò)aggregation操作計(jì)算節(jié)點(diǎn)表示:

其中  表示節(jié)點(diǎn)  相關(guān)的邊。關(guān)于AGGREGATION方法的選擇可以閱讀圖神經(jīng)網(wǎng)絡(luò)的論文。

預(yù)訓(xùn)練模型 (Pretrained Models) 目前文本生成任務(wù)的數(shù)據(jù)集規(guī)模都比較小,而模型的參數(shù)規(guī)模相對(duì)比較大,因此容易出現(xiàn)模型泛化能力不足的問(wèn)題。因此,許多研究者希望利用大規(guī)模的無(wú)標(biāo)注數(shù)據(jù)集預(yù)訓(xùn)練模型,這些模型可以為文本生成任務(wù)模型提供更好的模型初始化。第一代預(yù)訓(xùn)練模型學(xué)習(xí)的是靜態(tài)/無(wú)上下文的詞向量 (non-contextual embedding),例如Word2Vec,GloVe等。第二代預(yù)訓(xùn)練模型則關(guān)注動(dòng)態(tài)/有上下文的詞向量 (contextual embedding),例如GPT,BERT等。靜態(tài)的詞向量最大的缺點(diǎn)是無(wú)法刻畫(huà)單詞的上下文信息,因此無(wú)法處理多義詞的情況,而動(dòng)態(tài)的詞向量則是詞向量會(huì)根據(jù)上下文的不同而發(fā)現(xiàn)變化。通過(guò)大規(guī)模的預(yù)訓(xùn)練語(yǔ)料,預(yù)訓(xùn)練模型本身可以學(xué)習(xí)到語(yǔ)言相關(guān)的知識(shí),例如指代關(guān)系,單詞搭配等,這些可以幫助文本生成任務(wù)生成更加流暢自然的文本,而且預(yù)訓(xùn)練模型也可以從知識(shí)庫(kù)中的三元組信息學(xué)習(xí)到一些常識(shí)知識(shí),例如ERNIE,這些加入知識(shí)的預(yù)訓(xùn)練模型可以用作下游的文本生成模型。

三、基于主題、關(guān)鍵詞和語(yǔ)言學(xué)特征增強(qiáng)的文本生成

3.1 主題增強(qiáng)的文本生成

主題(Topic)可以看做是文本語(yǔ)義的高度壓縮,可以用來(lái)保證文本的語(yǔ)義連貫性(semantic coherence),從而幫助文本生成。例如,文本摘要里通常要求生成文本準(zhǔn)確把握輸入文檔的關(guān)鍵主題,對(duì)話系統(tǒng)里要求回復(fù)的文本與對(duì)話主題相關(guān),避免生成無(wú)意義回復(fù)。近年來(lái),許多研究將神經(jīng)網(wǎng)絡(luò)和主題建模技術(shù)(例如,LDA)進(jìn)行結(jié)合,從文本中挖掘潛在主題。下圖5展示了近年比較有代表性的基于主題增強(qiáng)的文本生成模型。

圖 5 

這些模型可以總結(jié)為三種方法:

  • M1:借助生成式主題模型 (generative topic models) 中的主題詞 (topic words):它首先利用生成式主題模型(例如,LDA)挖掘主題,然后通過(guò)主題注意力機(jī)制將主題表示融入文本生成模型。主題表示提供了關(guān)于生成文本的高度語(yǔ)義表示,保證文本連貫性。

  • M2:同時(shí)優(yōu)化生成模型和卷積主題模型 (CNN topic model):神經(jīng)網(wǎng)絡(luò)會(huì)同時(shí)學(xué)習(xí)如何表示主題和如何生成文本。卷積神經(jīng)網(wǎng)絡(luò)(CNN)可以通過(guò)迭代卷積(iterative convolution)和池化(pooling)操作學(xué)習(xí)潛在的主題。

  • M3:使用變分推斷 (variational inference),利用神經(jīng)主題模型增強(qiáng)文本生成:相對(duì)卷積主題模型,神經(jīng)主題模型參數(shù)較多,因此更容易發(fā)生過(guò)擬合。變分推斷往往假設(shè)主題分布符合隱式空間里的某個(gè)先驗(yàn)分布(例如,高斯分布),從而緩解上述問(wèn)題。

下面詳細(xì)介紹這三種方法。

借助生成式主題模型中的主題詞 對(duì)于從生成式主題模型中獲取的主題,目前有兩種主流表示方法。第一種方法是對(duì)于輸入序列中的每個(gè)單詞使用主題分布,即所有主題的單詞分布,例如,Topic-NMT將主題分布與encoder和decoder中的隱狀態(tài)進(jìn)行拼接,Topic-ConvS2S將主題分布和詞向量拼接作為encoder輸入,增強(qiáng)decoder對(duì)主題信息的感知。第二種方法是對(duì)于輸入序列選擇某個(gè)主題,然后選擇當(dāng)前主題top-k的單詞,使用詞向量(例如,GloVe)來(lái)表示這些主題詞,例如,Topic-Seq2Seq使用從預(yù)訓(xùn)練LDA模型中獲取的主題詞作為先驗(yàn)知識(shí),PTA-Seq2Seq增加兩個(gè)懲罰項(xiàng)用于主題的重要性判斷和主題詞的選擇。相比于第一種方法使用主題分布,第二種方法顯式地引入主題詞可以給生成過(guò)程帶來(lái)很強(qiáng)的指導(dǎo)信號(hào),但是如果主題選擇不當(dāng)會(huì)對(duì)生成產(chǎn)生極大的誤導(dǎo)。

同時(shí)優(yōu)化生成模型和卷積主題模型 LDA模型通常是無(wú)監(jiān)督的,它一般假設(shè)主題的單詞分布符合狄利克雷分布。因此,無(wú)監(jiān)督的LDA模型無(wú)法針對(duì)特定的文本生成任務(wù)尋找合適的主題,并且它的訓(xùn)練過(guò)程和文本生成模型是分離的,導(dǎo)致其無(wú)法刻畫(huà)輸入和輸出文本之間多樣化的依賴(lài)關(guān)系??紤]到卷積神經(jīng)網(wǎng)絡(luò)同樣可以學(xué)習(xí)潛在的主題,許多工作(例如,BLT-NMT)開(kāi)始研究利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)主題表示,以增強(qiáng)文本生成任務(wù)。實(shí)驗(yàn)證明,基于卷積的主題抽取往往要優(yōu)于基于LDA的主題模型,但在可解釋性方面不足。

使用變分推斷,利用神經(jīng)主題模型增強(qiáng)文本生成 神經(jīng)主題模型結(jié)合了神經(jīng)網(wǎng)絡(luò)和概率主題模型兩者的優(yōu)勢(shì),可以通過(guò)反向傳播進(jìn)行訓(xùn)練,并且很容易適應(yīng)不同的上下文信息。在主題模型中,文檔中的主題滿足多元正態(tài)分布,主題中的單詞同樣也滿足多元正態(tài)分布。為了促進(jìn)主題模型中的推斷,狄利克雷分布可以作為先驗(yàn)分布生成文檔的多元正態(tài)分布中的參數(shù)  。因此,LDA中的生成過(guò)程可以表示為:(1)  ;(2)  ;(3)  ,其中  表示文檔bag-of-words表示,  表示單詞  的主題,  表示在給定主題  下單詞的分布。文檔  的邊緣似然函數(shù)為:

但是,a directed generative model comes up against the problem of establishing low variance gradient estimators.(論文原話,不是很明白,請(qǐng)大佬在評(píng)論區(qū)解惑)Miao等人使用神經(jīng)網(wǎng)絡(luò)對(duì)多元正態(tài)分布進(jìn)行參數(shù)化,通過(guò)變分推斷學(xué)習(xí)模型參數(shù)。他們通過(guò)一個(gè)高斯分布構(gòu)造出主題分布,即 ,其中  由各向同性高斯  經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)得到。因此,文檔  的邊緣似然函數(shù)為:

與  相比,隱變量  通過(guò)作用在高斯分布上的神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)化。為了進(jìn)行變分推斷,Miao等人構(gòu)造了一個(gè)推斷網(wǎng)絡(luò)  來(lái)近似后驗(yàn)分布  。在沒(méi)有共軛先驗(yàn)的情況下,參數(shù)的更新可以直接由變分下界(variational lower bound)進(jìn)行推導(dǎo)。形式化地,對(duì)于文檔對(duì)數(shù)似然的變分下界為:

其中  是一個(gè)變分分布,目的是近似真實(shí)的后驗(yàn)分布  ,它的下界可以通過(guò)從分布  采樣  得到。為了將上述神經(jīng)主題模型和神經(jīng)生成模型進(jìn)行結(jié)合,可以使用變分自編碼器(VAE)。Wang等人提出了基于主題的變分自編碼器(TGVAE),從一個(gè)主題依賴(lài)的高斯混合先驗(yàn)中采樣出隱變量 z ,將主題信息融入隱變量中。這個(gè)主題依賴(lài)的高斯混合模型為:

其中 T 是主題個(gè)數(shù),  和  是多層感知器。具體來(lái)說(shuō),TGVAE將輸入文檔的bag-of-words映射為主題向量,然后使用主題向量重構(gòu)得到bag-of-words,并且TGVAE會(huì)學(xué)習(xí)每個(gè)主題上的單詞分布,這個(gè)分布會(huì)作為一個(gè)主題依賴(lài)的先驗(yàn)分布生成最后的文本  。因此,關(guān)于文檔 和輸出  的聯(lián)合邊緣似然函數(shù)為:

為了最大化對(duì)數(shù)似然  ,構(gòu)造了一個(gè)變分目標(biāo)函數(shù):

其中  是關(guān)于  的變分分布。最終的目標(biāo)函數(shù)為:

主題增強(qiáng)的優(yōu)點(diǎn)和缺點(diǎn) 主題模型往往將文檔和單詞的語(yǔ)義表示整合到一個(gè)網(wǎng)絡(luò)中,因此有著嚴(yán)格的概率解釋。除此以外,主題模型可以很容易地融入到生成框架中。例如,主題詞可以表示為詞向量,主題向量也可以通過(guò)注意力機(jī)制融入生成過(guò)程中。但是,LDA模型和神經(jīng)模型的訓(xùn)練過(guò)程是分離的,因此無(wú)法適應(yīng)輸入和輸出之間多樣化的依賴(lài)關(guān)系。神經(jīng)主題模型將神經(jīng)網(wǎng)絡(luò)和概率主題模型兩者的優(yōu)勢(shì)結(jié)合在一起,可以通過(guò)反向傳播同時(shí)進(jìn)行訓(xùn)練。但是,他們通常假設(shè)主題分布是一個(gè)各向同性高斯,所以無(wú)法對(duì)主題之間的關(guān)聯(lián)進(jìn)行建模。而且目前的神經(jīng)主題模型在使用VAE時(shí)會(huì)假設(shè)文檔滿足獨(dú)立同分布,但事實(shí)上文檔是由單詞組成的,單詞之間有很大關(guān)聯(lián)而不是相互獨(dú)立。

3.2 關(guān)鍵詞增強(qiáng)的文本生成

關(guān)鍵詞(Keyword)通常是指一個(gè)或多個(gè)詞,是關(guān)于文本重要內(nèi)容的提煉。主流的關(guān)鍵詞獲取方法主要有兩種:關(guān)鍵詞分配(keyword assignment)和關(guān)鍵詞抽?。╧eyword extraction)。關(guān)鍵詞分配是指從一個(gè)可控的詞表或預(yù)定義的分類(lèi)系統(tǒng)中選擇關(guān)鍵;關(guān)鍵詞抽取則是從文檔中抽取出最具有代表性的單詞。關(guān)鍵詞抽取技術(shù)(例如,TF-IDF,TextRank,PMI)近年來(lái)被廣泛應(yīng)用,文本生成任務(wù)也可以吸收關(guān)鍵詞信息,保持文本的語(yǔ)義連貫性。其中,對(duì)話系統(tǒng)和文本摘要應(yīng)用關(guān)鍵詞知識(shí)較多的兩個(gè)任務(wù),下圖6展示了對(duì)話系統(tǒng)和文本摘要基于關(guān)鍵詞增強(qiáng)的文本生成模型。

圖 6 

這些模型可以總結(jié)為兩種方法:

  • M1:借助關(guān)鍵詞分配的文本生成:在關(guān)鍵詞分配中,關(guān)鍵詞是從一個(gè)預(yù)定義的詞表中選擇得到。為了獲取關(guān)鍵詞,可以基于輸入文檔學(xué)習(xí)一個(gè)關(guān)鍵詞分類(lèi)器,預(yù)測(cè)合適的關(guān)鍵,然后使用關(guān)鍵詞指導(dǎo)生成。

  • M2:借助關(guān)鍵詞抽取的文本生成:關(guān)鍵詞抽取是從文檔中選擇最重要的單詞,可以采用的技術(shù)包括統(tǒng)計(jì)方法(例如,TF-IDF,TextRank)和有監(jiān)督學(xué)習(xí)方法(例如,BiLSTM)。抽取的關(guān)鍵詞可以用來(lái)增強(qiáng)生成過(guò)程。

下面詳細(xì)介紹這兩種方法。

借助關(guān)鍵詞分配的文本生成 在關(guān)鍵詞分配中,關(guān)鍵詞被限定在一個(gè)預(yù)定義的詞表中,優(yōu)點(diǎn)是可以保證關(guān)鍵詞的質(zhì)量,即使對(duì)于兩個(gè)沒(méi)有重合單詞但語(yǔ)義高度相似的文檔也可以分配到相同關(guān)鍵詞(因?yàn)殛P(guān)鍵詞分類(lèi)器會(huì)學(xué)習(xí)將輸入文檔映射為一個(gè)關(guān)鍵詞),但這個(gè)方法受限于某些無(wú)法清晰定義合適關(guān)鍵詞詞表的應(yīng)用場(chǎng)景。

在實(shí)際應(yīng)用中,可能會(huì)出現(xiàn)輸入序列中沒(méi)有包含預(yù)定義詞表中的關(guān)鍵詞。例如,句子“If you had stopped him that day, things would have been different.”表達(dá)的是傷心但它不包含關(guān)鍵詞“sad”。針對(duì)這種情況,E-SCBA提出一種方法預(yù)測(cè)句子的情感類(lèi)別,這個(gè)情感會(huì)指導(dǎo)對(duì)話回復(fù)的生成。具體地,預(yù)測(cè)的情感類(lèi)別  可以表示為向量  ,這個(gè)向量與原先的上下文向量  結(jié)合為新的上下文向量  。為了動(dòng)態(tài)地追蹤情感在句子中的表達(dá),EmoChat使用一個(gè)記憶模塊刻畫(huà)生成過(guò)程中的情感變化。但是,上述方法顯式地引入情感關(guān)鍵詞會(huì)導(dǎo)致句子對(duì)某個(gè)情感的過(guò)度表達(dá)。所以,EmoDS使用一個(gè)情感分類(lèi)器作為句子級(jí)別的情感判別器,用于識(shí)別句子是否隱式地表達(dá)了某個(gè)情感,而不是希望句子顯式地包含情感詞。

借助關(guān)鍵詞抽取的文本生成 將抽取的關(guān)鍵詞融入生成過(guò)程和前一種方法類(lèi)似,將抽取的關(guān)鍵詞作為decoder的額外輸入。這些關(guān)鍵詞可以表示為  ,然后decoder的隱狀態(tài)可以通過(guò)如下更新:  ,其中  是利用注意力機(jī)制對(duì)  計(jì)算得到的關(guān)鍵詞上下文向量。KIGN提出使用Bi-LSTM編碼關(guān)鍵詞,然后將前向的最后一個(gè)隱狀態(tài)和后向的第一個(gè)隱狀態(tài)拼接作為關(guān)鍵詞上下文向量: 。

關(guān)鍵詞增強(qiáng)的優(yōu)點(diǎn)和缺點(diǎn) 前面也提到,關(guān)鍵詞分配方法有兩個(gè)主要優(yōu)點(diǎn):一是可以保證關(guān)鍵詞質(zhì)量;二是對(duì)于兩個(gè)語(yǔ)義高度近似的文本可以分配相同的關(guān)鍵詞(即使文本沒(méi)有共同單詞)。但是,這類(lèi)方法也有兩個(gè)主要缺點(diǎn):一是對(duì)于新領(lǐng)域而言,維護(hù)關(guān)鍵詞詞表是代價(jià)很大的;二是如果文本中潛在的關(guān)鍵詞如果不在詞典則會(huì)被忽略。因此,基于關(guān)鍵詞分配的模型主要應(yīng)用在需要特殊關(guān)鍵詞引導(dǎo)的特殊任務(wù)上,例如,生成某個(gè)情感下的對(duì)話回復(fù)。關(guān)鍵詞抽取方法的一大優(yōu)勢(shì)是不受環(huán)境制約,可以很容易適用于其他任務(wù)。但其有兩個(gè)缺陷,一方面是無(wú)法保證一致性,對(duì)于兩個(gè)相似的文檔如果沒(méi)有共同的單詞,則會(huì)被表示為不同的關(guān)鍵詞;另一方面則是當(dāng)文本中沒(méi)有合適的關(guān)鍵詞時(shí),模型會(huì)抽取出不相關(guān)的關(guān)鍵詞,從而誤導(dǎo)文本生成。因此,基于關(guān)鍵詞抽取的模型主要適合輸出序列需要包含輸入文本的重要信息任務(wù)上,例如,文檔摘要,文本復(fù)述。

3.3 語(yǔ)言學(xué)特征增強(qiáng)的文本生成

除了輸入文本,encoder還可以引入額外的手動(dòng)設(shè)計(jì)的特征,語(yǔ)言學(xué)特征一種比較常見(jiàn)的特征,例如 lemmas,part-of-speech (POS) tags,dependency parsing,semantic parsing。在這一部分,我們將主要介紹 lemmatisation特征,POS tags,NER tags 和 leave dependency parsing,semantic parsing。

Lemmatisation特征 在morphology和lexicography中,a lemma(詞根) is the canonical form and dictionary form of a set of words that have the same meaning。例如,“run”,“runs”,“ran”和“ranning”具有相同的詞素(lexeme),而“run”則是詞根。對(duì)于那些詞法學(xué)豐富的語(yǔ)言(例如,德語(yǔ),捷克語(yǔ)),文本生成任務(wù)很難建模單詞序列,例如,機(jī)器翻譯。因此,lemmatisation就被用來(lái)消除data sparseness,允許inflectional variants of the same word。Semmrich等人發(fā)現(xiàn)如果單詞之間具有相同的詞素,那么這些單詞的表示之間在某些維度應(yīng)該是共享的。Conforti等人直接將詞向量和詞根向量拼接作為每個(gè)單詞的向量表示。

POS tags和NER tags Part-of-speech會(huì)預(yù)測(cè)每個(gè)單詞的語(yǔ)法類(lèi)別,例如,名詞 (N),動(dòng)詞 (V),形容詞 (A)。命名實(shí)體識(shí)別(NER)會(huì)識(shí)別句子中每個(gè)實(shí)體的類(lèi)別,例如,人 (P),位置 (P),組織 (O)。POS tag和NER tag可以幫助檢測(cè)輸入文本中的命名實(shí)體,更好地理解文本,從而促進(jìn)生成。

四、基于知識(shí)庫(kù)、知識(shí)圖譜和依賴(lài)圖增強(qiáng)的文本生成

4.1 知識(shí)庫(kù)增強(qiáng)的文本生成

在文本生成任務(wù)中,如何刻畫(huà)文本中語(yǔ)義單元之間、輸入和輸出之間的依賴(lài)關(guān)系是重要的,這種依賴(lài)關(guān)系可以理解為一種“知識(shí)”,例如常識(shí),事實(shí)事件,語(yǔ)義關(guān)系等。知識(shí)庫(kù)(knowledge base, KB)就是一個(gè)收集、存儲(chǔ)和管理大規(guī)模知識(shí)信息的技術(shù)。知識(shí)庫(kù)包含大量的三元組(triple),三元組由subjects,predicates和objects組成,可以被稱(chēng)為事實(shí)(facts)或事實(shí)三元組(factual triples)。目前已有非常多的工作使用知識(shí)庫(kù)作為額外的知識(shí)信息去學(xué)習(xí)文本中語(yǔ)義單元之間的依賴(lài)關(guān)系,常用的知識(shí)庫(kù)包括DBpedia,F(xiàn)reebase和Wikidata。

一個(gè)非常典型的利用知識(shí)庫(kù)的文本生成任務(wù)是問(wèn)答系統(tǒng)。單純依靠問(wèn)題本身很難得出滿意的回答,一個(gè)好的回答往往需要問(wèn)題之外的信息,甚至需要基于已有常識(shí)或事實(shí)做出恰當(dāng)?shù)耐评聿拍芡茖?dǎo)出問(wèn)題的答案,而這些常識(shí)和事實(shí)可以從知識(shí)庫(kù)中檢索得到。另一方面,回答問(wèn)題并不是簡(jiǎn)單地提供一個(gè)知識(shí)庫(kù)中的subject或object,它需要以可理解的自然語(yǔ)言給出。下面給出一個(gè)例子:



問(wèn)題:Do you know where was Jet Li from?
相關(guān)事實(shí)或知識(shí):<Jet Li, birthplace, Beijing>;<Jet Li, nationality, Singapore>
基于知識(shí)庫(kù)的答案:Beijing
期望的自然語(yǔ)言回答:Jet Li was born in Beijing. He is now a Singapore citizen.


另一個(gè)典型的任務(wù)是對(duì)話系統(tǒng)。與問(wèn)答系統(tǒng)不一樣,對(duì)話內(nèi)容往往是開(kāi)放性的主題,“Do you have any recommendations?”,并且需要考慮對(duì)話歷史上下文才能引入合適的實(shí)體進(jìn)行回復(fù),知識(shí)庫(kù)可以幫助建模對(duì)話歷史中長(zhǎng)距離的上下文。下圖7展示了近年來(lái)知識(shí)庫(kù)增強(qiáng)的文本生成模型。

圖 7 

根據(jù)知識(shí)庫(kù)和文本序列之間的關(guān)系,這些模型可以總結(jié)為三種方法:

  • M1:針對(duì)知識(shí)庫(kù)設(shè)計(jì)有監(jiān)督任務(wù)進(jìn)行聯(lián)合優(yōu)化:某些任務(wù)需要從知識(shí)庫(kù)中檢索有用的知識(shí),而這些知識(shí)可能對(duì)于文本生成任務(wù)而言也是有效的,因此可以針對(duì)知識(shí)庫(kù)設(shè)計(jì)有監(jiān)督任務(wù)對(duì)模型參數(shù)進(jìn)行聯(lián)合優(yōu)化。

  • M2:針對(duì)知識(shí)庫(kù)設(shè)計(jì)無(wú)監(jiān)督方法,作為額外條件因素:輸入和輸出文本之間可能具有某些潛在的相同之處,例如事實(shí)或事件,但由于語(yǔ)言、格式等原因?qū)е逻@些相同之處在文本中差異很大。那么,知識(shí)庫(kù)可以看作是生成輸入和輸出文本的條件 

  • M3:選擇知識(shí)庫(kù)或事實(shí)增強(qiáng)知識(shí)融合:知識(shí)庫(kù)的相關(guān)性對(duì)于發(fā)現(xiàn)文本生成中的知識(shí)是非常重要的。所以,如何選擇從知識(shí)庫(kù)中選擇相關(guān)的事實(shí)知識(shí)可以增強(qiáng)后續(xù)的知識(shí)融合。

下面詳細(xì)介紹這三種方法:

針對(duì)知識(shí)庫(kù)設(shè)計(jì)有監(jiān)督任務(wù)進(jìn)行聯(lián)合優(yōu)化 傳統(tǒng)的Seq2Seq模型雖然可以學(xué)習(xí)到某些語(yǔ)言模式(例如語(yǔ)言多樣性),但卻無(wú)法很好地對(duì)文本中離散的概念進(jìn)行表示,無(wú)法達(dá)到知識(shí)融合之后預(yù)期的效果。為了有效地融合利用知識(shí)庫(kù)中的知識(shí),本方法的主要思想是在多個(gè)任務(wù)上進(jìn)行聯(lián)合訓(xùn)練。例如,當(dāng)目標(biāo)任務(wù)是生成問(wèn)題回答時(shí),額外的任務(wù)可以包括問(wèn)題理解和知識(shí)庫(kù)知識(shí)檢索,這些知識(shí)可以在聯(lián)合的encoder-decoder框架里共享。具體地,問(wèn)題理解和知識(shí)檢索任務(wù)是高度相關(guān)的,因?yàn)閷?duì)問(wèn)題的理解可以促進(jìn)問(wèn)題與知識(shí)庫(kù)中相關(guān)知識(shí)的匹配。例如,如果問(wèn)題是“Where was Barack Obama born in the U.S.?”,短語(yǔ)“Barack Obama”可以與知識(shí)庫(kù)中的三元組(Barack Obama, born, Hawaii)進(jìn)行匹配。解析問(wèn)題然后檢索相關(guān)知識(shí)可以幫助排除不相關(guān)的信息,避免后續(xù)生成回答時(shí)引入不相關(guān)的知識(shí)。

GenQA是第一個(gè)使用知識(shí)庫(kù)生成問(wèn)題回答的工作,它能夠從知識(shí)庫(kù)中檢索單詞幫助生成。但是,GenQA沒(méi)有考慮輸入問(wèn)題中相關(guān)的單詞,因此無(wú)法處理復(fù)雜問(wèn)題的情況。進(jìn)一步地,CoreQA同時(shí)使用拷貝和檢索機(jī)制生成回答,它設(shè)計(jì)了一個(gè)檢索模塊基于對(duì)問(wèn)題的理解從知識(shí)庫(kù)中檢索相關(guān)的事實(shí),這個(gè)檢索模塊會(huì)計(jì)算輸入問(wèn)題表示  和每個(gè)相關(guān)事實(shí)  之間的匹配分?jǐn)?shù)。在知識(shí)庫(kù)中,每個(gè)事實(shí) 的表示為subject,predicate和object三者的表示拼接而成:  。在生成過(guò)程中,融入的信息可以通過(guò)注意力機(jī)制融入decoder中:  。CoreQA預(yù)測(cè)單詞的概率包括三個(gè)部分:(i) 從全局詞典生成單詞;(ii) 從知識(shí)庫(kù)檢索事實(shí)單詞;(iii) 從輸入序列拷貝單詞。

針對(duì)知識(shí)庫(kù)設(shè)計(jì)無(wú)監(jiān)督方法,作為額外條件因素 自然語(yǔ)言有著多樣的格式,例如新聞文章,科學(xué)論文和社交媒體推文的格式差別都非常大。目前有一部分工作關(guān)注可控的文本生成任務(wù),即將文本的某個(gè)屬性修改為目標(biāo)屬性而不影響文本的主要內(nèi)容,稱(chēng)為content manipulation。例如,給定一個(gè)結(jié)構(gòu)化的知識(shí)  (player: 'Lebron James', points: '20', assists: '10')和輸入序列  “Kobe easily dropped 30 points”,目標(biāo)是生成和序列  格式相同的文本“Lebron easily dropped 20 points and 10 assists”。一大挑戰(zhàn)是需要理解文本的結(jié)構(gòu),根據(jù)輸入序列的格式進(jìn)行模仿,同時(shí)保證輸出文本的語(yǔ)法正確性和流暢性,這里不需要真實(shí)目標(biāo)文本  進(jìn)行訓(xùn)練,因此是一種無(wú)監(jiān)督的方法。

U-TCM則是解決上述問(wèn)題的一個(gè)無(wú)監(jiān)督模型,它同時(shí)優(yōu)化兩個(gè)目標(biāo)函數(shù)。第一個(gè)目標(biāo)函數(shù)是content fidelity,第二個(gè)目標(biāo)函數(shù)是style preservation。  ,這個(gè)任務(wù)目標(biāo)是按照序列 X 的格式生成包含知識(shí)  的文本  和  重構(gòu)原始序列 <span role="presentation" data-formula="X" '="" data-formula-type="inline-equation"> ,即  ;最后,這兩個(gè)目標(biāo)函數(shù)相加,e達(dá)到最終的優(yōu)化目標(biāo)。

選擇知識(shí)庫(kù)或事實(shí)增強(qiáng)知識(shí)融合 將知識(shí)融入文本生成模型,最簡(jiǎn)單的方法則是對(duì)輸入序列進(jìn)行解析,然后檢索出最相關(guān)的知識(shí),最后基于輸入序列和檢索出的知識(shí)生成文本。我們希望檢索出的知識(shí)可以幫助建立起輸入和輸出之間的依賴(lài)關(guān)系,但由于知識(shí)的復(fù)雜性,我們檢索出的知識(shí)并不總是相關(guān)的。雖然PostKS通過(guò)一個(gè)檢索模型(例如,計(jì)算語(yǔ)義相似度)從知識(shí)庫(kù)中選擇知識(shí),但由于知識(shí)的多樣性,基于輸入句子檢索出不同的知識(shí)就可能導(dǎo)致最終生成的文本出現(xiàn)偏差。因此,給定一個(gè)輸入句子和目標(biāo)回復(fù),我們可以構(gòu)建從輸入句子和目標(biāo)回復(fù)到知識(shí)庫(kù)上的后驗(yàn)概率分布,這個(gè)后驗(yàn)分布可以為模型提供額外的指導(dǎo)。上述現(xiàn)象可以稱(chēng)為先驗(yàn)和后驗(yàn)分布之間的差異,模型往往是基于先驗(yàn)分布(從輸入句子到知識(shí)庫(kù))選擇合適的知識(shí),但這很難保證后驗(yàn)分布的準(zhǔn)確性(從輸出到知識(shí)庫(kù))。

為了解決上述差異,Lian等人和Wu等人提出利用先驗(yàn)分布近似后驗(yàn)分布,以選擇合適的知識(shí)。他們引入了一個(gè)額外的損失,即KL散度損失,來(lái)衡量先驗(yàn)分布和后驗(yàn)分布之間的接近程度:

4.2 知識(shí)圖譜增強(qiáng)的文本生成

知識(shí)圖譜(knowledge graph, KG)是一種結(jié)構(gòu)化的人類(lèi)知識(shí)。知識(shí)圖譜包括若干結(jié)構(gòu)化的知識(shí)三元組,三元組由實(shí)體(entities),關(guān)系(relations)和語(yǔ)義描述(semantic description)所組成。知識(shí)庫(kù)和知識(shí)圖譜通常不區(qū)分使用,但本質(zhì)上卻是不一樣的。知識(shí)圖譜通常是一個(gè)圖結(jié)構(gòu),實(shí)體之間的直接聯(lián)系稱(chēng)為一階關(guān)系。目前知識(shí)圖譜在許多應(yīng)用上都取得了不錯(cuò)的效果,例如推薦系統(tǒng),對(duì)話系統(tǒng)和問(wèn)答生成。相比于知識(shí)庫(kù)中獨(dú)立的三元組,借助知識(shí)圖譜上相連接實(shí)體和關(guān)系之間豐富的語(yǔ)義信息更加有利于文本生成任務(wù)。

在知識(shí)圖譜中,節(jié)點(diǎn)嵌入(node embedding)和關(guān)系路徑(path of connected links)對(duì)于下游文本生成任務(wù)都有著不同的重要性,對(duì)應(yīng)于兩種技術(shù):知識(shí)圖譜嵌入(knowledge graph embedding)和基于路徑的知識(shí)圖譜推理(path based knowledge graph reasoning)。而且,隨著圖神經(jīng)網(wǎng)絡(luò)(graph neural network, GNN)和graph-to-sequence encoder-decoder架構(gòu)的出現(xiàn),在文本生成任務(wù)中引入多跳和高階關(guān)系更加便捷和高效。下面形式化地定義關(guān)于知識(shí)圖譜的概念。

知識(shí)圖譜是一個(gè)有向多關(guān)系圖,由實(shí)體和關(guān)系組成。知識(shí)圖譜通常定義為  ,其中  是實(shí)體節(jié)點(diǎn)集合,  是類(lèi)型邊集合。在這個(gè)章節(jié),我們只考慮本體論中的知識(shí)圖譜,即每個(gè)邊都是完全無(wú)歧義的。

跳子圖  的實(shí)體包含實(shí)體集  中的實(shí)體,以及與這些實(shí)體相連K跳之內(nèi)的實(shí)體。

跳路徑指的是從實(shí)體  出發(fā),按照關(guān)系  連接而成的實(shí)體關(guān)系序列。下圖8列出了目前將知識(shí)圖譜融入文本生成任務(wù)的模型。

圖 8

根據(jù)如何學(xué)習(xí)知識(shí)圖譜和輸入/輸出序列之間的關(guān)系,這些模型可以分為以下三種方法:

  • M1:將知識(shí)圖譜嵌入融入文本生成:知識(shí)圖譜嵌入技術(shù)通過(guò)某些函數(shù)將實(shí)體和關(guān)系映射到向量空間,同時(shí)保持知識(shí)圖譜潛在的結(jié)構(gòu)特性。但是,知識(shí)圖譜嵌入只依賴(lài)一跳關(guān)系,并且受到打分函數(shù)的影響。

  • M2:通過(guò)路徑尋找策略在知識(shí)圖譜上進(jìn)行推理:路徑尋找策略可以提供靈活的多跳路徑,相比于一跳關(guān)系而言。更重要的是,路徑尋找在知識(shí)圖譜上是一種推理的過(guò)程,可以應(yīng)用到許多復(fù)雜問(wèn)答生成和對(duì)話系統(tǒng)等場(chǎng)景中。

  • M3:使用圖神經(jīng)網(wǎng)絡(luò)增強(qiáng)圖表示:圖神經(jīng)網(wǎng)絡(luò)和graph-to-sequence框架打通了圖表示和文本生成之間的壁壘。許多文本生成任務(wù)并不需要進(jìn)行推理,更關(guān)注對(duì)于知識(shí)圖譜全局上下文的理解,所以圖神經(jīng)網(wǎng)絡(luò)可以幫助將知識(shí)圖譜中豐富的語(yǔ)義和結(jié)構(gòu)化信息融入文本生成。

下面具體介紹這三種方法。

將知識(shí)圖譜嵌入融入文本生成 知識(shí)圖譜提供了不同實(shí)體節(jié)點(diǎn)之間的連接信息,因此知識(shí)圖譜嵌入可以刻畫(huà)實(shí)體節(jié)點(diǎn)之間的語(yǔ)義關(guān)聯(lián)?;镜南敕ㄊ菍?shí)體和關(guān)系映射到低維向量空間  (其中  ),這樣可以減少數(shù)據(jù)唯獨(dú),同時(shí)保持知識(shí)圖譜潛在的結(jié)構(gòu)信息。在知識(shí)圖譜嵌入中,TransE是其中廣泛使用的方法,給定一個(gè)知識(shí)圖譜邊 ,可以看做是從頭實(shí)體以很小的誤差經(jīng)過(guò)關(guān)系“翻譯”到尾實(shí)體,即 。知識(shí)圖譜嵌入一般采用基于margin的優(yōu)化目標(biāo),因此需要構(gòu)建負(fù)例集合,采取的方式是隨機(jī)選擇一個(gè)實(shí)體替換三元組中的頭實(shí)體或尾實(shí)體,最后通過(guò)隨機(jī)梯度下降和L2正則優(yōu)化:

其中  為正例, (, , )是負(fù)例。文本生成模型可以在encoder和decoder中融入實(shí)體和關(guān)系的表示。

通過(guò)路徑尋找策略在知識(shí)圖譜上進(jìn)行推理 知識(shí)圖譜嵌入在計(jì)算時(shí)利用的是一跳關(guān)系的路徑,而知識(shí)圖譜推理可以顯式地在關(guān)系路徑在進(jìn)行推理,對(duì)多種關(guān)系做出決策。以問(wèn)答生成為例,為了理解復(fù)雜的問(wèn)題,需要在知識(shí)圖譜上進(jìn)行推理得出潛在的和問(wèn)題相關(guān)的實(shí)體,從而生成答案。所以,難點(diǎn)在于如何識(shí)別出知識(shí)圖譜上期望的的實(shí)體集合,這些實(shí)體往往通過(guò)某些概念和關(guān)系連成序列?;诼窂降膶ふ曳椒梢蕴剿鲗?shí)體之間的多種連接模式,學(xué)習(xí)到可以提供給生成過(guò)程的最佳路徑。

基于路徑的尋找方法主要分為兩種:(i)基于路徑排序的方法;(ii)基于強(qiáng)化學(xué)習(xí)的方法。路徑排序算法(path ranking algorithm, PRA)使用隨機(jī)游走策略進(jìn)行多界深度優(yōu)先搜索(multiple bounded depth -first search)來(lái)尋找關(guān)系路徑。配合基于彈性網(wǎng)的學(xué)習(xí)(elastic-net based learning),PRA可以剪去哪些雖然符合事實(shí)但非理想的的路徑,從而找到更加合適的路徑。例如,DyKgChat提出一種基于路徑排序算法在動(dòng)態(tài)知識(shí)圖譜上的神經(jīng)對(duì)話模型。在生成階段,為了生成富信息的文本,模型將從兩個(gè)網(wǎng)絡(luò)中選擇一個(gè)輸出,包括一個(gè)GRU decoder和一個(gè)基于PRA的多跳推理網(wǎng)絡(luò)。但是,一個(gè)主要的缺點(diǎn)是PRA作用在離散空間中,使得它很難找到知識(shí)圖譜上相似的實(shí)體和關(guān)系。MHPGM通過(guò)一個(gè)3步打分策略(初始節(jié)點(diǎn)打分,累積節(jié)點(diǎn)打分,路徑選擇)對(duì)路徑進(jìn)行排序和過(guò)濾,來(lái)保證加入信息的質(zhì)量和多樣性。

基于強(qiáng)化學(xué)習(xí)的方法通過(guò)在一個(gè)連續(xù)空間中尋找路徑進(jìn)行推理,這類(lèi)方法在路徑尋找的獎(jiǎng)勵(lì)函數(shù)中引入多種評(píng)測(cè)手段,使得路徑尋找的過(guò)程更加靈活。Xiong等人提出DeepPath,這是第一個(gè)使用馬爾可夫決策過(guò)程(Markov Decision Process, MDP)和強(qiáng)化學(xué)習(xí)在知識(shí)圖譜上尋找路徑的方法。但是,MDP的狀態(tài)要求目標(biāo)實(shí)體事先是已知的,所以這個(gè)路徑尋找策略依賴(lài)于答案實(shí)體。因此,這個(gè)方法無(wú)法應(yīng)用于許多現(xiàn)實(shí)場(chǎng)景的問(wèn)答生成和對(duì)話系統(tǒng)中?;趶?qiáng)化學(xué)習(xí)的路徑尋找方法一般包括兩個(gè)階段:(i)將序列 作為輸入從知識(shí)圖譜中檢索出開(kāi)始節(jié)點(diǎn)  ,進(jìn)行多跳圖推理最終到達(dá)一個(gè)終止節(jié)點(diǎn)  ,這條從  到  的關(guān)系路徑包含了文本生成所需要的知識(shí)信息;(ii)利用兩個(gè)encoder對(duì)輸入序列  和路徑  進(jìn)行表示,分別對(duì)其使用注意力機(jī)制解碼生成文本?;诼窂降闹R(shí)圖譜推理技術(shù)可以將知識(shí)圖譜的圖結(jié)構(gòu)轉(zhuǎn)化為一條序列化路徑,從而更容易使用序列encoder(例如,RNN)進(jìn)行編碼表示。

使用圖神經(jīng)網(wǎng)絡(luò)增強(qiáng)圖表示 許多文本生成任務(wù)不需要推理過(guò)程,更關(guān)注對(duì)知識(shí)圖譜上下文的理解。例如,文本摘要任務(wù)需要對(duì)知識(shí)圖譜整體進(jìn)行結(jié)構(gòu)化的表示,促進(jìn)相關(guān)實(shí)體之間的聯(lián)系,以及對(duì)全局上下文(例如實(shí)體交互)的理解。文本生成模型可以在encoder和decoder兩個(gè)方向使用圖神經(jīng)網(wǎng)絡(luò)增強(qiáng)圖表示。

對(duì)于encoder來(lái)說(shuō),最簡(jiǎn)單的借助GNN引入知識(shí)圖譜的方法是通過(guò)實(shí)體向量增強(qiáng)單詞的語(yǔ)義。一個(gè)預(yù)定義的實(shí)體鏈指函數(shù): :  可以將輸入序列中的單詞映射到知識(shí)圖譜上對(duì)應(yīng)的實(shí)體節(jié)點(diǎn)。對(duì)于一個(gè)輸入序列,所有鏈指的實(shí)體和他們跳之內(nèi)的鄰居可以表示為上述的sequence-associated K-hop subgraph  ,對(duì)于  上的每個(gè)實(shí)體,可以利用知識(shí)圖譜結(jié)構(gòu)和實(shí)體、邊的特征學(xué)習(xí)到向量表示  ,然后通過(guò)  函數(shù)從所有實(shí)體節(jié)點(diǎn)表示學(xué)習(xí)子圖表示,即  。對(duì)于decoder來(lái)說(shuō),可以利用子圖表示增強(qiáng)初始隱狀態(tài),即  。經(jīng)過(guò)知識(shí)圖譜增強(qiáng)的decoder在每個(gè)時(shí)間步對(duì)子圖使用注意力機(jī)制可以得到圖感知的上下文向量,進(jìn)而從子圖中選擇單詞或?qū)嶓w進(jìn)行生成。因?yàn)榛趫D級(jí)別的注意力可能會(huì)忽略細(xì)粒度的知識(shí)信息,因此許多工作開(kāi)始采用層次化的圖注意力機(jī)制。他們首先對(duì)檢索的子圖  使用注意力機(jī)制,然后對(duì)子圖上的邊  使用注意力機(jī)制,decoder隱狀態(tài)計(jì)算如下: ,其中  表示圖級(jí)別的上下文向量,  表示邊級(jí)別的上下文向量。

4.3 依賴(lài)圖增強(qiáng)的文本生成

一般而言,依賴(lài)圖包括語(yǔ)法依賴(lài)圖和語(yǔ)義依賴(lài)圖。語(yǔ)法依賴(lài)圖是一個(gè)有向無(wú)環(huán)圖,表示單詞之間的語(yǔ)法關(guān)系。例如,對(duì)于句子“The monkey eats a banana”,“monkey”是謂語(yǔ)“eats”的主語(yǔ),“banana”則是賓語(yǔ)。利用單詞之間的語(yǔ)法依賴(lài)關(guān)系可以增強(qiáng)序列表示,捕捉到長(zhǎng)距離上的依賴(lài)關(guān)系。在文本生成中,語(yǔ)法依賴(lài)信息可以通過(guò)三種方式進(jìn)行刻畫(huà):(i)線性表示:線性化語(yǔ)法依賴(lài)圖然后使用序列模型,例如RNN,獲取語(yǔ)法感知的表示;(ii)基于路徑的表示:基于單詞和中心位置的線性距離計(jì)算注意力權(quán)重;(iii)基于圖的表示:使用圖神經(jīng)網(wǎng)絡(luò)聚合依賴(lài)關(guān)系。語(yǔ)義依賴(lài)圖表示句子中內(nèi)容詞之間的predicate-argument關(guān)系,不同的標(biāo)注系統(tǒng)下具有多種表現(xiàn)模式(例如,DM)。語(yǔ)義依賴(lài)圖上的節(jié)點(diǎn)可以通過(guò)semantic role labeling (SRL)和dependency parsing抽取得到,然后節(jié)點(diǎn)可以通過(guò)不同的關(guān)系進(jìn)行連接。Jin等人提出一個(gè)語(yǔ)義依賴(lài)指導(dǎo)的摘要模型,堆疊多個(gè)encoder模塊,這些encoder包括一個(gè)序列encoder和一個(gè)圖encoder。其他工作也借助abstract meaning representation(AMR)作為語(yǔ)義圖。

五、基于文本增強(qiáng)的文本生成

這里的文本指的是與輸入序列相關(guān),能夠提供額外知識(shí)的文本,稱(chēng)為knowledge grounded text。這些文本不會(huì)出現(xiàn)在訓(xùn)練語(yǔ)料和結(jié)構(gòu)化庫(kù)(例如知識(shí)庫(kù)和知識(shí)圖譜)中,但是可以從在線資源中獲取大量相關(guān)文本。這些在線資源包括百科全書(shū)(例如Wikipedia),社交媒體(例如Twitter),購(gòu)物網(wǎng)站(例如Amazon reviews)。這些文本對(duì)于理解文本語(yǔ)義和上下文語(yǔ)境發(fā)揮重要的作用。例如,Wikipedia文章可以提供關(guān)于輸入文本的解釋和背景信息,Amazon reviews包含了許多商品相關(guān)問(wèn)題的答案和意見(jiàn),Tweets提供了關(guān)于某個(gè)事件人們的看法和觀點(diǎn)。因此,這些文本通常會(huì)作為重要的知識(shí)信息幫助文本生成任務(wù)。下圖9總結(jié)了目前利用文本增強(qiáng)文本生成的代表性工作。

圖 9

這些工作大概可以分為兩類(lèi):

  • M1:利用檢索信息指導(dǎo)生成:因?yàn)檫@些文本往往不會(huì)出現(xiàn)在訓(xùn)練語(yǔ)料中,一個(gè)想法就是從額外的來(lái)源檢索出相關(guān)的文本,然后融入生成過(guò)程中。這個(gè)過(guò)程類(lèi)似于設(shè)計(jì)一個(gè)針對(duì)知識(shí)圖譜的獲取和融入,區(qū)別是這些文本可以是無(wú)結(jié)構(gòu)和有噪聲的,而研究者需要設(shè)計(jì)知識(shí)選擇和融入方法來(lái)克服這個(gè)問(wèn)題。

  • M2:在回復(fù)生成中建模背景文本:背景文本有著更加全局和廣泛的知識(shí)信息,可以用來(lái)生成富信息的對(duì)話回復(fù),保證對(duì)話不偏離主題。圍繞背景文本的對(duì)話稱(chēng)之為background based conversarion(BBC)。因此,在對(duì)話系統(tǒng)中,尋找合適的背景文本并基于這些文本生成回復(fù)是非常重要的。

下面具體介紹這兩種方法。

利用檢索信息指導(dǎo)生成 在對(duì)話系統(tǒng)和問(wèn)答生成中,人們往往需要搜索額外需要的信息來(lái)進(jìn)行回復(fù)和回答問(wèn)題,但是數(shù)據(jù)集中往往缺乏這些信息。下面給出一個(gè)對(duì)話例子:



User input: 'Going to Kusakabe tonight.' 

Reviews on Foursquare: 'Consistently the best omakase in San Francisco.' 

Response given by vanilla Seq2Seq: 'Have a great time!' 

Golden Response: 'You'll love it! Try omakase, the best in town.' 



雖然來(lái)自Seq2Seq模型的回復(fù)也合適,但與真實(shí)回復(fù)相比缺少有意義內(nèi)容。為了增加與輸入文本相關(guān)的事實(shí)信息,一個(gè)想法是檢索包含背景信息的相關(guān)事實(shí)和評(píng)論片段。檢索文本的方式有很多種,包括根據(jù)相關(guān)實(shí)體進(jìn)行索引然后計(jì)算文本匹配度,以及使用一些統(tǒng)計(jì)方法(例如TF-IDF)給相關(guān)文本進(jìn)行評(píng)分。

除了檢索出相應(yīng)文本片段,另一個(gè)方式是檢索相關(guān)的文本模板。在文本摘要中,基于模板的方法往往假設(shè)與真實(shí)摘要相似的句子可以作為“模板”,指導(dǎo)摘要文本的生成。這些模板通常稱(chēng)之為soft template,區(qū)別于傳統(tǒng)的基于規(guī)則的模板?;趕oft template的摘要模型通常包括三個(gè)階段:檢索、重排和重寫(xiě)。檢索是為了從摘要集合中返回若干候選模板,重排是從這些候選模板中選擇最好的模板,重寫(xiě)則是借助輸入文本和模板生成更加真實(shí)、信息豐富的摘要。與檢索相應(yīng)片段類(lèi)似,可以根據(jù)模板和輸入文檔之間的相似性進(jìn)行排序。重排模塊則希望識(shí)別出盡可能與目標(biāo)摘要 相似的最好模板,這里的相似度可以通過(guò)ROUGE進(jìn)行計(jì)算。

在回復(fù)生成中建模背景文本 背景知識(shí)在人與人的對(duì)話中發(fā)揮著重要的作用,例如當(dāng)談?wù)撾娪皶r(shí),人們通常會(huì)回憶一些重要信息,包括電影的場(chǎng)面等,然后在之后對(duì)話合適的位置提及。因此,上述BBC任務(wù)的難點(diǎn)在于不僅需要定位背景片段中正確的語(yǔ)義單元,還需要在生成過(guò)程中合適的位置和事件插入這些背景信息。BBC模型需要根據(jù)生成的回復(fù)尋找合適的背景知識(shí)片段,因此BBC模型往往會(huì)設(shè)計(jì)閱讀理解模塊。閱讀理解模塊可以有效地將輸入序列  編碼為query,同時(shí)編碼背景文本 B 為上下文  ,然后計(jì)算decoder隱狀態(tài)  和背景之間的上下文向量:

六、未來(lái)展望

綜上所述,目前已有相當(dāng)一部分工作致力于知識(shí)增強(qiáng)的文本生成研究。為了促進(jìn)領(lǐng)域發(fā)展,目前仍然存在著許多開(kāi)放問(wèn)題等待解決,以及具有前景的未來(lái)方向。首先,設(shè)計(jì)更加有效的知識(shí)表示方法然后融入文本生成過(guò)程中仍然是這個(gè)研究方向最重要的趨勢(shì)。其次,研究者們應(yīng)該探索如何更廣泛地發(fā)現(xiàn)知識(shí),并將不同來(lái)源的多種形式的知識(shí)結(jié)合起來(lái),以改進(jìn)生成過(guò)程。例如,多任務(wù)學(xué)習(xí)可以實(shí)現(xiàn)知識(shí)表示和文本生成之間的相互增強(qiáng)與相互促進(jìn)。

七、參考論文

[1] Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate.arXiv preprint arXiv:1409.0473.

[2] Gu, J., Lu, Z., Li, H., & Li, V. O. (2016). Incorporating copying mechanism in sequence-to-sequence learning.arXiv preprint arXiv:1603.06393.

[3] See, A., Liu, P. J., & Manning, C. D. (2017). Get to the point: Summarization with pointer-generator networks.arXiv preprint arXiv:1704.04368.

[4] Sukhbaatar, S., Szlam, A., Weston, J., & Fergus, R. (2015). End-to-end memory networks.arXiv preprint arXiv:1503.08895.

END -

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶(hù)發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
從ChatGPT看知識(shí)管理及知識(shí)圖譜的發(fā)展
知識(shí)圖譜的系統(tǒng)工程觀
下一代AI系統(tǒng)基石:知識(shí)圖譜將何去何從?
電商推薦式搜索方法論---2022搜索玩法的方向。
技術(shù)動(dòng)態(tài) | 基于深度學(xué)習(xí)知識(shí)庫(kù)問(wèn)答研究進(jìn)展
人工智能 = 深度學(xué)習(xí)?
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服