大家好,這里是NewBeeNLP。智能問答是人工智能領(lǐng)域中一個比較受關(guān)注的方向,目前廣泛應(yīng)用于各種垂直或綜合的搜索引擎、智能客服、智能助手以及智能手機、車載音箱等。
今天我們分享的主題是QQ瀏覽器搜索中的智能問答技術(shù),主要分為以下幾個部分:
1.背景介紹
智能問答在搜索中的應(yīng)用
搜索中的Top1問答
2.關(guān)鍵技術(shù)
搜索問答的技術(shù)框架
KBQA:基于知識圖譜的問答
DeepQA:基于搜索+機器閱讀理解的問答
3.前沿研究
端到端問答
知識指導(dǎo)的問答
多模態(tài)問答
01
背景介紹
1. 問答在搜索中的應(yīng)用
問答的核心是通過理解語言和運用知識來進行提問和回答。從應(yīng)用角度看,由于人類有獲取信息的需求和旺盛的好奇心,問答的場景無處不在;從研究角度看,問答是認知智能的前沿之一。
問答在搜索場景的應(yīng)用可以分為兩類。一類是滿足用戶的直接搜索需求,即在搜索結(jié)果頁給用戶提供精準的答案,例如Top1問答卡片。另一類是通過問答的方式與用戶交互,來幫助用戶澄清、細化和延伸需求,例如推薦和對話形式的問答。
2. 搜索中的Top1問答
下圖展示了QQ瀏覽器搜索中Top1問答的一些產(chǎn)品形態(tài),包括短答案、長答案、列表答案、視頻答案、集合和圖片答案。
02
關(guān)鍵技術(shù)
1. 搜索問答技術(shù)與系統(tǒng)
搜索中問答的明確需求占比接近1/4。這些問題不限領(lǐng)域,不限類型,一般可分成事實類和非事實類。搜索中問答的數(shù)據(jù)源是多種多樣的。從資源類型上看,包括網(wǎng)頁、UGC(用戶生產(chǎn)內(nèi)容,如社區(qū)問答)和PGC(專業(yè)生產(chǎn)內(nèi)容,例如自媒體號)。從文本的組織形態(tài)上來講,數(shù)據(jù)可以分成結(jié)構(gòu)化、半結(jié)構(gòu)化和無結(jié)構(gòu)化三種。結(jié)構(gòu)化的數(shù)據(jù)具有一定約束,以知識圖譜為代表;半結(jié)構(gòu)化數(shù)據(jù)的典型代表是開放生態(tài)構(gòu)建或者從社區(qū)問答抽取的具有一定格式的問答對數(shù)據(jù);無結(jié)構(gòu)化數(shù)據(jù)廣泛存在,例如普通的網(wǎng)頁文本。
搜索中的問答技術(shù)主要分為KBQA和DeepQA。
KBQA指基于知識圖譜的問答,面向的是結(jié)構(gòu)化數(shù)據(jù),底層是離線構(gòu)建的知識圖譜,在線通過問題解析、圖譜查詢和推理得到答案,主要適用于事實類問題。
DeepQA是一系列基于搜索和機器閱讀理解(MRC)的問答技術(shù),可以處理更廣泛的非結(jié)構(gòu)化數(shù)據(jù),基于離線問答內(nèi)容構(gòu)建和理解,在線通過搜索獲得候選文檔、使用機器閱讀理解技術(shù)來抽取答案,能解決更多問題需求類型。在實際應(yīng)用中,針對不同類型的數(shù)據(jù),我們構(gòu)建了三套DeepQA系統(tǒng),分別是優(yōu)質(zhì)問答數(shù)據(jù)源上的獨立檢索系統(tǒng)、全網(wǎng)搜索結(jié)合在線MRC的通用問答系統(tǒng)、以及端到端問答系統(tǒng)。
下圖右側(cè)展示的是搜索問答系統(tǒng)的整體架構(gòu)。離線部分是問答內(nèi)容的構(gòu)建和理解,比如對專業(yè)生產(chǎn)內(nèi)容做質(zhì)量和權(quán)威性分析、從全網(wǎng)數(shù)據(jù)中進行問答對的挖掘和選取等;數(shù)據(jù)源包括網(wǎng)頁庫、優(yōu)質(zhì)問答庫和知識圖譜;在線部分包括搜索問答結(jié)果的召回和排序、段落匹配和答案抽取、知識圖譜檢索和推理計算等,以及問答融合決策從多源結(jié)果中決定最終展現(xiàn)給用戶的答案。
2. KBQA:基于知識圖譜的問答系統(tǒng)
圖譜問答系統(tǒng)的數(shù)據(jù)依據(jù)不同實體更新的要求分為三路,數(shù)據(jù)通過直接的三元組索引查詢或者圖數(shù)據(jù)庫存儲檢索系統(tǒng)應(yīng)用。
在線圖譜問答的流水線之一是語義解析的方法,系統(tǒng)先對查詢進行領(lǐng)域分類以裝配不同類型的處理流程(例如漢語詩詞類、單實體類、多實體關(guān)系類),然后對查詢進行語法樹分析和形式邏輯規(guī)約,在三元組中遞歸查詢和拼裝得到最終答案。該方法的優(yōu)點是支持一些復(fù)雜的查詢推理,且在規(guī)則適用的范疇內(nèi)準確率較高。另一種流水線是基于深度學習的方法,系統(tǒng)首先識別出具有問答意圖的查詢,然后通過深度模型識別查詢問題中的實體,對實體屬性和查詢表達進行深度語義匹配映射,計算出候選結(jié)果并進行清洗和排序得到答案。該方法的優(yōu)點是對查詢語義理解較好,泛化性強,召回率較高。
3. DeepQA:基于搜索+機器閱讀理解的問答系統(tǒng)
下面主要圍繞DeepQA相關(guān)工作展開介紹。
早期的DeepQA系統(tǒng)具有非常復(fù)雜的流水線,例如IBM的Waston,以及2017年第一版“立知“問答。系統(tǒng)包括多個數(shù)據(jù)挖掘和機器學習模塊,在問題分析、答案候選的特征抽取、評分排序等諸多環(huán)節(jié)都可能有錯誤的傳播和積累,可擴展性不強。2017年以后,斯坦福的陳丹琦等人提出了一個面向規(guī)模文檔集的開放域問答系統(tǒng)——DrQA,系統(tǒng)定義了一種新的開放域問答實現(xiàn)方式,即通過檢索和深度機器閱讀理解(MRC)產(chǎn)生答案。在SQuAD等公開數(shù)據(jù)集和評測的推動下,深度機器閱讀理解發(fā)展迅速,在查詢和文檔語義建模、上下文信息交互建模、答案抽取和預(yù)測方式建模上都不斷涌現(xiàn)新的方法,2019年機器閱讀理解系統(tǒng)甚至在事實類問答上超過了人類水平。
然而在真實的搜索場景中,DeepQA仍然面臨著很多挑戰(zhàn)。首先是用戶的需求紛繁復(fù)雜,表達方式也千差萬別,而互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模巨大,需求檢索匹配的難度很大。其次是網(wǎng)頁數(shù)據(jù)多種多樣,頁面類型和格式繁多、質(zhì)量參差、答案的形式不一,機器閱讀理解面臨較大的挑戰(zhàn)。
下面介紹一些應(yīng)對搜索場景的問題我們所做的工作。
(1)短答案MRC
短答案MRC任務(wù)的定義是從搜索結(jié)果的多個文檔中抽取唯一的答案片段,并提供支持答案的文本來源。這個任務(wù)會面臨以下一些挑戰(zhàn):
①搜索結(jié)果噪聲過多
噪聲包括不相關(guān)結(jié)果、不一致答案等。短答案抽取模型是一個多文檔段落抽取的模型,我們將搜索排名topN(常用N=10)的文檔段落輸入到BERT中進行表示建模,然后預(yù)測段落中答案的起始位置。為了解決輸入文檔不相關(guān)的問題,我們將“答案存在性判別”和“答案起止位置預(yù)測”兩個目標進行聯(lián)合訓練;為了應(yīng)對各文檔的答案不一致問題,我們加入了多文檔交互,將多個文檔中包含答案概率最大的片段拼接起來進行建模,信息融合之后再預(yù)測文檔包含答案的概率。
②答案出現(xiàn)常識性錯誤
常識性錯誤即模型輸出無意義答案,例如邊界錯誤、答案類型錯誤。我們的做法是引入一些外部知識,例如百科、知識圖譜等,給候選文檔中符合答案類型的實體打上特殊的標記,在建模過程中加強對它們的關(guān)注。
③魯棒性問題
這里魯棒性問題指的是由于過擬合導(dǎo)致模型輸出不穩(wěn)定。Dropout是一種有效的減少過擬合的方式,但它的缺點是不能保持輸出的一致性。我們應(yīng)用了R-Drop,通過將Dropout作用于輸出層,降低了訓練和測試的不一致性,同時引入對稱KL散度作為正則項,增強了輸出的穩(wěn)定性。在實驗過程中,我們發(fā)現(xiàn)對輸出層使用兩次dropout效果較好。此外我們還對訓練數(shù)據(jù)進行了同語義問題的數(shù)據(jù)增強,加入相同語義query下的段落輸出部分的KL-Loss,增強了模型的穩(wěn)定性。
④答案歸一化和多span問題
在抽取式閱讀理解中,由于多文檔表述的不一致,往往會遇到答案歸一化的問題,比如“安全帶使用期限是幾年”的問題答案可能有“3到5年”、“3年至5年等”;而且還有答案并不是連續(xù)判斷,比如“沉魚落雁指的是誰”這個問題中,答案可能對應(yīng)文檔中兩個片段(span)。為了解決上述問題,我們嘗試用生成式閱讀理解方法,以Fusion-in-Decoder(FiD)為例,將檢索得到的多文檔分別進行編碼表示,拼接起來輸入到decoder生成統(tǒng)一的答案。
實踐中利用大規(guī)模點擊日志文檔生成查詢進行預(yù)訓練,利用短答案日志構(gòu)建大量弱監(jiān)督數(shù)據(jù)進行自訓練,有效提升了生成式閱讀理解的效果。由于生成模型輸出的答案得分其實是語言模型的困惑度,不能很好地刻畫答案本身的置信度,我們訓練了一個生成答案的置信度預(yù)測模型,對答案輸出進行決策。
(2)長答案MRC
相比短答案,長答案MRC受到的研究關(guān)注相對較少,一方面因為問題更加復(fù)雜,數(shù)據(jù)集稀缺,另一方面因為長答案在內(nèi)容和表達方式上有不確定性,評價起來也相對較難。
搜索場景中長答案和短答案主要有以下幾個方面的差異:
①長答案MRC-組合式問答
針對長答案包含信息量大、不連續(xù)的特點,我們提出了一種“組合式問答”的任務(wù)形式:從搜索結(jié)果的單個文檔中抽取出一組片段來合成精選摘要答案。任務(wù)輸入為給定問題和文檔的完整片段組合,輸出為答案片段組合。評價方式為片段預(yù)測的F1和人工評價相結(jié)合。
組合式問答模型的整體框架基于BERT,輸入是問題和進行了啟發(fā)式分句的文檔句子序列,輸出是每個句子是否是答案的概率。我們引入了兩個非常有用的設(shè)計。
第一個是引入頁面的結(jié)構(gòu)信息。由于網(wǎng)頁的HTML能夠一定程度上反映頁面結(jié)構(gòu)、文本關(guān)聯(lián)以及展示內(nèi)容的重要度等特征,我們選擇了部分網(wǎng)頁標簽作為符號輸入到模型中。
第二個是引入針對性的預(yù)訓練任務(wù)。—般預(yù)訓練都是建模句子級別的關(guān)系,沒有有效挖掘文檔結(jié)構(gòu)的信息;我們引入了兩類相關(guān)的預(yù)訓練任務(wù),一類是問題選擇(QS),即隨機替換一個問題并預(yù)測;另一類是節(jié)點選擇(NS),可以對句子和符號進行隨機替換或打亂順序。這樣的預(yù)訓練任務(wù)可以讓模型更深刻地理解問題和長文本的內(nèi)容。
由于文檔具有層級結(jié)構(gòu),一個自然的想法是利用圖網(wǎng)絡(luò)來建模。我們嘗試在模型輸出側(cè)增加圖網(wǎng)絡(luò),將句子中詞的連接、句子之間的連接以及問題和句子的連接用圖結(jié)構(gòu)表示并通過Attention Mask實現(xiàn),實驗表明加入層次結(jié)構(gòu)信息的效果提升明顯。
長答案閱讀理解中同樣可以采用短答案閱讀理解類似的思路:(1)同時預(yù)測文檔可答概率和答案句子概率;(2)引入門機制學習文檔和句子的關(guān)系;(3)使用R-drop提升魯棒性。
我們發(fā)現(xiàn)模型對問題的理解仍然不夠充分。舉一個極端的例子:當不輸入問題,直接針對文檔預(yù)測長答案,模型仍然能夠達到一定的抽取效果。說明閱讀理解模型輸出的答案受到文檔本身的影響較大,而對問題的關(guān)注不夠。為了解決這個問題,我們做了一些數(shù)據(jù)樣本增強和對抗的工作。一方面通過主動學習不斷優(yōu)化訓練數(shù)據(jù),讓模型學習到更多不會的能力,另一方面通過點擊日志挖掘同一個文檔下語義相同或不同的query。由于同一個文檔中的不同部分可以回答不同的問題,這樣可以讓模型更關(guān)注問題相關(guān)的信息,而不是文檔本身。
(3)長答案MRC-判斷類觀點問答
對于判斷類觀點問答任務(wù),考慮到用戶不會僅僅滿足于論斷,而會更關(guān)心論據(jù),我們設(shè)計了一個模型,首先抽取能夠回答問題的長答案,即論據(jù),然后根據(jù)該論據(jù)做論斷的分類,產(chǎn)生一個短答案。
模型的整體結(jié)構(gòu)是基于長答案模型結(jié)構(gòu)的改進,在抽取長答案的同時,將query、title和長答案抽取過程中最高概率答案句拼接起來輸入判斷模塊。通過論據(jù)抽取和論點分類兩個目標的聯(lián)合學習,模型可以解決短答案抽取無法解決的問題。比如在下圖的例子中,對于“把兔子關(guān)在籠子里好嗎”這個問題,短答案抽取并不能直接抽取出“好”或者“不好”的答案片段,而通過分類可以知道它是一個否定的回答。
(4)問答式搜索
DeepQA的一個重要部分是從大規(guī)模數(shù)據(jù)檢索出相關(guān)候選文檔,才能通過閱讀理解模型抽取答案。傳統(tǒng)搜索更關(guān)注相關(guān)性,即文檔和問題相關(guān),而問答更關(guān)注檢索結(jié)果是否能回答問題,這是問答式搜索和傳統(tǒng)搜索的不同。
問答式搜索系統(tǒng)需要一種更細粒度、更精準的語義檢索匹配方式。稠密段落檢索,即通過深度語義表示學習,從大規(guī)模文本中檢索出和查詢相關(guān)的段落,包括自然段、任意句子、詞片段。稠密段落檢索是稠密向量檢索的一種。傳統(tǒng)基于關(guān)鍵字詞構(gòu)建的倒排檢索(稀疏檢索),雖能精確地召回結(jié)果,但是會面臨比較嚴重的語義鴻溝問題;而稠密向量檢索是解決查詢和文檔之間語義鴻溝的有效手段,但是從符號到向量的表示過程損失了一定的語義。所以需要對稠密向量表示進行優(yōu)化,并設(shè)計合適的向量檢索和語義匹配方法。
問答式搜索也是一個從大規(guī)模數(shù)據(jù)到少量能抽取答案的文檔的金字塔式篩選過程。為了提高在線服務(wù)效率,在面向海量數(shù)據(jù)的召回和初排階段一般使用非交互式匹配模型,待檢索到一定規(guī)模的相關(guān)候選后再采用更精細化也更加耗時的交互式匹配模型。交互式和非交互式匹配模型各有其優(yōu)缺點,如圖所示。
稠密段落檢索模型
我們選用非交互式異形雙塔模型進行稠密段落檢索的Query-Passage語義表示學習。通過網(wǎng)頁搜索日志和問答對數(shù)據(jù)可以獲取大量的正負樣本,從而進行大規(guī)模對比學習。
這里介紹一種向量表示的優(yōu)化方法——Barlow-Twins。通過在訓練目標里加上一個相關(guān)性去除目標,降低向量表示的冗余性,使得訓練出來的向量在空間的分布非常均勻。
負采樣方法是對比學習中非常重要的一環(huán),對稠密向量表示效果有很大影響,我們對負采樣進行了兩個方面的優(yōu)化:
一個是很多相關(guān)工作都會采用的Cross-batch負采樣,在多 GPU 并行訓練時,將其它 GPU 批次內(nèi)的全部段落作為當前問題的負樣本,極大地增加了負樣本數(shù),也使得訓練效率得到很大提升。Cross-batch負采樣還能緩解訓練和推理時負樣本分布的不一致性,因為在問答式搜索中,模型需要從大規(guī)模數(shù)據(jù)集中找到相關(guān)答案候選,但訓練過程見到的查詢段落樣本通常遠小于預(yù)測時的候選數(shù)據(jù)規(guī)模,這會導(dǎo)致模型在訓練時表現(xiàn)良好而在應(yīng)用中不夠好。
另一個是提升負樣本的質(zhì)量。一方面需要讓負樣本對模型來說更難,這樣能學習到更多的知識。另一方面要盡可能少地引入False Negative樣本。我們提出了混合降噪負采樣策略:先通過非降噪負采樣,例如已有的召回模型(BM25、初始訓練的召回模型等)進行Top-K采樣,這樣得到的樣本相對較難,當然也會引入一些False Negative;然后進行降噪負采樣,通過訓練一個Re-ranker對樣本進行篩選,去除實際可能是正例的噪聲;兩者結(jié)合訓練,實驗證明效果提升非常明顯。
Query-Passage交互匹配模型
召回階段的核心任務(wù)是區(qū)分答案相關(guān)和不相關(guān)的候選,召回之后就需要通過匹配更進一步排序這些候選文檔。這里簡要介紹一下我們的Query-Passage交互匹配模型。
模型訓練主要分三個階段,首先利用大規(guī)模網(wǎng)頁數(shù)據(jù),包括百科、微信、知乎以及問答點擊頁面等多樣的數(shù)據(jù)進行預(yù)訓練;接下來是對比式弱監(jiān)督訓練,通過點擊和曝光未點擊數(shù)據(jù)、問答對結(jié)合負采樣構(gòu)造正負樣本;最后在人工標注的問答匹配數(shù)據(jù)上進行訓練。人工標注的樣本有四類標簽,分別是完全不相關(guān)、相關(guān)、能部分回答問題、能完整地很好回答問題。為了進一步提升模型效果,我們還使用了自訓練技術(shù),利用人工標注數(shù)據(jù)訓練模型之后,通過該模型進行大量的自動化標注并從中篩選一些高質(zhì)量標注數(shù)據(jù),繼續(xù)訓練原始模型。多次迭代之后,模型的泛化性能會有較大的提升。
03
前沿研究
下面介紹開放域智能問答的一些相關(guān)前沿研究和進展。
1. 端到端問答
近年來關(guān)于開放域端到端問答的研究如火如荼,下圖摘自ACL 2020 Tutorial: Open domain question and answering,對端到端問答系統(tǒng)發(fā)展的總結(jié)。
第一代端到端問答模型采取兩階段的方式,通過檢索器和閱讀器串聯(lián)來進行答案提取,例如DrQA;前面我們所講的DeepQA系統(tǒng)也是遵循這種范式的設(shè)計;第二代的模型為閱讀器和檢索器聯(lián)合優(yōu)化的模型,如R3、DenSPI;第三代的模型不需要檢索器,直接通過模型生成答案,如T5、GPT3。
檢索器和閱讀器的聯(lián)合優(yōu)化是一個難點。一種方法是將檢索的文檔看做隱變量,依靠EM優(yōu)化語義表示模型和生成模型,即通過閱讀器的輸出概率作為檢索器優(yōu)化的目標,反過來再基于檢索器的輸出優(yōu)化閱讀器的輸出概率。這樣交替進行同時提升閱讀器和檢索器的效果。我們嘗試了一種Hard-EM的方法,直接把預(yù)測答案是否包含于檢索文檔作為硬匹配信號來優(yōu)化文檔檢索的過程。如下圖所示,通過答案硬匹配文檔獲得訓練三元組<q, d, a>,然后訓練FiD答案抽取模型,再利用新的答案抽取模型預(yù)測出來的更優(yōu)質(zhì)的答案,繼續(xù)硬匹配和過濾候選文檔輸入。幾輪循環(huán)之后答案抽取的EM和F1指標均得到提升。
2. 知識指導(dǎo)的問答
如何在深度模型中引入知識也是問答研究的熱點。真實場景中有很多問題需要知識推理,比如“小汽車科目二多少分及格”這個問題,示例的法規(guī)文本里沒有明確的描述,但是可以根據(jù)推理得到答案;“葡萄籽油的食用方法”這個問題,不同答案中包含的“知識點”相互存在沖突和分歧,需要進行知識驗證。
知識指導(dǎo)的問答相關(guān)工作,有一種是把特定的知識輸入到答案抽取模型一起學習,比如K-BERT,把原輸入中實體所涉及到的三元組通過軟位置編碼的方式融合到輸入中,從而引入了實體相關(guān)的知識。另一類方法是通過知識增強的預(yù)訓練模型提升下游任務(wù)的效果。
QQ瀏覽器搜索內(nèi)容技術(shù)團隊還提出了一種知識增強預(yù)訓練的方法,該模型引入了三類知識性任務(wù),包括遠程關(guān)系監(jiān)督分類、三元組文本mask預(yù)測、以及同類實體替換預(yù)測,訓練過程中將這三類任務(wù)和語言模型任務(wù)結(jié)合在一起訓練。為了保證原始模型的參數(shù)在訓練過程中不會有災(zāi)難性遺忘,設(shè)計了一個新的知識記憶結(jié)構(gòu),將原有模型的所有參數(shù)固定住,只用這個新的知識記憶矩陣承載上面多任務(wù)引入的知識。實驗證明知識增強的預(yù)訓練在很多下游任務(wù)上都能夠獲得一定的提升,尤其是在上下文不充分的短文本任務(wù)上。
3. 多模態(tài)問答
當前越來越多的優(yōu)質(zhì)內(nèi)容以視頻形式存在,從文本答案到視頻答案也是一個大的趨勢?;谝曨l載體的問答需要對視頻內(nèi)容進行感知分析+語義分析,進而通過顯示/隱式的語義表示和計算(檢索、匹配、閱讀、生成)得到視頻化的答案。
我們現(xiàn)在做的一個比較初步的工作是利用視頻的語音和字幕進行視頻文本化,然后通過閱讀理解結(jié)合文本生成的技術(shù)進行視頻答案摘要,通過文本生成和字幕時間匹配,還能得到視頻分段以及關(guān)鍵幀標簽。右圖是我們在視頻問答做出來的短答案摘要的效果,相對于文本答案可以給用戶提供更多便捷性的幫助。未來還有更多基于多模態(tài)內(nèi)容的問答研究值得探索。
04
Q&A
Q1:針對用戶的query,KBQA和DeepQA的執(zhí)行順序是什么?
A1:兩者是同步進行的,最后根據(jù)答案產(chǎn)生的情況做決策。DeepQA這邊還會有一個問題分類的模塊,判斷問題的答案是短答案還是長答案。所以底層是多個系統(tǒng)的并行,包括KBQA系統(tǒng)、短答案系統(tǒng)和長答案系統(tǒng)。
Q2:自己嘗試后發(fā)現(xiàn)DeepQA的響應(yīng)非常慢,工業(yè)應(yīng)用中通過什么方式來提高問答響應(yīng)的速度?
A2:響應(yīng)的速度分為兩個方面,檢索模塊和閱讀理解模塊的響應(yīng)。需要看這兩部分分別耗時,也需要分別優(yōu)化。檢索模塊往往會通過分層篩選的方式來限制輸入文本的數(shù)量。計算越復(fù)雜的模塊,輸入文本數(shù)量越少。召回階段我們采用非交互式模型快速獲得相關(guān)文本,排序階段再使用更復(fù)雜的交互式模型進行少量精細化計算。最后閱讀理解模塊的文本輸入相對更少了,目前只針對Top10結(jié)果去做計算。以上是系統(tǒng)層面的優(yōu)化。
具體到模型優(yōu)化的話,可能就會需要具體看輸入的文本長度、模型復(fù)雜度,模型所使用的推理系統(tǒng),推理器和硬件的匹配情況等。最主要的是需要去分析響應(yīng)時間慢的瓶頸的問題,然后再針對性解決。
Q3:針對用戶的query也會有拼寫糾錯的處理,什么時候會觸發(fā)這個處理?怎么處理?
A3:糾錯不是問答獨有的問題,是整個搜索系統(tǒng)面臨的問題。在搜索的最開始也就是查詢分析的模塊,不僅有糾錯,還有查詢的分詞,查詢重要度的分析,查詢詞之間的關(guān)系分析等。糾錯往往是搜索前置的模塊,糾錯之后的處理也會有不同,比如對置信度非常高的糾錯,可以直接修改查詢。系統(tǒng)更保險的做法是觸發(fā)二次查詢,也就是將原詞的搜索結(jié)果和糾錯后的搜索結(jié)果同時拿到,然后再根據(jù)結(jié)果的反饋綜合決策。