在日常生活中,用戶會(huì)經(jīng)常碰到很多復(fù)雜的規(guī)章制度、規(guī)則條款。比如:乘坐飛機(jī)時(shí),能不能帶寵物上飛機(jī),3歲小朋友是否需要買票等。在工作中,也會(huì)面對(duì)公司多樣的規(guī)定制度和報(bào)銷政策。比如:商業(yè)保險(xiǎn)理賠需要什么材料,工作幾年可以排隊(duì)辦理?這些情況下,經(jīng)常需要各種查詢確定或者檢索規(guī)章制度文件或說(shuō)明,才能回復(fù)并解決用戶的疑問(wèn)?;谶@類常見(jiàn)的業(yè)務(wù)場(chǎng)景,百度大腦UNIT3.0正式推出了對(duì)話式文檔問(wèn)答能力,更快速、低成本的搭建智能對(duì)話系統(tǒng)。
對(duì)話式文檔問(wèn)答是UNIT提供的一項(xiàng)創(chuàng)新技術(shù),利用這項(xiàng)創(chuàng)新技術(shù),開(kāi)發(fā)者無(wú)需梳理意圖、詞槽,無(wú)需進(jìn)行問(wèn)題和答案的整理,只需準(zhǔn)備文本格式的業(yè)務(wù)文檔,通過(guò)平臺(tái)上傳,即可一鍵獲取基于文檔的對(duì)話技能。無(wú)需智能對(duì)話技術(shù)基礎(chǔ)也可以利用該技術(shù),秒變AI達(dá)人。
【對(duì)話式文檔問(wèn)答技術(shù)解讀】
對(duì)話式文檔問(wèn)答技能,可以對(duì)傳統(tǒng)需要人工抽取FAQ或梳理意圖的業(yè)務(wù)文檔進(jìn)行自動(dòng)學(xué)習(xí),通過(guò)搜索與語(yǔ)義理解技術(shù),構(gòu)建了用戶輸入的問(wèn)題與業(yè)務(wù)文檔之間的橋梁,使得用戶的問(wèn)題可以由技能自動(dòng)找到文檔中的對(duì)應(yīng)答案片段,使用端到端的多文檔閱讀理解模型V-NET和自然語(yǔ)言生成技術(shù),技能得以返回更為精準(zhǔn)的答案。整個(gè)問(wèn)答技能的構(gòu)建對(duì)開(kāi)發(fā)者來(lái)說(shuō)沒(méi)有任何技術(shù)門檻,且對(duì)話式文檔問(wèn)答技能具有自主學(xué)習(xí)能力,可持續(xù)優(yōu)化,大大提高問(wèn)答系統(tǒng)的開(kāi)發(fā)人效。
【多粒度語(yǔ)料分析技術(shù)】
開(kāi)發(fā)者在上傳文檔后,可以在平臺(tái)上進(jìn)行模型訓(xùn)練,整個(gè)訓(xùn)練的過(guò)程需要經(jīng)過(guò)以下幾部分處理:
1.基礎(chǔ)處理:比如編碼處理,冗余字符處理,切分完整語(yǔ)義片段,進(jìn)行詞法分析等,讓機(jī)器人對(duì)用戶上傳的文檔有基礎(chǔ)了解;
2.獲取文檔關(guān)鍵信息并完成倒排索引:此過(guò)程采用了TF-IDF及TextRank等多種算法綜合片段的重要性,并進(jìn)行打分;
3.構(gòu)建基于詞向量的KNN分類器:基于大規(guī)模語(yǔ)料,使用skip-gram模型,訓(xùn)練并得到詞向量,并完成構(gòu)建KNN分類器。
【基于篇章理解的答案定位技術(shù)】
訓(xùn)練結(jié)束后,開(kāi)發(fā)者就可以直接測(cè)試使用了,這個(gè)過(guò)程如上圖所示:
1.首先是對(duì)用戶的query進(jìn)行分析及提取關(guān)鍵信息;
2.此后對(duì)關(guān)鍵信息進(jìn)行拓展,構(gòu)建query中關(guān)鍵信息與文檔中關(guān)鍵信息之間的橋梁;
3.在對(duì)query有了比較深入的分析后,實(shí)時(shí)在系統(tǒng)中尋找與問(wèn)題最相關(guān)的候選文檔及候選答案,要進(jìn)行基于各種技術(shù)的排序處理;
4.排序后,會(huì)生成精準(zhǔn)的答復(fù),這里面要拆分單答案及多答案等處理算法及邏輯。
【如何體驗(yàn)對(duì)話式文檔問(wèn)答】
開(kāi)發(fā)者需要登錄UNIT平臺(tái),點(diǎn)擊“創(chuàng)新技術(shù)”區(qū),進(jìn)入如下界面,點(diǎn)擊“對(duì)話式文檔問(wèn)答“即可申請(qǐng)?bào)w驗(yàn)。
創(chuàng)新技術(shù)區(qū)是UNIT將創(chuàng)新技術(shù)在業(yè)務(wù)場(chǎng)景下落地探索的窗口,目前包含對(duì)話式文檔問(wèn)答和語(yǔ)義解析離線使用兩種創(chuàng)新技術(shù),開(kāi)發(fā)者可以通過(guò)在線申請(qǐng)并體驗(yàn)這些新技術(shù),同時(shí)更多創(chuàng)新技術(shù)敬請(qǐng)期待。
【三步快速創(chuàng)建對(duì)話式文檔問(wèn)答對(duì)話技能】
點(diǎn)擊“對(duì)話式文檔問(wèn)答”,進(jìn)入對(duì)話式文檔問(wèn)答的主界面,新用戶點(diǎn)擊“新建技能”,填寫技能信息,即可完成技能的創(chuàng)建。技能創(chuàng)建完成后會(huì)出現(xiàn)在“對(duì)話式文檔問(wèn)答技能”列表和“我的技能”列表中。創(chuàng)建技能后,只需三步便可獲得基于業(yè)務(wù)文檔的對(duì)話能力:
第一步:上傳業(yè)務(wù)文檔
當(dāng)前版本的對(duì)話式文檔問(wèn)答僅支持兩類純文本文檔的上傳上傳,一類是普通文本文檔,一類是梳理過(guò)的FAQ文檔,如下圖所示。
Tips:
1.每種文檔類型都可以通過(guò)下載示例文檔進(jìn)行內(nèi)容的替換后再上傳;
2.請(qǐng)選擇恰當(dāng)?shù)奈臋n類型后再上傳對(duì)應(yīng)的文檔,否則會(huì)影響模型的效果;
3.每次只能上傳一個(gè)文檔,多個(gè)業(yè)務(wù)文檔請(qǐng)分批次上傳;
4.FAQ類型的文檔請(qǐng)務(wù)必按照示例文檔的格式整理后再上傳;
5.當(dāng)前版本下每個(gè)技能可支持的文檔大小的上限是10M,文檔數(shù)量的上限是99個(gè)。
第二步:訓(xùn)練模型
文檔上傳完成后開(kāi)始模型訓(xùn)練。訓(xùn)練完成后“訓(xùn)練”按鈕會(huì)變?yōu)椤爸匦掠?xùn)練”,點(diǎn)擊“測(cè)試”進(jìn)入測(cè)試界面。
Tips:
1.訓(xùn)練過(guò)程中不可對(duì)文檔進(jìn)行任何編輯,包括刪除、上傳、下載等;
2.目前的技能是全文檔訓(xùn)練,即該技能下的所有文檔都會(huì)參與模型的訓(xùn)練。
第三步:測(cè)試技能
進(jìn)入“測(cè)試”界面可以體驗(yàn)對(duì)話。對(duì)話有兩種形態(tài):一種是直接對(duì)話,一種是回復(fù)中提供選項(xiàng),用戶可以進(jìn)行選擇,或者直接輸入更多信息進(jìn)行交互,如下圖。
【調(diào)優(yōu)模式如何使用】
1.調(diào)優(yōu)模式下會(huì)看到一個(gè)query的多個(gè)候選項(xiàng)答案,并且可以展開(kāi)每個(gè)候選項(xiàng)查看完整的選項(xiàng)內(nèi)容
2.查看并確定正確選項(xiàng)后,點(diǎn)擊單選按鈕進(jìn)行選擇,并點(diǎn)擊確認(rèn)后就會(huì)保存答案,再次詢問(wèn)該query時(shí),會(huì)呈現(xiàn)針對(duì)這個(gè)問(wèn)題的答案,如下圖:
3.如果對(duì)之前選擇的答案不滿意,可以點(diǎn)擊“刪除并重新選擇”按鈕,進(jìn)行重新選擇;點(diǎn)擊“刪除并重新選擇”按鈕后,會(huì)呈現(xiàn)選擇前的選項(xiàng)狀態(tài)。
4.調(diào)優(yōu)完成后,點(diǎn)擊“生效”按鈕,調(diào)優(yōu)結(jié)果會(huì)在模型中生效;之后即可在“測(cè)試模式”下體驗(yàn)調(diào)優(yōu)后的對(duì)話效果了;如果調(diào)優(yōu)后沒(méi)有點(diǎn)擊“生效”就要離開(kāi)調(diào)優(yōu)界面,會(huì)彈出二次確認(rèn),點(diǎn)擊“生效”后,調(diào)優(yōu)結(jié)果就會(huì)生效到模型中。
如有任何關(guān)于對(duì)話式文檔問(wèn)答的問(wèn)題,可以請(qǐng)發(fā)郵件至unit-innovation@baidu.com與我們溝通交流。
聯(lián)系客服