国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開(kāi)通VIP
狗尾草科技王昊奮:當(dāng)知識(shí)圖譜遇上聊天機(jī)器人
人物訪談 |開(kāi)放知識(shí)圖譜 |2017-07-19 17:00

大家好,今天我演講的題目是When KG meets Chatbots,即當(dāng)知識(shí)圖譜遇上聊天機(jī)器人。具體來(lái)說(shuō),我們主要探討一下,在聊天機(jī)器人(Chatbots)中,知識(shí)圖譜(KnowledgeGraph,KG)將如何融入,起到重要的支撐作用。

我的報(bào)告包括四塊內(nèi)容,首先是簡(jiǎn)介,全面介紹Chatbots的生態(tài)。其次,我會(huì)著重介紹一下為什么需要KG,尤其是在Chatbots應(yīng)用中引入知識(shí)圖譜的價(jià)值。接著,我將根據(jù)自身在帶領(lǐng)開(kāi)發(fā)公子小白和Holoera等旨在創(chuàng)造虛擬生命的聊天機(jī)器人產(chǎn)品的經(jīng)驗(yàn)以及結(jié)合Chatbots應(yīng)用落地的思考,與大家一起分享一下Chatbots需要怎樣的KG,并列出將KG應(yīng)用于Chatbots所面臨的核心挑戰(zhàn);最后,我將總結(jié)KG用于Chatbots的幾大典型應(yīng)用。

簡(jiǎn)介

首先,我們來(lái)回顧一下聊天機(jī)器人的歷史發(fā)展。對(duì)話問(wèn)答是極具挑戰(zhàn)的,伴隨著人工智能的發(fā)展,Chatbos往往被作為殺手級(jí)應(yīng)用來(lái)證明人工智能技術(shù)已經(jīng)達(dá)到了相當(dāng)?shù)母叨取?v觀其時(shí)間軸,我們不難發(fā)現(xiàn)從2010年起,Chatbots產(chǎn)品或平臺(tái)推出的頻率較之前明顯提升。與此同時(shí),推出方也逐步從學(xué)術(shù)界主導(dǎo)漸漸轉(zhuǎn)變?yōu)榛ヂ?lián)網(wǎng)巨頭公司。這也意味著,隨著大數(shù)據(jù)的積累、計(jì)算能力的提升、以及各項(xiàng)人工智能技術(shù)慢慢成熟,以及用戶市場(chǎng)的培育,Chatbots慢慢從驗(yàn)證技術(shù)向應(yīng)用落地轉(zhuǎn)變。很多專家也戲稱2016年為Chatbots元年。

我將從SIRI開(kāi)始對(duì)目前知名的chatbots產(chǎn)品和平臺(tái)做一個(gè)詳細(xì)的介紹。在此之前,我不得不提到兩個(gè)重要的早期產(chǎn)品。作為第一個(gè)吃螃蟹的,ELIZA誕生于1966年,開(kāi)發(fā)者為MIT的JosephWeizenbaum。它是一個(gè)模擬羅杰斯心理治療的BASIC程序,是自然語(yǔ)言處理方面的先驅(qū)者。另一個(gè)不得不提及的便是A.L.I.C.E,起源于美國(guó)國(guó)防部DARPA的一個(gè)項(xiàng)目,它誕生于符號(hào)AI鼎盛時(shí)期,基于規(guī)則和模板來(lái)處理問(wèn)句理解和回復(fù)邏輯。他對(duì)Chatbots的后續(xù)發(fā)展起到了非常深遠(yuǎn)的影響。它的一個(gè)貢獻(xiàn)是定義了AIML,一種類XML的聲明式語(yǔ)言,可以用來(lái)編寫各種問(wèn)答對(duì),甚至多輪對(duì)話的對(duì)話邏輯。這種做法對(duì)于數(shù)據(jù)規(guī)模小,且領(lǐng)域知識(shí)相對(duì)充足的情況下,非常利于解決冷啟動(dòng)并提供表現(xiàn)不錯(cuò)的對(duì)話體驗(yàn),同時(shí)也是對(duì)當(dāng)前基于機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)方法的一種補(bǔ)充。不僅可用來(lái)積累數(shù)據(jù),也可以提供可解釋性更強(qiáng),且能針對(duì)個(gè)別用例做針對(duì)性地在線干預(yù)和修正。所以,到目前為止,大部分商用聊天機(jī)器人尤其是特定領(lǐng)域的對(duì)話應(yīng)用沿用了這一思路。

在作詳細(xì)介紹之前,我們先對(duì)聊天機(jī)器人從分類角度進(jìn)行一定的梳理。我們從最簡(jiǎn)單的二分類著手,即Chatbots根據(jù)其用途或使用場(chǎng)景,可以分為偏娛樂(lè)化或偏工具化。圖中給出了一個(gè)鮮明的對(duì)比,白富美的Eva更擅長(zhǎng)的是情感陪伴,而藍(lán)領(lǐng)工人Wall-E則更擅長(zhǎng)完成特定的工作。這兩者由于目標(biāo)不同,所以往往在Chatbots設(shè)計(jì)和技術(shù)選型上會(huì)存在一定的差異。微軟公司很早就洞察了這一點(diǎn),針對(duì)偏娛樂(lè)化場(chǎng)景和偏工具化的應(yīng)用分別推出小冰和小娜。

圍繞Bots生態(tài)圈,有些在做實(shí)際的Chatbots,既有硬件形態(tài)的Amazon Echo及狗尾草公司推出的公子小白和Holoera等,也有純軟件的如蘋果的Siri和微軟的小冰等。除此之外,為了加速實(shí)際Bots的研發(fā),不少巨頭或創(chuàng)業(yè)企業(yè)開(kāi)始對(duì)外提供Bot框架(Bot Framework),以SDK或Saas服務(wù)的形態(tài)供第三方公司使用來(lái)構(gòu)建特定應(yīng)用和領(lǐng)域的聊天機(jī)器人,這里的典型代表包括支持Echo的Amazon Alexa和微軟推出的包含在Cognitive Services大框架下的LUIS with Bot等。更進(jìn)一步,除了提供開(kāi)發(fā)Bot的API,Bot平臺(tái)(Bot Platform)進(jìn)一步考慮開(kāi)發(fā)得到的Bot如何部署到一些常用平臺(tái)中如微信或Facebook等。

聊天機(jī)器人的成功離不開(kāi)智能。而圖靈測(cè)試常常被用來(lái)測(cè)試機(jī)器是否具有真的智能。圖靈測(cè)試是指測(cè)試者在與被測(cè)試者(一個(gè)人和一臺(tái)機(jī)器)隔開(kāi)的情況下,通過(guò)一些裝置(如鍵盤)向被測(cè)試者隨意提問(wèn)。進(jìn)行一系列時(shí)長(zhǎng)為5分鐘的測(cè)試后,如果有超過(guò)30%的測(cè)試者不能確定出被測(cè)試者是人還是機(jī)器,那么這臺(tái)機(jī)器就通過(guò)了測(cè)試,并被認(rèn)為具有人類智能。圖靈測(cè)試一詞來(lái)源于計(jì)算機(jī)科學(xué)和密碼學(xué)的先驅(qū)阿蘭·麥席森·圖靈寫于1950年的一篇論文《計(jì)算機(jī)器與智能》,其中30%是圖靈對(duì)2000年時(shí)的機(jī)器思考能力的一個(gè)預(yù)測(cè),目前我們已遠(yuǎn)遠(yuǎn)落后于這個(gè)預(yù)測(cè)。2014年6月7號(hào),正值圖靈逝世60周年紀(jì)念日,一款名為尤金·古斯特曼(Eugene Goostmanz)的聊天機(jī)器人,它偽裝成了一個(gè)用第二語(yǔ)言溝通的13歲烏克蘭男孩兒,成功“騙過(guò)”了測(cè)試者,通過(guò)了圖靈測(cè)試。不過(guò)事后有很多質(zhì)疑。首先,這個(gè)聊天機(jī)器人號(hào)稱只有13歲,并使用第二語(yǔ)言來(lái)回答問(wèn)題,以此作為重大缺陷的借口。另外,測(cè)試者只有5分鐘與之展開(kāi)互動(dòng),大大增加了他們?cè)诙唐趦?nèi)被“欺騙”的概率。尤金無(wú)法一直保持對(duì)話的順暢性,他會(huì)不斷重復(fù)自己的話,還經(jīng)常使用聊天機(jī)器人典型的無(wú)推斷型回應(yīng)方式。

我們對(duì)聊天機(jī)器人按照功能和交互方式等二個(gè)維度可以進(jìn)一步細(xì)分為四類。交互方式可以分為主動(dòng)交互或被動(dòng)交互。目前大家接觸到的大部分聊天機(jī)器人都屬于被動(dòng)交互的范疇,即由用戶發(fā)起對(duì)話,機(jī)器理解對(duì)話并作出相應(yīng)的響應(yīng)。而主動(dòng)交互能更好體現(xiàn)機(jī)器人和用戶之間的對(duì)等關(guān)系,即通過(guò)共享或推薦用戶感興趣或熱點(diǎn)事件等由機(jī)器人首先發(fā)起。目前主動(dòng)交互更多作為傳統(tǒng)交互方式的一種補(bǔ)充,作為輔助手段,并未大規(guī)模得到廣泛使用。從功能角度來(lái)看,聊天機(jī)器人可以細(xì)分為以閑聊為主的聊天,問(wèn)答和面向任務(wù)或目標(biāo)的對(duì)話。其中,若根據(jù)場(chǎng)景切分,閑聊可以進(jìn)一步分為情感交流和針對(duì)客觀話題的討論。問(wèn)答系統(tǒng)需要不僅考慮如What、Who、Which、Where和When等事實(shí)型問(wèn)答(Factoid QA),也需要考慮如How和Why等非事實(shí)型問(wèn)答。

Siri作為iPhone4S推出時(shí)的一個(gè)亮點(diǎn)特征,定位是語(yǔ)音個(gè)人助理。在推出之時(shí),引起了極大的轟動(dòng)。雖然這么多年Siri的技術(shù)也不斷提升,但我覺(jué)得他更大的價(jià)值是作為聊天機(jī)器人之門開(kāi)啟的開(kāi)門磚,教育了用戶和市場(chǎng)?;氐絼倓偟姆诸悾琒iri其實(shí)是一個(gè)面向特定任務(wù)的對(duì)話系統(tǒng)。他對(duì)接了很多本地服務(wù)如通訊錄、音樂(lè)播放等以及Web服務(wù)如訂餐、訂票和導(dǎo)航等功能服務(wù)。針對(duì)這些服務(wù)意圖,他通過(guò)實(shí)體驅(qū)動(dòng)的自然語(yǔ)言理解(Natural Language Understanding,NLU)來(lái)識(shí)別問(wèn)句中涉及到的對(duì)象和相關(guān)服務(wù),從而實(shí)現(xiàn)特定任務(wù)下的多輪功能交互。對(duì)于解決不了的問(wèn)題,即服務(wù)意圖范疇外的需求,則直接調(diào)用搜索引擎返回相關(guān)答案來(lái)返回。隨后,Siri的核心人員DagKittlaus和AdamCheyer于2016年推出了Viv。Viv被認(rèn)為是Siri的升級(jí)版,雖然其在多服務(wù)組合,服務(wù)編排等方面做了不少亮點(diǎn)工作,但背后的基本原理和定位和Siri無(wú)差異。

正如之前介紹的那樣,微軟針對(duì)娛樂(lè)化和工具化這兩個(gè)截然不同的定位,分別推出了小冰和小娜(Cortana)。小娜,作為嵌入在Windows或Windows Mobile等微軟操作系統(tǒng)內(nèi)核的語(yǔ)音個(gè)人助理,承載著類似Siri或Viv的角色,它的目的是提升用戶的工作效率,據(jù)說(shuō)Cortana有1.5億多用戶,這也使得微軟吸引到Bengio這樣的大師作為顧問(wèn)加入。另一方面,小冰是微軟中國(guó)團(tuán)隊(duì)推出的娛樂(lè)聊天機(jī)器人。她的人設(shè)是一位16歲的少女。小冰是一個(gè)基于搜索的回復(fù)檢索系統(tǒng)。通過(guò)各種基于深度學(xué)習(xí)的語(yǔ)義匹配算法,從海量的問(wèn)答對(duì)語(yǔ)料中返回最佳的回復(fù)(Message response而非Answer)。小冰也會(huì)不定期推出新的技能供大家使用,這些技能往往包含了微軟團(tuán)隊(duì)在圖像理解、語(yǔ)音和自然語(yǔ)言理解方面的各種小應(yīng)用嘗試。更值得一提的是:微軟針對(duì)日本、北美和歐洲等市場(chǎng)陸續(xù)推出了具有不同人設(shè)的少女如Rinna、Tay和Zo,她們往往可以方便的通過(guò)微信、微博或Twitter等平臺(tái)進(jìn)行交流。

Watson系統(tǒng)是典型的問(wèn)答系統(tǒng),其由IBM研究院在2011年推出,參加美國(guó)知識(shí)競(jìng)賽Jeopardy!(危險(xiǎn)邊緣)并挑落人類冠軍而名聲大躁。相比AlphaGo或早年IBM研制的戰(zhàn)勝卡斯帕羅夫的國(guó)際象棋人工智能程序深藍(lán),Watson具有更清晰的商業(yè)路徑。IBM斥巨資成立醫(yī)療事業(yè)部,并與MD Anderson等知名醫(yī)療機(jī)構(gòu)合作推出面對(duì)特定病種(尤其是癌癥)的輔助診斷AI醫(yī)生。與此同時(shí),Ross Intelligence依托Watson認(rèn)知計(jì)算平臺(tái)推出了法律咨詢系統(tǒng)。回到技術(shù)層面,Watson所用到的知識(shí)庫(kù)是一個(gè)廣義的知識(shí)庫(kù),不僅包含各種結(jié)構(gòu)化知識(shí)、也包含各種文本語(yǔ)料和語(yǔ)言學(xué)知識(shí)。整個(gè)流程稱為Deep QA,包含問(wèn)題分解、假設(shè)生成、基于證據(jù)的融合排序等關(guān)鍵步驟。這里的Deep QA并非指通過(guò)深度學(xué)習(xí)(Deep Learning)技術(shù)來(lái)提供問(wèn)答。事實(shí)上,Watson誕生于深度學(xué)習(xí)大熱之前,這里的Deep是指通過(guò)深度解析(Deep Parsing)來(lái)實(shí)現(xiàn)對(duì)問(wèn)句的真正理解。

眾所周知,自然語(yǔ)言處理往往包含諸多步驟,傳統(tǒng)的做法會(huì)將這些步驟通過(guò)串接的形式形成pipeline來(lái)完成從詞法到句法最后到語(yǔ)義的過(guò)程。這樣做法的最大問(wèn)題在于,由于每一環(huán)節(jié)的組件都不是完美的,通過(guò)串接方式形成的系統(tǒng)易產(chǎn)生錯(cuò)誤傳遞和放大,導(dǎo)致整個(gè)系統(tǒng)無(wú)法在生產(chǎn)環(huán)境中使用。針對(duì)傳統(tǒng)NLP的局限,Watson通過(guò)如下手段來(lái)進(jìn)行改善:1)對(duì)于每個(gè)組件,采用多種實(shí)現(xiàn)算法并集成來(lái)避免單點(diǎn)失敗從而增加每一環(huán)節(jié)的準(zhǔn)確性和魯棒性;2)在候選答案生成階段以覆蓋率為主要目的,避免過(guò)早的將正確答案過(guò)濾掉;3)引入證據(jù)源和基于多證據(jù)的打分(類似循證醫(yī)學(xué))來(lái)確保正確答案的排名位于首位或頭部地位。總而言之,Watson做了精細(xì)的模型分拆和設(shè)計(jì),并基于集成學(xué)習(xí)和知識(shí)庫(kù)的結(jié)合來(lái)實(shí)現(xiàn)傳統(tǒng)做法(如TREC的QA任務(wù)中采用的方法)無(wú)法達(dá)到的精度和覆蓋度。

之前已經(jīng)提到Facebook Messenger是一個(gè)龐大的Bot平臺(tái),有非?;钴S的開(kāi)發(fā)者群體,平臺(tái)包含上萬(wàn)種Bots。針對(duì)Messenger,我想講以下幾點(diǎn):第一,它在 2014 年收購(gòu)了wit.ai。Wit.ai類似于谷歌所收購(gòu)的api.ai,包含大量的行業(yè)相關(guān)或場(chǎng)景相關(guān)的對(duì)話。基于以上高質(zhì)量海量的對(duì)話數(shù)據(jù),F(xiàn)acebook基于深度學(xué)習(xí)技術(shù)推出了一個(gè)用于自然語(yǔ)言處理的框架叫DeepText,用于自然語(yǔ)言表示學(xué)習(xí)和各種分類等任務(wù)。有名的 Fast Text 也包含在內(nèi)。今年Facebook更是基于Deep Text推出了CLUE,進(jìn)一步提高了其易用性,有興趣的可以去進(jìn)一步了解一下。通過(guò)以上的數(shù)據(jù)和技術(shù)積累,F(xiàn)acebook就可快速構(gòu)建一個(gè)端到端的Chatbot或者問(wèn)答系統(tǒng)。此外,還有一點(diǎn)需要強(qiáng)調(diào)的是,我們可以發(fā)現(xiàn)Facebook Bot的很多應(yīng)用場(chǎng)景涉及到購(gòu)物、遞送禮物、預(yù)約參觀和安排旅程等非實(shí)時(shí)任務(wù),即相對(duì)比較復(fù)雜,但不要求馬上得到反饋。傳統(tǒng)的做法是,通過(guò)指派一名客服來(lái)對(duì)接,提供進(jìn)一步的服務(wù)。對(duì)于這些非實(shí)時(shí)任務(wù),F(xiàn)acebook結(jié)合機(jī)器返回的自動(dòng)化推薦結(jié)果和人工的進(jìn)一步編輯和審核來(lái)保證用戶體驗(yàn)的同時(shí)也降低了純?nèi)斯?duì)接存在效率低、工作量大等弊端。而這也是近期大家很推崇的人機(jī)融合,即賦予人工智能新的內(nèi)涵:Artificial Intelligence+Human Intelligence(人類智能)=Augmented Intelligence(增強(qiáng)智能)。

Alexa作為亞馬遜Echo智能音箱背后的Bot框架,通過(guò)Skill Set的形式不斷擴(kuò)展其功能,其內(nèi)核是亞馬遜在2016年底發(fā)布的Lex,并對(duì)接專注圖像識(shí)別的Rekognition和基于機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)技術(shù)的快速TTS(文本到語(yǔ)音轉(zhuǎn)換)。細(xì)心的觀眾會(huì)發(fā)現(xiàn)Echo音箱并沒(méi)有提供任何屏幕,僅通過(guò)語(yǔ)音進(jìn)行交互,依托Amazon的內(nèi)容資源和電商購(gòu)物優(yōu)勢(shì)提供各種智能交互。這種以語(yǔ)音為主的交互方式在家庭、車載等領(lǐng)域得到廣泛關(guān)注和應(yīng)用,由此也提出了Voice UI的概念。除了語(yǔ)義理解,這里需要強(qiáng)調(diào)的是:對(duì)于Echo音箱的交互,是采用遠(yuǎn)場(chǎng)(通常3—5米)溝通的。對(duì)于遠(yuǎn)場(chǎng)語(yǔ)音交互,目前遠(yuǎn)比近場(chǎng)通訊的難度大,涉及到聲源定位、噪聲(如回聲、背景噪聲、各種聲波反射折射產(chǎn)生的混響)消除、人聲分離、聲音增強(qiáng)甚至是聲紋識(shí)別等各種技術(shù)挑戰(zhàn)。目前通用的做法是采用麥克風(fēng)陣列+波束成形等方案,不過(guò)有很大的提升空間。不過(guò)智能音箱是否能在中國(guó)成為一個(gè)爆款,這個(gè)還是一個(gè)未知數(shù),當(dāng)然這里涉及到更多使用習(xí)慣、價(jià)格、內(nèi)容質(zhì)量等很多非技術(shù)因素的考量,在此就不做具體展開(kāi)。

從Google Now到Google Assistant,谷歌一直沒(méi)有停止過(guò)在語(yǔ)音個(gè)人助理方面的嘗試。這里想介紹一下基于Google Assistant的新一代人工智能類微信IM應(yīng)用。Allo具有幾個(gè)亮點(diǎn):首先,其具備一定的自我學(xué)習(xí)能力。這里包括兩方面的學(xué)習(xí),一方面是學(xué)習(xí)用戶的習(xí)慣,包括說(shuō)話風(fēng)格和交互模式。值得一提的是,Allo的開(kāi)發(fā)者也參與了Gmail Smart Reply功能的開(kāi)發(fā),幫用戶草擬回復(fù)的郵件。具體來(lái)說(shuō),根據(jù)郵件接收的對(duì)象、主題和關(guān)聯(lián)的場(chǎng)景等,根據(jù)用戶口吻來(lái)盡量完成要回復(fù)內(nèi)容。另一方面也包括用戶偏好的學(xué)習(xí),這一點(diǎn)在推薦系統(tǒng)中是非常重要的,屬于用戶畫像的學(xué)習(xí)。Allo學(xué)習(xí)用戶畫像的低維稠密向量化表示(User Embedding)。將User Embedding加入Chatbot的回復(fù)生成解碼模型中,將有助于回復(fù)的相對(duì)一致性和個(gè)性化。

為什么需要KG

在介紹完聊天機(jī)器人的發(fā)展和一些典型Bot背后的技術(shù)原理之后,我們將重點(diǎn)說(shuō)一下為什么Chatbot需要知識(shí)圖譜(Knowledge Graph,KG)。

知識(shí)圖譜于2012年由谷歌提出,旨在提供更好的搜索體驗(yàn)。隨著整個(gè)Web從原先由網(wǎng)頁(yè)和超鏈接構(gòu)成的WebofDocs轉(zhuǎn)換為由實(shí)體或概念及他們之間的關(guān)系構(gòu)成的WebofData,谷歌提出了更準(zhǔn)確的語(yǔ)義搜索,旨在解決原有的關(guān)鍵字搜索僅基于字符串無(wú)法理解內(nèi)容語(yǔ)義的局限。在KG發(fā)展的浪潮中,也誕生了基于社區(qū)協(xié)同構(gòu)建的眾包典范Freebase。而谷歌的GoogleKG也是基于Freebase逐步發(fā)展起來(lái)的。同樣還有Wikimedia社區(qū)所推出的WikiData項(xiàng)目,目前Freebase也已經(jīng)關(guān)閉,并將數(shù)據(jù)等均貢獻(xiàn)給了WikiData做進(jìn)一步發(fā)展。此外,作為谷歌、Bing、Yahoo!和Yandex(俄羅斯搜索引擎)共同推出的Schema.org,通過(guò)鼓勵(lì)站點(diǎn)所有者(SiteOwner)在其頁(yè)面中添加符合Schema.org分類體系(及關(guān)聯(lián)屬性等)規(guī)范的語(yǔ)義知識(shí)片段(以嵌入在HTML頁(yè)面中的RDFa或Microformats等形式出現(xiàn))來(lái)擴(kuò)充和完善知識(shí)圖譜。據(jù)悉,25%的站點(diǎn)和30%的頁(yè)面包括Schema.org的標(biāo)注。對(duì)應(yīng)的回報(bào)是提升特定關(guān)鍵字或?qū)嶓w查詢時(shí)相關(guān)站點(diǎn)(提供與關(guān)鍵字或?qū)嶓w相關(guān)的高質(zhì)量語(yǔ)義標(biāo)注知識(shí))的搜索排名,從而起到免費(fèi)搜索引擎優(yōu)化(SEO)的作用。當(dāng)然,KG不僅僅只有以各種類型的實(shí)體為節(jié)點(diǎn)的實(shí)體圖,F(xiàn)acebook則呈現(xiàn)了另一種關(guān)聯(lián)人、事、物的興趣圖譜。相比谷歌的實(shí)體圖譜,興趣圖譜節(jié)點(diǎn)和邊的類型沒(méi)有那么豐富,但是包含的節(jié)點(diǎn)數(shù)更多,稠密程度也更高。對(duì)于興趣圖譜上的搜索或問(wèn)答也提出了不同的要求。為此,F(xiàn)acebook專門提出了一種針對(duì)性的圖搜索,內(nèi)部的項(xiàng)目名叫Unicorn(獨(dú)角獸),有興趣的可以去了解一下。

除了搜索,知識(shí)圖譜也被廣泛用于各種問(wèn)答交互場(chǎng)景中。Watson背后依托DBpedia和Yago等百科知識(shí)庫(kù)和WordNet等語(yǔ)言學(xué)知識(shí)。類似地,Alexa也依托其早年收購(gòu)的TrueKnowledge公司所積累的知識(shí)庫(kù);Siri則利用DBpedia和可計(jì)算的知識(shí)服務(wù)引擎WolframAlpha;狗尾草公司推出的虛擬美少女機(jī)器人琥珀虛顏則用到了首個(gè)中文鏈接知識(shí)庫(kù)Zhishi.me。伴隨著機(jī)器人和IoT設(shè)備的智能化浪潮,智能廚房、智能駕駛和智能家居等應(yīng)用層出不窮。無(wú)獨(dú)有偶,百度推出的DuerOS和Siri的進(jìn)化版Viv背后也都有海量知識(shí)庫(kù)的支撐。

KG也越來(lái)越多地被用于輔助決策。這里無(wú)外乎是通過(guò)對(duì)文本、多媒體和各種傳感器產(chǎn)生的原始數(shù)據(jù)流建立更加規(guī)范的數(shù)據(jù)表達(dá),通過(guò)語(yǔ)義抽取、數(shù)據(jù)鏈接形成更多機(jī)器可理解的語(yǔ)義知識(shí),從而將原本異構(gòu)分散的各種數(shù)據(jù)轉(zhuǎn)變?yōu)闄C(jī)器可計(jì)算的大數(shù)據(jù)。通過(guò)可計(jì)算機(jī)的大數(shù)據(jù),人們更容易發(fā)現(xiàn)領(lǐng)域或行業(yè)內(nèi)原先不為人知的規(guī)律或一些有趣的模式,從而更好地做出決策。Plantir 就是這方面的成功應(yīng)用典范,而ImageNet及Visual Genome等數(shù)據(jù)項(xiàng)目則極大地推進(jìn)了圖像語(yǔ)義理解和推理的進(jìn)程。在構(gòu)建用于輔助決策的知識(shí)圖譜形成可計(jì)算大數(shù)據(jù)的過(guò)程中,如何將符號(hào)推理與統(tǒng)計(jì)學(xué)習(xí)有機(jī)結(jié)合起來(lái),即碎片化的知識(shí)圖譜上的推理和深度學(xué)習(xí)決策模型結(jié)合起來(lái),形成所謂的Local Knowledge Powered Global Learning是非常有趣而富有挑戰(zhàn)的研究課題。

KG也可輔助通用人工智能(Artificial General Intelligence,AGI),即在常識(shí)推理方面起到作用。過(guò)去人們常用圖靈測(cè)試對(duì)機(jī)器的智能進(jìn)行評(píng)估,近年來(lái),Winograd Schema Challenge 逐漸進(jìn)入大家的視線。這里舉一個(gè)指代消解的例子。指代消解是一個(gè)經(jīng)典NLP任務(wù),旨在將代詞指向具名實(shí)體。例如,Thetrophy would not fit in the brown suitcase because itwas too big (small). What was too big (small)? 當(dāng)我們描述 it 是 big 時(shí),人們很容易理解這時(shí)候是在說(shuō)獎(jiǎng)杯(trophy);而當(dāng)it與small搭配時(shí),我們也很容易識(shí)別出在抱怨suitcase太小。這個(gè)看似非常容易的問(wèn)題,卻難倒了機(jī)器,這是因?yàn)槿司哂蟹浅}嫶蟮氖澜缰R(shí)(world knowledge)和常識(shí)知識(shí)(common-sense knowledge)。當(dāng)我們僅采用NLP技術(shù)來(lái)努力理解并給出答案時(shí),正確率僅 50%;當(dāng)結(jié)合知識(shí)時(shí),正確率提升到了60%,而及格線是90%。因此,我們離真正的通用智能還有很漫長(zhǎng)的路要走,需要更多的技術(shù)突破和數(shù)據(jù)積累才能完成這項(xiàng)挑戰(zhàn)。

需要什么樣的KG

剛剛對(duì)KG的各種應(yīng)用做了簡(jiǎn)單的介紹。結(jié)合Chatbot,我們又需要怎么樣的KG呢?

首先,Chatbot需要更加個(gè)性化的知識(shí)圖譜。除了前面提到的實(shí)體KG和興趣KG等開(kāi)放領(lǐng)域的稀疏大圖,我們也需要構(gòu)建機(jī)器人KG和用戶KG等個(gè)性化稠密小圖。機(jī)器人或 Agent 需要圖譜來(lái)建模和展示它的自我認(rèn)知能力,而用戶圖譜則可被看作是更精細(xì)化的用戶畫像的知識(shí)表現(xiàn)。例如,機(jī)器人如“琥珀.虛顏”,有情感狀態(tài),喜好,技能等知識(shí)維度。同理,用戶則需要表達(dá)其職業(yè)狀態(tài)和生活軌跡等信息。需要強(qiáng)調(diào)的是,無(wú)論是個(gè)性化小圖還是開(kāi)放域大圖,都不是獨(dú)立存在的,需要將它們?nèi)诤显谝黄?,才能發(fā)揮更大 的價(jià)值。機(jī)器人喜歡吃的食物則需要和實(shí)體 KG 中的食譜圖譜關(guān)聯(lián),而與用戶形成經(jīng)紀(jì)人、好友等社會(huì)關(guān)系,同時(shí)愛(ài)好方面則和興趣圖譜又關(guān)聯(lián)在一起,可以實(shí)現(xiàn)機(jī)器人社交、機(jī)器人—用戶社交和用戶社交網(wǎng)絡(luò)的統(tǒng)一連接。

其次,我們的世界不僅僅是靜態(tài)的,而是動(dòng)態(tài)地反映各種事物在時(shí)空上的變化。因此,我們不僅僅需要?jiǎng)倓傉劦降撵o態(tài)圖譜,而是需要思考如何表示和應(yīng)用動(dòng)態(tài)圖譜。對(duì)于一個(gè)機(jī)器人,它從早到晚會(huì)做不同的事情,也就是有自己的生活規(guī)則。我們?cè)撊绾慰坍嬌钴壽E呢?這就需要我們?cè)趫D譜中體現(xiàn)時(shí)態(tài)知識(shí)。另一個(gè)例子,用戶行程,即對(duì)于用戶圖譜,需要記住用戶各種已經(jīng)發(fā)生、正在星星或即將發(fā)生的事件。圖譜中的行程不僅僅是一個(gè)關(guān)系或?qū)傩裕且粋€(gè)由多元(N-ary)組成的事件。我們需要定義多種事件類型,并刻畫時(shí)間和空間兩個(gè)維度。

第三,機(jī)器人不能只是冷冰冰的回答用戶的問(wèn)題或幫助用戶完成特定功能。它需要感知用戶的情感并在輸出答案回復(fù)的同時(shí)伴隨著相應(yīng)的情感,這樣才更加擬人化。我們發(fā)現(xiàn),之前構(gòu)建的知識(shí)圖譜大多是客觀的,即描述一些客觀的事實(shí)。如何在結(jié)合個(gè)性化圖譜時(shí),能包括一些主觀知識(shí),進(jìn)而刻畫機(jī)器人或用戶的情感元素。例如,用戶說(shuō):“我心情不好”。這屬于閑聊中的情感表達(dá)范疇。這時(shí)需要將用戶當(dāng)前的心情狀態(tài)更新到用戶圖譜的對(duì)應(yīng)維度數(shù)值中。相應(yīng)地,機(jī)器人也會(huì)有自己的心情、體力,甚至和用戶之間的好感度關(guān)聯(lián)。當(dāng)此時(shí),機(jī)器人心情不錯(cuò),同時(shí)和用戶很親密時(shí),它就會(huì)主動(dòng)關(guān)心用戶。這樣結(jié)合機(jī)器人和用戶情感因素的動(dòng)態(tài)回復(fù)會(huì)更加溫馨和貼合場(chǎng)景。當(dāng)在多輪對(duì)話時(shí),用戶進(jìn)一步說(shuō):“來(lái)一首快樂(lè)的歌吧”。需要進(jìn)一步結(jié)合音樂(lè)知識(shí)KG(快樂(lè)作為歌曲的曲風(fēng)或風(fēng)格標(biāo)簽)和用戶KG中的音樂(lè)偏好,推薦用戶喜好的歡快的歌。

第四,我們發(fā)現(xiàn)聊天機(jī)器人為了完成很多功能需要對(duì)接外部服務(wù)或開(kāi)放API。此時(shí),圖譜就需要從傳統(tǒng)的關(guān)系型知識(shí)圖譜(刻畫二元關(guān)系)擴(kuò)展到支持動(dòng)態(tài)服務(wù)的動(dòng)態(tài)圖譜(刻畫多元關(guān)系,事件屬于服務(wù)圖譜的一個(gè)特例)。另一方面,如何刻畫服務(wù)之間的各種關(guān)系(如因果、時(shí)序依賴等)也是圖譜擴(kuò)展過(guò)程中需要考慮的。例如,當(dāng)完成了訂餐,會(huì)有很多Follow-up的服務(wù)(訂花或預(yù)約車等)可作為后續(xù)服務(wù)被消費(fèi)。建立這些服務(wù)之間的關(guān)聯(lián)對(duì)于進(jìn)行精準(zhǔn)的多輪對(duì)話過(guò)程中的場(chǎng)景切換是非常有必要的。

我們接觸世界的手段不僅僅是文字,而是結(jié)合圖像、語(yǔ)音和文字等多模態(tài)來(lái)了解外部世界的。因此,我們所構(gòu)建的知識(shí)圖譜也應(yīng)該從單純文本自然擴(kuò)展到多媒體知識(shí)圖譜。而ImageNet和Visual Genome正是這方面的努力。但是這里我想強(qiáng)調(diào)的是對(duì)于用戶圖譜這樣更新頻度非常高且很稠密的KG,多媒體知識(shí)的引入能幫助機(jī)器人從更多的維度來(lái)了解用戶,并提供諸如Visual QA等潛在的問(wèn)答服務(wù)。例如,小明正在和琥珀進(jìn)行交互,通過(guò)攝像頭識(shí)別出當(dāng)前交互的用戶是小明根據(jù)小明的圖像與用戶ID的關(guān)聯(lián),進(jìn)一步得到其長(zhǎng)短時(shí)記憶,了解到他在4.20到23號(hào)期間會(huì)去北京出差,而4月24號(hào)要和小蘭共進(jìn)晚餐。此時(shí),通過(guò)用戶圖譜中的社交關(guān)系了解到小蘭是小明的女友,當(dāng)我們需要進(jìn)一步了解小蘭長(zhǎng)什么樣時(shí),或者當(dāng)小蘭出現(xiàn)在琥珀面前時(shí),需要可以認(rèn)出小蘭,這時(shí)也需要用到我們提到的多媒體知識(shí)圖譜。

總而言之,我們需要基于不同來(lái)源異構(gòu)的數(shù)據(jù)來(lái)構(gòu)建包含多類別且體現(xiàn)動(dòng)態(tài)和個(gè)性化的知識(shí)圖譜。這其中包括來(lái)自互聯(lián)網(wǎng)的數(shù)據(jù)來(lái)刻畫世界知識(shí),用戶數(shù)據(jù)來(lái)刻畫畫像知識(shí),以及針對(duì)機(jī)器人的各種基本屬性、社會(huì)關(guān)系、情感狀態(tài)、興趣愛(ài)好、以及日常生活等靜態(tài)和動(dòng)態(tài)知識(shí)。而我們得到的融合圖譜是時(shí)空坐標(biāo)中針對(duì)特定交互場(chǎng)景和時(shí)間節(jié)點(diǎn)的一個(gè)鏡像。

從更技術(shù)的角度來(lái)說(shuō),我們需要考慮知識(shí)圖譜將如何構(gòu)建。這里不僅包含如何結(jié)合文本、多媒體、半結(jié)構(gòu)化、結(jié)構(gòu)化知識(shí)、服務(wù)或API,以及時(shí)態(tài)知識(shí)等的統(tǒng)一知識(shí)表示。在此基礎(chǔ)上,需要進(jìn)一步考慮如何結(jié)合結(jié)構(gòu)化(如關(guān)系型數(shù)據(jù)庫(kù))、半結(jié)構(gòu)化(HTML 或 XML)和非結(jié)構(gòu)化(文本、圖像等)多源異質(zhì)數(shù)據(jù)源來(lái)分別構(gòu)建通用事實(shí)類(各種領(lǐng)域相關(guān)實(shí)體知識(shí))、常識(shí)類、用戶個(gè)人記憶類、機(jī)器人自我認(rèn)知類和服務(wù)任務(wù)類知識(shí)庫(kù)等。針對(duì)不同類型的數(shù)據(jù)和不同種類的知識(shí)構(gòu)建,有相應(yīng)的構(gòu)建技術(shù),如針對(duì)結(jié)構(gòu)化數(shù)據(jù)的知識(shí)映射、針對(duì)半結(jié)構(gòu)化知識(shí)的包裝器(Wrapper),以及針對(duì)非結(jié)構(gòu)化知識(shí)的文本挖掘和自然語(yǔ)言處理。文本挖掘充分利用Web或大規(guī)模語(yǔ)料庫(kù)的冗余信息來(lái)發(fā)現(xiàn)隱含的模式;而自然語(yǔ)言處理更多是做各種知識(shí)抽?。ㄩ_(kāi)放或確定schema的)。為了得到融合的圖譜,我們除了離線的多源異構(gòu)的知識(shí)融合,還需要額外考慮服務(wù)任務(wù)類動(dòng)態(tài)知識(shí)的對(duì)象綁定,這塊工作往往是在線完成的,相當(dāng)于根據(jù)不同的交互,在線動(dòng)態(tài)擴(kuò)充知識(shí)圖譜并實(shí)例化的過(guò)程。

所構(gòu)建的知識(shí)圖譜既包括事實(shí)類和常識(shí)類的靜態(tài)全局大圖、服務(wù)任務(wù)類動(dòng)態(tài)圖譜,也有對(duì)于每個(gè)用戶不同的用戶圖譜和機(jī)器人KG。隨著用戶數(shù)量的增加,用戶圖譜的數(shù)量也隨之增加。這些圖互相隔離,但每個(gè)均與全局圖譜關(guān)聯(lián)來(lái)提供個(gè)性化的聊天機(jī)器人的對(duì)話問(wèn)答服務(wù)。每個(gè)用戶圖譜+機(jī)器人KG又隨著交互不斷填充和更新其中的節(jié)點(diǎn)和邊,導(dǎo)致此類圖譜的讀寫頻度均非常高。面對(duì)這樣的圖譜,我們?cè)撊绾芜x擇存儲(chǔ)方案呢?從工程應(yīng)用的角度,我們更愿意站在巨人的肩膀上,選擇一個(gè)現(xiàn)有數(shù)據(jù)庫(kù)或幾個(gè)數(shù)據(jù)庫(kù)的組合來(lái)形成高效的圖譜存儲(chǔ)。

注意:這里所謂的存儲(chǔ),不僅僅是將知識(shí)存放的問(wèn)題,而是考慮存儲(chǔ)之后是否可以根據(jù)圖譜的規(guī)模、讀寫特點(diǎn)和查詢推理等基礎(chǔ)在線操作的效率等多個(gè)因素來(lái)考量。Mongo DB,作為面向文檔(Document Oriented)的NoSQL代表,他支持無(wú)模式(Schemaless)的數(shù)據(jù)建模方式,即不要求一開(kāi)始就將Schema都確定,而可以按需進(jìn)行添加或修改。這對(duì)于需求經(jīng)常變更或一開(kāi)始對(duì)領(lǐng)域不是完全了解的情況下,支持自底向上方式的知識(shí)管理。不過(guò)Mongo DB僅支持?jǐn)?shù)據(jù)庫(kù)級(jí)別的鎖,寫入速度受限。對(duì)于讀并發(fā)的提高,可以使用基于數(shù)據(jù)分片(Data Sharding)的分布式版本。關(guān)系型數(shù)據(jù)庫(kù)MySQL應(yīng)用廣泛,也被用于Apache Jena(HP開(kāi)源的RDF數(shù)據(jù)庫(kù))中TDB的存儲(chǔ)引擎。而Elastic search支持圖譜上的簡(jiǎn)單模式(如單關(guān)系或鏈?zhǔn)剑┎樵?,適合如Facebook Graph Search或聊天機(jī)器人中大部分口語(yǔ)對(duì)話,因此也是面向聊天對(duì)話的知識(shí)圖譜存儲(chǔ)方案之一;Neo4j是知名的圖數(shù)據(jù)庫(kù),不同于RDF數(shù)據(jù)庫(kù),它的數(shù)據(jù)模型是屬性圖(property graph),基于圖遍歷(graph traversal)來(lái)實(shí)現(xiàn)各種查詢功能,對(duì)于大部分熟悉面向?qū)ο缶幊痰墓こ處焷?lái)說(shuō)非常容易上手。基于上述任何一個(gè)數(shù)據(jù)庫(kù)或多個(gè)數(shù)據(jù)庫(kù)的組合來(lái)滿足知識(shí)圖譜的管理都是工程做法。從研究的角度來(lái)說(shuō),希望做一個(gè)統(tǒng)一的存儲(chǔ)和查詢引擎,需要支持多租戶(multi-tenant)環(huán)境下的海量個(gè)人和機(jī)器人知識(shí)圖譜管理,以及融合個(gè)人圖譜和全局知識(shí)上的查詢分解、分布式環(huán)境下的查詢路由和子查詢執(zhí)行,以及結(jié)果融合等操作。

4KG應(yīng)用

剛剛介紹了聊天機(jī)器人需要怎么樣的知識(shí)圖譜,以及相應(yīng)的一些挑戰(zhàn)。下面列舉在Chatbots中KG的一些典型應(yīng)用場(chǎng)景。

第一個(gè)應(yīng)用叫實(shí)體識(shí)別和鏈接。實(shí)體識(shí)別稱為Named Entity Recognition,簡(jiǎn)稱為NER。在傳統(tǒng)NLP任務(wù)中,僅能識(shí)別PERSON(人物)、LOCATION(地點(diǎn))、ORGANIZATION(組織機(jī)構(gòu))、DATE(時(shí)間日期)等有限類別。在實(shí)際應(yīng)用中,NER的主要挑戰(zhàn)在于識(shí)別大量細(xì)粒度實(shí)體類型,比如以Schema.org作為實(shí)體類別的分類體系,這里有很多標(biāo)注數(shù)據(jù)充足的大類,也有很多缺乏標(biāo)注數(shù)據(jù)的小類,如何保證在小類上的識(shí)別準(zhǔn)確率。此外,分類體系是有層次結(jié)構(gòu)的,如何保證底層的細(xì)粒度類別上有令人滿足的識(shí)別率。例句“我想聽(tīng)一首海闊天空”中的“海闊天空”通過(guò)NER任務(wù)可以識(shí)別為是一個(gè)音樂(lè)作品。僅僅這樣是無(wú)法執(zhí)行對(duì)話意圖“音樂(lè)點(diǎn)播”的,我們需要進(jìn)一步將候選鏈接到知識(shí)圖譜中的給定實(shí)體,這一過(guò)程稱為Entity Linking。這里的核心在于歧義消解,一般借助于候選周圍的其他實(shí)體或用語(yǔ)作為上下位來(lái)幫助去歧義。如果如例子所示,仍然無(wú)法明確是哪個(gè)實(shí)體,可通過(guò)反問(wèn)來(lái)引導(dǎo)用戶來(lái)給出更明確的實(shí)體指引。在實(shí)體鏈接過(guò)程中,我們所面臨的挑戰(zhàn)在于如何應(yīng)對(duì)新興實(shí)體(Emerging Entity)和實(shí)體的新興說(shuō)法(各種新說(shuō)法和別名)。

聊天機(jī)器人依賴于NLP,而大量NLP任務(wù)可轉(zhuǎn)換為有監(jiān)督的分類或序列標(biāo)注問(wèn)題。我們往往會(huì)為特定任務(wù)下標(biāo)注數(shù)據(jù)的缺乏或不充足而發(fā)愁,這一點(diǎn)在利用深度學(xué)習(xí)時(shí)尤為嚴(yán)重。這時(shí),也將推出知識(shí)圖譜的第二個(gè)典型應(yīng)用,叫做數(shù)據(jù)增強(qiáng),也就是說(shuō)Data Augmentation。具體來(lái)說(shuō),通過(guò)將知識(shí)圖譜與文本語(yǔ)料庫(kù)關(guān)聯(lián),形成大量弱標(biāo)注數(shù)據(jù)。這在關(guān)系抽取或事件抽取等任務(wù)上應(yīng)用廣泛。例如,對(duì)于三元組<琥珀,喜歡吃,葡萄>,通過(guò)一定的泛化,我們將琥珀轉(zhuǎn)換為PERSON,即在Web上收集PERSON和葡萄共現(xiàn)的描述片段,這些描述片段可能代表人物喜歡吃葡萄的特定模式(藍(lán)色例句),也可能代表噪聲(紅色)。如何通過(guò)聚類分析中的異常點(diǎn)檢測(cè)或噪聲建模等方式將弱標(biāo)注語(yǔ)料中的噪聲識(shí)別并剔除。當(dāng)然,包含一定比例的隨機(jī)噪聲,對(duì)于模型訓(xùn)練是一定幫助的,可以保證模型具有一定的泛化能力和魯棒性。使用Web作為關(guān)聯(lián)的語(yǔ)料庫(kù),主要看中Web上描述比較多樣化,且信息具有冗余性,可以在保證覆蓋率的同時(shí)確保數(shù)據(jù)的分布貼近真實(shí)情況。然而對(duì)于以語(yǔ)音作為主要交互方式的口語(yǔ)化聊天對(duì)話場(chǎng)景,我們?nèi)匀恍枰紤]從Web語(yǔ)料上學(xué)習(xí)到的模式或訓(xùn)練得到的模型如何進(jìn)一步遷移適配。

第三個(gè)應(yīng)用就是知識(shí)問(wèn)答(KB-QA)。其中句理解的難點(diǎn)在于NLU,而候選答案生成則與檢索過(guò)程關(guān)聯(lián),至于答案融合和排序,則重點(diǎn)考慮各種基于證據(jù)的收集和學(xué)習(xí)排序算法。這里我們看一個(gè)真實(shí)的例子,比如說(shuō)“你覺(jué)得胡海泉這個(gè)人怎么樣?”,這是一個(gè)意見(jiàn)詢問(wèn)類查詢(opinion query),此時(shí)可以有很多回答,為了使得答案的多樣化,除了利用摘要技術(shù)(summarization)從百科站點(diǎn)中得到“胡海泉是個(gè)歌壇巨星呀”之外,通過(guò)機(jī)器人KG中的經(jīng)紀(jì)人關(guān)系,可以顯式表明琥珀和他的關(guān)系。更進(jìn)一步,可以通過(guò)琥珀記憶和技能關(guān)聯(lián),主動(dòng)推薦“海泉給琥珀寫的歌”。當(dāng)用戶給予明確的回復(fù)時(shí),將表演自己的才藝,即唱自己的歌。在我們所描述的知識(shí)圖譜下支持問(wèn)答,需要額外考慮:

1)如何統(tǒng)一對(duì)實(shí)體、問(wèn)句、圖像、上下文進(jìn)行統(tǒng)一的表示,映射到同構(gòu)的語(yǔ)義空間中?

2)知識(shí)庫(kù)永遠(yuǎn)不可能是完備的,如何從KB-QA擴(kuò)展到支持知識(shí)庫(kù)和Web的混合QA場(chǎng)景下,并提供精準(zhǔn)的數(shù)據(jù)源選擇和語(yǔ)義解析?

3)如何評(píng)估問(wèn)句的復(fù)雜程度,并從單一知識(shí)庫(kù)查詢擴(kuò)展到多知識(shí)庫(kù)查詢?

知識(shí)問(wèn)答中非常有挑戰(zhàn)的是Multi-KB環(huán)境下的問(wèn)答。這對(duì)問(wèn)句分解和知識(shí)源選擇等都提出了更高的要求。更有挑戰(zhàn)的是:不僅僅一句很復(fù)雜的話會(huì)涉及多個(gè)KB,即使對(duì)于很簡(jiǎn)單的話,往往在聊天的多輪交互中,會(huì)逐步涉及不同方面的KB,甚至需要在某個(gè)看似不經(jīng)意的回復(fù)中用到某個(gè)KB。在研制小白的多輪對(duì)話中,需要考慮屬性詢問(wèn)、反問(wèn)、記憶、反饋、基于跨庫(kù)屬性比對(duì)后的評(píng)論,基于上下文的問(wèn)答、事實(shí)類知識(shí)圖譜查詢、對(duì)復(fù)雜問(wèn)題的導(dǎo)流、推理聯(lián)想,調(diào)教以及用戶類知識(shí)圖譜的查詢等。例子“我靠,居然比姚明還高”就是一個(gè)多知識(shí)庫(kù)問(wèn)答之后的回復(fù)生成。其中,姚明身高屬于事實(shí)類知識(shí)庫(kù)、“我靠”等驚訝的回復(fù),是通過(guò)常識(shí)知識(shí)庫(kù)了解到很少有人身高超過(guò)2.26米,而通過(guò)用戶個(gè)人知識(shí),其身高數(shù)值比姚明還高,而返回“比姚明還高”的回復(fù)片段,最后通過(guò)融合,得到最終的返回。

第四個(gè)KG的應(yīng)用就是聯(lián)想和推理。這里我列舉了三種推理,但實(shí)際情況下不局限于這三種。第一種是空間推理,比如說(shuō)“桌子上面有電腦,電腦旁邊有水杯”,然后問(wèn),“桌子上面有什么”,正確的回答是電腦和水杯。

桌子上有水杯是通過(guò)空間位置的判斷得到的??臻g推理在地理類問(wèn)答和智能家居控制等應(yīng)用中有非常廣泛的應(yīng)用。第二種是答案類型推理。答案類型(Answer Type)作為一種很重要的證據(jù),對(duì)問(wèn)答的準(zhǔn)確性有很大的作用。這里的推理包括實(shí)例推理(如例子中乒乓球是一種運(yùn)動(dòng))、上下位推理(白色家電是一種家電)和互斥推理(空調(diào)和電視沒(méi)有交集)等。第三種是場(chǎng)景推理,即結(jié)合場(chǎng)景業(yè)務(wù)規(guī)則和相關(guān)常識(shí)知識(shí)進(jìn)行一些聯(lián)想。例如空調(diào)需要一定時(shí)間之后才能制冷,而用戶在這段時(shí)間感到熱時(shí)可以吃一些冷飲。除了這三類,沖突檢測(cè)對(duì)于聊天機(jī)器人尤其是用戶記憶很有價(jià)值。這里不僅包括前面提及的類別之間的互斥定義,還可以包括關(guān)系單值或數(shù)量約束,甚至形成很多由推理得到的事實(shí)和顯式定義的事實(shí)組成的沖突關(guān)系鏈。這些對(duì)推理機(jī)的表達(dá)能力提出了更高的要求。

至此,我給大家介紹了聊天機(jī)器人的發(fā)展歷程和知識(shí)圖譜的應(yīng)用,探討了針對(duì)聊天機(jī)器人我們需要怎么樣的知識(shí)圖譜,并列舉了知識(shí)圖譜在表示、構(gòu)建、存儲(chǔ)、以及實(shí)體識(shí)別與鏈接、數(shù)據(jù)增強(qiáng)、知識(shí)問(wèn)答,甚至推理與聯(lián)想方面的機(jī)遇和挑戰(zhàn)。我希望今天的演講可以激發(fā)大家對(duì)知識(shí)圖譜與聊天機(jī)器人結(jié)合的興趣,一起參與到其中的各項(xiàng)研究中。大家有興趣也可以掃描二維碼,了解狗尾草公司在構(gòu)建公子小白和Holoera琥珀虛顏虛擬生命方面的更具體信息,謝謝大家!

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
這家潛伏三年的創(chuàng)業(yè)團(tuán)隊(duì),怎樣做語(yǔ)音交互時(shí)代的“App Store”?
百分點(diǎn)智能對(duì)話技術(shù)探索實(shí)踐
知識(shí)圖譜在銀行數(shù)字化營(yíng)銷中的應(yīng)用
知識(shí)圖譜如何用于推薦系統(tǒng)? 中科院百度微軟等學(xué)者最新綜述論文40 最新方法闡述KG提升RS準(zhǔn)確性與可...
認(rèn)知圖譜的研究與電商實(shí)踐
知識(shí)圖譜方興未艾,消費(fèi)金融應(yīng)用道阻且長(zhǎng)
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服