本文將會以李涓子教授和劉知遠副教授兩位講師的內(nèi)容出發(fā),重點介紹知識圖譜的發(fā)展現(xiàn)狀以及它在應用中存在的問題和解決方案。
處于技術(shù)啟動期的知識圖譜大數(shù)據(jù)時代,通過對數(shù)據(jù)進行語義層面的解釋可以挖掘到許多隱藏的知識,它們被用于機器智能,這是從數(shù)據(jù)到智能的轉(zhuǎn)化過程。
專家系統(tǒng)的出現(xiàn)讓知識顯得尤為重要,它是人工智能對客觀世界認知的渠道。不同于富含語義的人類交流,大數(shù)據(jù)的機器學習仍集中于低維特征空間。由于兩者之間互不相通,因此作為橋梁的知識圖譜起到了重要作用,同時,它也是整合客觀事件與實體的關(guān)鍵。
作為新一代人工智能系統(tǒng)的基礎,知識圖譜的重要性不言而喻,根據(jù) 2018 年下半年發(fā)布的 Gartner 曲線可以得知,知識圖譜的發(fā)展至少還需要 5 - 10 年時間才能到達一個相對成熟的階段,而通用人工智能的實現(xiàn)則更是需要至少 10 年。
綜上所述,知識圖譜的發(fā)展必定要解決這兩個問題:
加強高質(zhì)量知識圖譜的自動標注,減少人為干涉。
整體形態(tài)不再局限于三元組,更豐富的信息形態(tài)可以帶來更好的表現(xiàn)。
知識圖譜存在的問題與解決方案知識圖譜在發(fā)展過程中仍存在許多技術(shù)難題,目前主要有以下幾點:
機器學習中實現(xiàn)可解釋智能的方法;
大數(shù)據(jù)環(huán)境下實現(xiàn)基于知識和數(shù)據(jù)驅(qū)動的方法;
知識不確定和不完整的情況下完成知識推理;
對高質(zhì)量、大規(guī)模知識的研究獲取算法。
知識圖譜不僅僅是知識庫,它在物聯(lián)網(wǎng)時代會發(fā)揮更大的作用,以 IBM 的 IoT 項目為例,物聯(lián)網(wǎng)設備在知識圖譜上存在相互聯(lián)系的關(guān)系,假設傳感器是一個節(jié)點,那么通過解析傳感器之間傳輸?shù)臄?shù)據(jù)便可以為用戶提供服務。
除了表示學習,實體和詞向量的表示學習同樣存在許多挑戰(zhàn),這其中包括詞的歧義和詞與實體聯(lián)合表示兩部分。
詞的歧義是指一詞多意的問題,這在詞向量表示中問題較為明顯,由于同一實體可能對應不同客觀事物的問題,因此詞向量表示的同時也需要對相關(guān)詞的詞義做對應的表示。
以喬丹這個詞為例,假設邁克爾·喬丹對應兩個實體,那么在做實體表示的同時就需要使用不同的向量表示,如果籃球喬丹是實體,那么其應該與籃球相關(guān)的詞在向量上更為接近,而教授喬丹則與機器學習相關(guān)的詞更為接近。
這個問題目前有兩種解決方案,即詞義表示與基于詞義的詞和實體聯(lián)合表示。
其中,聯(lián)合表示學習主要是通過將詞和實體映射到統(tǒng)一低維向量空間,讓具有相似語義或知識結(jié)構(gòu)的詞和實體具有相近的向量表示,以實現(xiàn)跨語言、文本和知識庫的聯(lián)合推演。相較于詞義表示,聯(lián)合表示學習具有以下幾點優(yōu)勢:
支持聯(lián)合計算,促進詞和實體語義互操作和語義融合;
提升表示精度,解決文本中詞和實體的潛在歧義問題;
縮小語言鴻溝,支持跨語言自燃語言理解等相關(guān)任務。
此外,詞和實體的聯(lián)合表示學習又被分為基于詞義的詞和實體聯(lián)合表示學習,及遠程監(jiān)督的跨語言詞和實體的聯(lián)合表示學習。在這兩項技術(shù)的基礎之上,利用神經(jīng)網(wǎng)絡將跨語言協(xié)同實體連接,這樣可以解決跨語言的詞和實體表示問題。
詞義的詞和實體聯(lián)合表示學習分為實體表示學習、對齊模型、詞和實體提及表示學習三個部分,其中實體關(guān)系圖被用于實體表示學習,帶有錨文本的文檔在提取義項映射詞后分別被用于對齊模型和表示學習兩個部分。
其中,跨語言聯(lián)合表示學習利用實體關(guān)系圖打破語言界限,結(jié)合跨語言相似句對以及圖神經(jīng)網(wǎng)絡,讓實體與實體之間通過映射對應語義的上下文,結(jié)合聯(lián)合表示學習最終得到跨語言的語義向量空間。
在跨語言的詞和實體表述基礎上,詞和實體的表示就可以實現(xiàn)對任意文本的實體鏈接,再通過映射對應語義的上下文以實現(xiàn)大規(guī)模實體訓練。
目前,這項技術(shù)已經(jīng)被用于構(gòu)建專家知識庫的「學者畫像」,這其中最簡單的應用就是分類體系的概念,其中興趣標簽可以看作是知識圖譜里面的知識標簽,利用知識標簽和上下文關(guān)系的解析,可以得到更為詳細的信息。
通過「學者畫像」,學術(shù)界可以得到關(guān)于他更多的信息描述,其中包括研究興趣的變化、學術(shù)活躍度、研究多樣性等方面,這些均通過分析論文以及合作者關(guān)系得出。此外,這項技術(shù)還可以被用于會議的搜索和挖掘,例如會議上發(fā)表論文最多的學者以及引用最多的作者以及論文內(nèi)容。
除此之外,利用「學者畫像」得到的一些數(shù)據(jù)還可以被用于制作技術(shù)發(fā)展報告,以便于實現(xiàn)對某領(lǐng)域技術(shù)發(fā)展趨勢的預測。
知識圖譜對自然語言模型的影響自然語言處理技術(shù)中,復雜的知識庫可以提升深度學習的理解能力,經(jīng)過統(tǒng)一語義表示空間處理后文字、句子、短語甚至文章等語言單元可被用于復雜的自然語言處理任務,其中不乏包括語義分析、句法分析和詞法分析等。
自然語言文本中蘊含豐富的語言知識和世界知識,知識圖譜和深度學習的雙向驅(qū)動可以有效提升自然語言處理的效率,此外,機器翻譯的神經(jīng)網(wǎng)絡模型則有以下兩個特點:
將所有的語義表示為低維向量空間;
語言之間的翻譯實際上是低維網(wǎng)絡空間里面的多層跳轉(zhuǎn)。
另外,它還包含非常多的語言單元,主要分為字、詞、短語、句子和文檔五個部分,翻譯可以看做是不同語言之間的語句聯(lián)系,以問答系統(tǒng)和信息檢索為例,自然語言處理主要是被用于解決語言單元之間語義聯(lián)系。
目前,自然語言處理技術(shù)尚無法實現(xiàn)數(shù)據(jù)層次到更深層次的理解,因此知識提取十分重要,深度學習在理解海量數(shù)據(jù)之后可以獲得大量知識,并以此構(gòu)建對應的知識圖譜。同時,經(jīng)過表示學習獲取的知識也可以被用于深度學習的知識指導。
人類知識以離散符號的形式表示,但它不與深度學習低維向量相容,通過將結(jié)構(gòu)化知識映射到低維向量空間,便可以將語言中知識、文檔、句子和詞匯等單元與符號相融合,實現(xiàn)跨領(lǐng)域知識理解。
那么,這些問題該如何解決?這就不得不提及語言知識庫。
目前,知識領(lǐng)域比較有名的兩個語言知識庫分別是英文知識庫 WordNet 和中文知識庫 HowNet(知網(wǎng)),其中 HowNet 提出的義原概念,讓人類語言的所有詞匯、短語、句子甚至文檔被分解成更為細化的部分。
其中,每一個義原可以看做是獨特的詞義標簽,這個標簽的意義是明確固定且互相獨立的,義原之間還標記了對應的語義關(guān)系,那么,是否可以讓義原知識協(xié)助指導數(shù)據(jù)驅(qū)動知識學習?目前已經(jīng)有兩種方案:
利用自然語言處理比較有名的詞表示學習,其中比較有名的就是以純數(shù)據(jù)驅(qū)動的 word2vec 算法,引入 HowNet 知識庫可以實現(xiàn)義原、詞義和詞匯進行聯(lián)合表示學習。
而在句子層面,語言模型顯得尤為重要,目前深度學習框架一般采用 CNN 或者 RNN 訓練語言模型。
但是在實際文本中,依舊有大量的詞沒有在 HowNet 里面被標注,不過這個問題可以利用義原的自動推薦解決,它主要是通過整合詞組成的義原實現(xiàn),目前這項技術(shù)已經(jīng)可以達到比較好的預測結(jié)果,它也可以被看做是未來重要的方向。
利用深度學習幫助單詞相關(guān)義原知識的預測,之后再用義原知識來協(xié)助理解互聯(lián)網(wǎng)上的文本信息,這項技術(shù)可以被用于語言和常識知識庫的探索。
除了以 HowNet、WordNet 等為首的語言知識庫,還有商業(yè)引擎和大型知識圖譜構(gòu)建的世界知識庫,它不僅包含了現(xiàn)實世界中各種各樣的實體,還涵蓋了他們之間的關(guān)系,世界知識庫、語言知識庫整合至數(shù)據(jù)訓練庫中,機器學習的性能會顯著提升。
世界知識庫可以協(xié)助理解復雜知識文本,深度學習自然語言處理的同時協(xié)助文本中的知識獲取可以讓相關(guān)工作形成閉環(huán),以此實現(xiàn)知識圖譜和深度學習雙向驅(qū)動的效果。
知識圖譜的發(fā)展以及學術(shù)界的探討整體來看,語言知識庫和知識圖譜是提升機器學習性能的關(guān)鍵。目前大多數(shù)知識圖譜依賴人工構(gòu)建,仍然缺乏從大規(guī)模數(shù)據(jù)里獲取的手段。
本次論壇中,清華大學的李涓子教授表示他們將會在以下幾個方面做出基礎性和建設性工作:
支持魯棒可解釋的知識表示獲取和推理的基礎理論以及方法研究工作;
建立大規(guī)模的知識庫以及對應平臺,其中知識平臺主要是用于維持知識的生態(tài)系統(tǒng);
利用科技情報大數(shù)據(jù)簡歷基于學者和知識的平臺,并以其為基礎提供相應的智能服務;
構(gòu)建一個集群體智慧、開放、融合、結(jié)構(gòu)化的知識圖譜基礎平臺,從而降低構(gòu)建門檻。
目前,清華的 XLORE 跨語言知識圖譜已經(jīng)包含大約 137 萬條知識,此外,他們還基于跨語言知識庫推出雙語協(xié)同實體鏈接系統(tǒng) XLink。大數(shù)據(jù)挖掘與智能服務平臺 —— AMiner 則被用于學者搜索,通過給學者打上興趣標簽,用戶可以利用這些標簽對需要查找的專家有更深層次的了解。
除了跨語言知識圖譜 XLORE、雙語協(xié)同實體鏈接系統(tǒng) XLink 和專業(yè)數(shù)據(jù)智能服務平臺 AMiner ,清華還在 Github 推出集義原計算、知識表示和知識獲取等算法工具匯總的工具包 Thunlp,其主要包括以下幾種工具:
THULAC —— 中文詞法分析
THUCTC —— 中文文本分類
THUTAG —— 關(guān)鍵詞抽取與社會標簽推薦
OpenKE —— 知識表示學習
OpenNRE —— 神經(jīng)網(wǎng)絡關(guān)系抽取
OpenNE —— 網(wǎng)絡表示學習
OpenQA —— 開放域自動回答
對這套工具感興趣的讀者可以在 https://github.com/thunlp 了解更多信息。
今日薦文點擊下方圖片即可閱讀
我放棄了成為一個全棧開發(fā)工程師的理想
限時福利