今天要向大家隆重推薦由Facebook研究科學(xué)家、前微軟亞洲研究院主管研究員王仲遠(yuǎn)博士撰寫的一本新書《短文本數(shù)據(jù)理解》
《短文本數(shù)據(jù)理解》
該書選取了如何讓機器“智能”地理解“短文本”(比如搜索查詢、廣告關(guān) 鍵字、標(biāo)簽、微博、問答、聊天記錄等)這一前沿研究課題,匯集了王仲遠(yuǎn)博士及其合作作者在國際頂級學(xué)術(shù)會議發(fā)表的前沿論文,介紹了在微軟和Facebook實際產(chǎn)品中所應(yīng)用的相關(guān)技術(shù),是一本同時適合學(xué)術(shù)界和工業(yè)界人士閱讀的書籍。
近年來,“人工智能”這個已經(jīng)存在幾十年的詞重新成為一個熱詞。尤其是隨著AlphaGo的橫空出世,一般百姓對于人工智能都有所耳聞,許多公司更是宣布把人工智能作為未來最重要的戰(zhàn)略方向。由于近期在圖片、語音識別的技術(shù)突破,以及AlphaGo背后的技術(shù),都采用的是深度學(xué)習(xí)技術(shù),使得許多人認(rèn)為人工智能就是深度學(xué)習(xí)。
然而,在許多業(yè)內(nèi)人士看來,盡管深度學(xué)習(xí)確實推動了一撥技術(shù)變革,但其所代表的人工智能技術(shù)仍然是“弱人工智能”技術(shù)。其典型特征是: (1) 面向某一個具體問題(比如下圍棋,識別視頻中的貓,打某一款游戲,等等);(2)需要大量訓(xùn)練數(shù)據(jù)。雖然許多系統(tǒng)宣稱能夠“遷移學(xué)習(xí)”到不同的領(lǐng)域,但在實際系統(tǒng)中,總是還遇到這樣或那樣的困難。這也是為何深度學(xué)習(xí)在圖像、語音領(lǐng)域已經(jīng)有突破性進(jìn)展,但在自然語言處理領(lǐng)域,雖然大量論文涌現(xiàn),并且在一些系統(tǒng)中也實際應(yīng)用,但仍然只是處在“厚積”的階段,等待“薄發(fā)”的那一刻。
與此同時,學(xué)術(shù)界始終存在著不同觀點的爭論。例如,2015年12月美國《科學(xué)》雜志封面文章《Human-level concept learning through probabilistic program induction(通過概率程序歸納法實現(xiàn)人類層次的概念學(xué)習(xí))》中, 三名分別來自麻省理工學(xué)院、紐約大學(xué)和多倫多大學(xué)的研究就指出:人類常常只需要一個或數(shù)個例子就可以學(xué)習(xí)出一個新的概念,而機器卻需要數(shù)百個例子才能達(dá)到相似的識別精度。例如,當(dāng)人們看到一個新型的二輪平衡車實例后,可以很容易將它從獨輪車、自行車、摩托車、汽車中識別出來。但是對于機器而言,目前還不具備這樣的能力。深度學(xué)習(xí)仍然像是一個深不見底的“記憶黑盒子”,需要通過大量的訓(xùn)練樣例,才能夠?qū)W出超出人類能力的本領(lǐng)。在這篇《科學(xué)》雜志封面論文中,作者直指深度學(xué)習(xí)的軟肋,并聲稱通過“貝葉斯程序?qū)W習(xí)”能夠模擬人類認(rèn)知,并通過了圖靈測試。雖然三位作者和深度學(xué)習(xí)頂尖大牛Geoffrey Hinton相互之間都禮貌地表明,“貝葉斯程序?qū)W習(xí)”和“深度學(xué)習(xí)”在不同的任務(wù)上各領(lǐng)風(fēng)騷,假如能彼此借鑒,一定能互相彌補,但是學(xué)術(shù)界中的“貝葉斯派”和“神經(jīng)網(wǎng)絡(luò)派”的“暗戰(zhàn)”還在持續(xù)。
言歸正傳,在自然語言處理領(lǐng)域,文本理解仍然是人工智能尚未攻克的難題。雖然“微軟小冰”已經(jīng)能夠陪人聊天,并且在微軟研究院研究團(tuán)隊的鼎力支持下,正在具備“情感”以及“個性”,但是業(yè)內(nèi)人士仍然清楚地意識到,基于檢索方式以及LSTM的技術(shù)方案,或許能夠讓產(chǎn)品顯得“人工智能”,但是離真正地能夠“自主學(xué)習(xí)”的“人工智能”仍然相去甚遠(yuǎn)。這是因為,雖然計算機當(dāng)下能輕而易舉地戰(zhàn)勝世界圍棋冠軍,但是它的學(xué)習(xí)能力以及文本理解的能力可能都遠(yuǎn)不及一個三四歲的孩童。
去年10月底,微軟研究院發(fā)布了Microsoft Concept Graph(微軟概念圖譜,https://concept.research.microsoft.com/)。其核心知識庫包含了超過540萬條概念。除了包含一些被絕大部分通用知識庫包含的概念,例如“城市”、“音樂家”等,Microsoft Concept Graph還包含數(shù)百萬長尾概念,例如“抗帕金森治療”、“名人婚紗設(shè)計師”、“基礎(chǔ)的水彩技巧”等,而這些概念在其他的知識庫中很難被找到。這個概念知識圖譜,可以讓計算機掌握“常識”(這是人類理解萬物的基礎(chǔ)),從而模仿人類進(jìn)行簡單推理。
基于概念知識圖譜進(jìn)行推理的過程叫做概念化,它是模擬人類看到短文本時在腦海中形成推理的過程。例如,當(dāng)我們看到“蘋果”的時候,我們會知道它有可能是一種水果,也有可能是一家公司;當(dāng)我們看到“蘋果工程師”的時候,我們腦海中會形成簡單的推理,認(rèn)為這個“蘋果”很有可能是指蘋果公司;更進(jìn)一步,當(dāng)我們看到“蘋果工程師在吃蘋果”,由于“吃”這個動詞的存在,這個短文本中的第二個“蘋果”指的就應(yīng)該是水果。這種基于不同上下文進(jìn)行推理的過程就是“概念化”(Conceptualization)。目前,機器已經(jīng)能夠完全模擬這一過程,進(jìn)行“常識推理”,從而對文本產(chǎn)生一種顯性理解結(jié)果:“概念化向量”。這種向量與基于深度學(xué)習(xí)產(chǎn)生的詞向量類似,可以用于進(jìn)行語義相似度計算,但是不同點是“概念化向量”是可解釋的,而由深度學(xué)習(xí)產(chǎn)生的詞向量是不可解釋的。
在大數(shù)據(jù)管理叢書主編孟小峰教授以及機械工業(yè)出版社的協(xié)調(diào)下,Microsoft Concept Graph(微軟概念圖譜)前負(fù)責(zé)人以及其概念化核心算法設(shè)計者王仲遠(yuǎn)博士將其發(fā)表的眾多頂級學(xué)術(shù)會議論文以及前沿算法匯集成冊,即《短文本數(shù)據(jù)理解》,由機械工業(yè)出版社大數(shù)據(jù)管理叢書在今年5月出版。
本書作者王仲遠(yuǎn)博士,現(xiàn)在是美國Facebook公司Research Scientist(研究科學(xué)家)。他帶領(lǐng)一個團(tuán)隊,負(fù)責(zé)Facebook網(wǎng)站每天數(shù)十億Query(查詢)以及Post(帖子)中的實體識別與鏈接。他的團(tuán)隊僅用半年時間就將原有產(chǎn)品的關(guān)鍵指標(biāo)F1提升了80%,達(dá)到業(yè)界最高水準(zhǔn)。加入Facebook前,他是微軟亞洲研究院的主管研究員,領(lǐng)導(dǎo)微軟研究院的兩個知識圖譜項目Probase(即微軟的概念知識圖譜/Microsoft Concept Graph)和Enterprise Dictionary(企業(yè)知識圖譜項目),以及一個人工智能助手項目Digtal Me。他多年來專注于知識圖譜及其在文本理解方面的研究,已在SIGMOD、VLDB、ICDE、IJCAI、AAAI、CIKM、EMNLP等國際頂級學(xué)術(shù)會議上發(fā)表論文30余篇,其中包括ICDE 2015最佳論文獎。他也是國際自然語言頂級學(xué)術(shù)會議ACL 2016 Tutorial “Understanding Short Texts”的主講人之一。目前已出版技術(shù)專著2本,擁有美國專利5項。他的研究興趣包括:文本理解、知識庫系統(tǒng)、自然語言處理、深度學(xué)習(xí)、數(shù)據(jù)挖掘等。
書中所介紹的方法已經(jīng)在微軟以及Facebook的許多產(chǎn)品中成功應(yīng)用。因此,本書既介紹了短文本理解前沿科研技術(shù),又是為數(shù)不多能夠具體落地的產(chǎn)品技術(shù)。適合學(xué)術(shù)界和工業(yè)界相關(guān)研究人員閱讀,也適合對人工智能、自然語言處理技術(shù)、知識圖譜感興趣的讀者。
近期精彩活動(直接點擊查看):