国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
微軟發(fā)布SynNet,遷移學(xué)習(xí)&無監(jiān)督學(xué)習(xí),完美應(yīng)用于機器閱讀 | 雷鋒網(wǎng)


雷鋒網(wǎng) AI科技評論將其編譯如下:

對人類來說,閱讀理解是每天都在進行的基本任務(wù)。早在小學(xué)的時候,我們就能在閱讀文章后,回答與文章的中心思想和細(xì)節(jié)相關(guān)的問題。

但對AI來說,完美的進行閱讀理解仍然是一個難以實現(xiàn)的目標(biāo),但如果我們要評估和實現(xiàn)通用人工智能,就必須讓AI達(dá)成這個目標(biāo)。

實際上,許多現(xiàn)實生活中的場景,包括客戶服務(wù)、建議、問答、對話和客戶關(guān)系管理,都需要用到閱讀理解。如果AI能完美的進行閱讀理解,它將在一些情況下有驚人的潛能,比如在成千上萬的文件中,迅速幫助醫(yī)生找到重要的信息,讓他們把時間用在更有價值的、可能會挽救生命的工作上。

因此,構(gòu)建出能夠進行機器閱讀理解(MRC)的機器很有意義。比如在執(zhí)行搜索請求時,機器理解將給出一個準(zhǔn)確的答案,而不是拋給你一個網(wǎng)址,你需要點開之后在冗長的網(wǎng)頁中找到答案。此外,機器理解模型能夠理解狹窄和特定領(lǐng)域的文章中的知識,在那些領(lǐng)域中,支撐算法的搜索數(shù)據(jù)很少。

微軟專注于機器閱讀,目前正引領(lǐng)著該領(lǐng)域的競爭。微軟的多個項目,包括用于機器理解的深度學(xué)習(xí)項目,也把目光投向了MRC。盡管取得了很大的進展,但微軟還是忽視了一個關(guān)鍵問題,這個問題直到最近才被注意:怎樣針對一個新的領(lǐng)域構(gòu)建MRC系統(tǒng)?

最近,微軟AI研究院的Po-Sen Huang、Xiaodong He等多名研究員和來自斯坦福大學(xué)的實習(xí)生David Golub針對這個問題開發(fā)了一種遷移學(xué)習(xí)算法。他們將在2017年的頂尖自然語言處理會議——EMNLP上介紹這種算法。這是開發(fā)出可擴展解決方案的關(guān)鍵步驟,可以將MRC擴展到更廣泛的領(lǐng)域。

微軟在朝著更大的目標(biāo)在邁進,這種算法是他們?nèi)〉眠M步的一個例子。他們想要用更復(fù)雜和微妙的能力來創(chuàng)造技術(shù)。

Rangan Majumder 在機器閱讀博客上說過:“我們的目的不是建立一堆解決理論問題的算法,我們正在用這些算法解決實際問題,在實際的數(shù)據(jù)上測試他們。”

目前,大多數(shù)最先進的機器閱讀系統(tǒng)都是建立在監(jiān)督訓(xùn)練數(shù)據(jù)的基礎(chǔ)之上,這些模型已經(jīng)在樣例上進行過端到端的訓(xùn)練。訓(xùn)練樣例不僅包括文章,還包括與文章相關(guān)的手動標(biāo)簽的問題和問題相應(yīng)的答案。

通過這些示例,基于深度學(xué)習(xí)的MRC模型學(xué)會理解問題并從文章中推斷出答案,這包括多個論證和推理步驟。

然而,對于許多領(lǐng)域或行業(yè)而言,這種監(jiān)督訓(xùn)練數(shù)據(jù)并不存在。例如,如果要建立一個新的機器閱讀系統(tǒng),來幫助醫(yī)生找到與新疾病相關(guān)的重要信息,問題是:可能會有很多可用的文檔,但是我們?nèi)鄙倥c文檔相關(guān)的手動標(biāo)簽的問題以及問題相應(yīng)的答案。

這一挑戰(zhàn)正在變大,因為我們需要為每種疾病建立一個獨立的MRC系統(tǒng),此外文獻的數(shù)量正在急劇增加。因此,至關(guān)重要的是,要弄清楚如何讓一個領(lǐng)域的MRC系統(tǒng)在另一個領(lǐng)域也能適用。在后面那個新的領(lǐng)域中,沒有手動標(biāo)簽的問題,也沒有問題相應(yīng)的答案,但是有大量的文檔。

微軟的研究人員開發(fā)了一種新的模型——兩級綜合網(wǎng)絡(luò)(SynNet),可以用來解決上面的問題。在這種方法中,基于一個領(lǐng)域中的監(jiān)督數(shù)據(jù),SynNet首先學(xué)會一種通用模式,這種通用模式能識別文章中可能的關(guān)注點。這些關(guān)注點指的是關(guān)鍵知識點、命名實體或語義概念,通常是人們可能會問到的問題的答案。然后,在第二級,模型會學(xué)著根據(jù)文章內(nèi)容,圍繞可能的答案,形成自然語言問題。

訓(xùn)練好的SynNet可以應(yīng)用于新的領(lǐng)域。它可以在新的領(lǐng)域中閱讀文檔,針對這些文檔生成偽問題和答案。然后,針對那個新的領(lǐng)域,生成必要的訓(xùn)練數(shù)據(jù)來訓(xùn)練MRC系統(tǒng)。這個新的領(lǐng)域可能是一種新的疾病,一本新公司的員工手冊,或是一份新的產(chǎn)品手冊。

產(chǎn)生合成數(shù)據(jù)來對不足的訓(xùn)練數(shù)據(jù)進行補充,這種想法在以前就有過研究。例如,針對于翻譯任務(wù),Rico Sennrich和他的同事們在一篇論文中提出了一種方法:根據(jù)真實的句子生成新的句子,用來完善已有的機器翻譯系統(tǒng)。然而,與機器翻譯不同的是,對于像MRC這樣的任務(wù),一篇文章需要既生成問題,又生成答案。此外,即使問題在語法上是流利的自然語句,答案通常是段落中某個突出的語義概念,例如一個命名實體、一段情節(jié)或是一個數(shù)字。由于答案與問題有不同的語言結(jié)構(gòu),因此將他們視為兩種不同類型的數(shù)據(jù)可能更合適。

微軟的新方法將產(chǎn)生問題-答案對的過程分成兩步:先通過段落來生成答案,再通過段落和生成的答案,來生成問題。因為答案通常是關(guān)鍵的語義概念,所以會先生成答案。問題可以被看作組合起來的完整句子,用來詢問前面的概念。 

圖:訓(xùn)練好的SynNet可以用于合成關(guān)于給定段落的答案和問題。模型的第一級是回答合成模塊,使用雙向長短時記憶網(wǎng)絡(luò)(LSTM)來預(yù)測關(guān)于輸入段落的輸入、輸出和開始(IOB)標(biāo)簽,這些標(biāo)簽標(biāo)記出可能為答案的關(guān)鍵語義概念。第二級是問題合成模塊,使用單向長短時記憶網(wǎng)絡(luò)(LSTM)來生成問題,也生成段落中的嵌入詞和IOB ID。段落中的多個span標(biāo)簽會被識別為可能的答案,但在生成問題時,他們只選擇一個span標(biāo)簽。

兩個從文章中生成問題和答案的例子,如下圖所示:

使用SynNet后,能在一個新的領(lǐng)域獲得更準(zhǔn)確的結(jié)果,而不需要額外的訓(xùn)練數(shù)據(jù),并且網(wǎng)絡(luò)性能接近全監(jiān)督MRC系統(tǒng)。

SynNet就像一名教師,根據(jù)她在以前的領(lǐng)域中學(xué)到的經(jīng)驗,從新的領(lǐng)域的文章中創(chuàng)造出問題和答案,并利用她的這些創(chuàng)造來教學(xué)生在新的領(lǐng)域中進行閱讀理解。相應(yīng)的,微軟的研究人員也開發(fā)了一組神經(jīng)機器閱讀模型,包括最近開發(fā)的很有潛力的ReasoNet模型,這些模型就像是從教學(xué)資料中學(xué)習(xí)的學(xué)生,可以根據(jù)文章來回答問題。

據(jù)微軟所知,這是進行MRC領(lǐng)域遷移的首次嘗試。他們期待著開發(fā)可擴展的解決方案,快速擴展MRC的能力,進而釋放出機器閱讀顛覆性的潛力!



本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
什么是ai?怎么使用ai問答?
「三清才子」劉鐵巖:用好奇心探求AI邊界
Bard翻車讓谷歌市值蒸發(fā)千億,有機遇、更有風(fēng)險
谷歌版ChatGPT首秀,第一個Demo就大翻車,市值暴跌7000億
通用人工智能何時來?專家預(yù)測還需81年!
新書《Human Compatible》書評:AI與我們的未來
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服