国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
DeepMind哈佛驚人發(fā)現(xiàn)!大腦中竟存在分布強化學(xué)習(xí),靠多巴胺驅(qū)動

【新智元導(dǎo)讀】人類的大腦,或許AI比我們懂。近日,DeepMind與哈佛大學(xué)新研究證明了大腦中存在“分布強化學(xué)習(xí)”,而大腦中的強化學(xué)習(xí)是通過“快樂之源”多巴胺驅(qū)動。和AI系統(tǒng)類似,大腦不是以“平均值”的方式預(yù)期未來可能的回報,而是以“概率分布”的方式來預(yù)期?!父@航裢?9:00,騰訊微信人工智能高級研究員錢橋手把手教你“推薦系統(tǒng)與數(shù)據(jù)思維”,戳右邊鏈接上 新智元We站公開課 了解更多!」

學(xué)生時代,想必你肯定聽過巴甫洛夫和狗的故事:

每次給狗喂食之前,都先搖動一個鈴鐺。久而久之,狗學(xué)會了把鈴鐺當(dāng)做進食的前奏。后來,只要鈴鐺一響,狗就會開始流口水,不管接下來有沒有食物。這表明它們已經(jīng)學(xué)會了“預(yù)測獎勵”。

在最初的實驗中,巴甫洛夫通過測量它們產(chǎn)生的唾液量來估計它們的期望。但最近幾十年來,科學(xué)家們開始破譯大腦學(xué)習(xí)這些預(yù)測的方式
同時,計算機科學(xué)家開發(fā)了在AI系統(tǒng)中進行強化學(xué)習(xí)的算法。這些算法使AI系統(tǒng)無需外部指導(dǎo)即可學(xué)習(xí)復(fù)雜的策略,學(xué)習(xí)過程由獎勵預(yù)測機制指導(dǎo)。

DeepMind的一項新研究表明,對于破譯大腦的內(nèi)部運作方式,或許AI才是我們的老師。

在這項剛剛被發(fā)表在Nature的研究中,DeepMind與哈佛大學(xué)的研究人員受最近關(guān)于分布強化學(xué)習(xí)的AI研究啟發(fā),提出了一種基于多巴胺的強化學(xué)習(xí)的方法

他們認為:和AI系統(tǒng)類似,大腦不是以“平均值”的方式預(yù)期未來可能的回報,而是以“概率分布”的方式來預(yù)期,從而證明大腦中存在“分布強化學(xué)習(xí)”。

大腦進行強化學(xué)習(xí),類似于頂級AI算法

“大腦中的多巴胺是一種代表驚訝(surprise)的信號。”論文一作Will Dabney說: “當(dāng)情況好于預(yù)期時,就會釋放出更多的多巴胺?!?/p>

一起認為,這些多巴胺神經(jīng)元反應(yīng)都相同。但是研究人員發(fā)現(xiàn),各個多巴胺神經(jīng)元似乎有所不同:每個神經(jīng)元“快樂”或“悲傷”的程度是不一樣的。
更像是合唱團,它們唱著不同的音符,相互協(xié)調(diào),”Dabney說。

這一發(fā)現(xiàn)從一種稱為分布強化學(xué)習(xí)的過程中獲得了靈感。沒錯,就是AI用來掌握圍棋和星際爭霸2等游戲的技術(shù)之一。

最簡單的說,強化學(xué)習(xí)是一種獎勵,它可以強化讓它有所得的行為。這需要了解當(dāng)前的行動如何導(dǎo)致未來的回報。例如,一條狗可能會學(xué)習(xí)命令“ 坐”,因為當(dāng)它這樣做時會得到獎勵。

以前,AI和神經(jīng)科學(xué)中的強化學(xué)習(xí)模型都專注于學(xué)習(xí)以預(yù)測“平均”的未來回報。“但這并不能反映現(xiàn)實情況,”Dabney說。

他還舉了個例子:“例如,當(dāng)有人玩彩票時,他們期望贏或輸,但是他們并不會期望中間結(jié)果?!?/p>

當(dāng)未來不確定時,可能的結(jié)果可以用概率分布來表示:有的是正的,有的是負的。使用分布強化學(xué)習(xí)算法的AI能夠預(yù)測可能的獎勵的全部范圍。

為了測試大腦的多巴胺獎勵途徑是否也通過分布起作用,該團隊記錄了小鼠中單個多巴胺神經(jīng)元的反應(yīng)。他們訓(xùn)練小鼠完成一項任務(wù),并給予它們大小不同且不可預(yù)測的獎勵。

研究人員發(fā)現(xiàn),不同的多巴胺細胞確實表現(xiàn)出不同程度的驚訝。也就是說,AI算法讓我們知道了應(yīng)該在神經(jīng)反應(yīng)中尋找什么。

接下來,新智元為大家剖析這項研究的來龍去脈。

時間差學(xué)習(xí)算法:完善強化學(xué)習(xí)預(yù)測鏈

強化學(xué)習(xí)是將神經(jīng)科學(xué)和AI相聯(lián)系的最古老,最有力的想法之一。早在1980年代后期,計算機科學(xué)研究人員試圖開發(fā)一種算法,該算法僅使用“獎懲”作為信號,學(xué)習(xí)如何獨自執(zhí)行復(fù)雜的行為。

這種獎勵機制的預(yù)測與人類自身的一些行為很類似,比如,學(xué)生努力學(xué)習(xí)來應(yīng)對考試,其獎勵回報是考試成績可能會更高。總體而言,預(yù)測當(dāng)前行為的未來回報,是這種算法的核心機制。

解決獎勵預(yù)測問題的一個重要突破是時間差學(xué)習(xí)(TD)算法,該算法不會去計算未來的總回報,而只是嘗試在下一個時刻預(yù)測即時獎勵。

當(dāng)下一刻出現(xiàn)新信息時,將新的預(yù)測與預(yù)期的進行比較。如果二者不同,則計算出回報的差異,并使用此“即時差異”將舊預(yù)測調(diào)整為新預(yù)測,使期望預(yù)測與現(xiàn)實相匹配,整個預(yù)測鏈逐漸變得更加準(zhǔn)確。

大約在同一時期,上世紀(jì)80年代末到90年代初,神經(jīng)科學(xué)家也在努力了解多巴胺神經(jīng)元的行為。這些神經(jīng)元的放電與獎勵機制有關(guān),但其反應(yīng)也取決于感覺輸入,并且會隨著經(jīng)驗而改變。

逐漸地,一些研究人員開始將神經(jīng)科學(xué)和AI的最新發(fā)現(xiàn)聯(lián)系起來。研究人員發(fā)現(xiàn),某些多巴胺神經(jīng)元的反應(yīng)代表了獎勵預(yù)測的錯誤:也就是說,當(dāng)動物獲得的獎勵比預(yù)期的多或少時,多巴胺神經(jīng)元就會放電。

這些研究人員據(jù)此推測,人的大腦也在使用TD學(xué)習(xí)算法:計算獎勵預(yù)測誤差,通過多巴胺信號向大腦廣播。從那時起,多巴胺的獎勵預(yù)測誤差理論已在數(shù)千個實驗中得到測試和驗證,并且已成為神經(jīng)科學(xué)中最成功的定量理論之一。

破解“快樂之源”多巴胺的分布密碼

由于分布式TD算法在人工神經(jīng)網(wǎng)絡(luò)中是如此強大,因此自然而然地出現(xiàn)了一個問題:大腦中是否也使用了分布式TD算法?

DeepMind與哈佛大學(xué)的實驗室合作,分析了小鼠的多巴胺細胞的記錄。記錄是在小鼠執(zhí)行完好學(xué)習(xí)的任務(wù)后得到的,在這些任務(wù)中它們收到了無法預(yù)測的獎勵(圖4)。評估了多巴胺神經(jīng)元的活性是否與標(biāo)準(zhǔn)TD或分布TD一致。

第一個問題是,是否可以在神經(jīng)數(shù)據(jù)中發(fā)現(xiàn)這種獎勵預(yù)測。

過去,我們已經(jīng)知道多巴胺細胞會改變其放電速率指示預(yù)測錯誤,也就是說,當(dāng)收到的獎勵與預(yù)測獎勵完全相同時,預(yù)測誤差應(yīng)該為零,因此放電速率沒有變化。對于每個多巴胺細胞,我們確定了這個不會改變放電速率的臨界獎勵。我們稱之為“反轉(zhuǎn)點”。

接下來的問題是,不同多巴胺細胞的“反轉(zhuǎn)點”獎勵是否不同。下圖表明,一些細胞預(yù)測出了非常大的獎勵,還有的細胞預(yù)測很少,其差異程度明顯超出了隨機差異。

圖1:在此任務(wù)中,給小鼠喝水的獎勵是隨機確定的,數(shù)量是可變的

獎勵預(yù)測中的這些差異是由正向或負向獎勵預(yù)測錯誤的選擇性放大引起的。通過測量不同多巴胺細胞表現(xiàn)出“積極”和“消極”預(yù)測的擴大程度的差異,在不同細胞之間發(fā)現(xiàn)了明顯的差異性,這種差異已經(jīng)超出了噪聲的范圍。

圖 2:多巴胺細胞編碼學(xué)習(xí)的獎勵分布??梢愿鶕?jù)放電率對獎勵分布進行解碼?;疑幱皡^(qū)域是任務(wù)中獎勵的真實分配。每個淺藍色軌跡顯示解碼程序的示例。暗藍色是平均運行時間。

最后一個問題是,是否可以從多巴胺細胞的放電速率中解碼獎勵分布。如上圖所示,我們發(fā)現(xiàn)確實有可能僅使用多巴胺細胞的放電速率來重建獎勵分布(藍色),該分布與實際獎勵分布(灰色區(qū)域)非常接近。

結(jié)論:分布式強化學(xué)習(xí)是一條通向更先進AI的光明大道

這項研究證明,大腦中確實存在與AI模型中類似的分布式強化學(xué)習(xí)機制,這對人工智能和神經(jīng)科學(xué)都有意義。

首先,它驗證了分布強化學(xué)習(xí)是一條通向更先進AI能力的光明大道。

“如果大腦正在使用它,這應(yīng)該是一個好主意,”DeepMind神經(jīng)科學(xué)研究主任、該論文的主要作者之一Matthew Botvinick說:“它告訴我們,這是一種可以在現(xiàn)實世界中擴展的計算技術(shù),它將很好的適應(yīng)其他計算過程。”

其次,這一發(fā)現(xiàn)為神經(jīng)科學(xué)提出了新問題,為理解心理層面的健康和動機提供了新見解。

例如,有“悲傷”和“快樂”的多巴胺神經(jīng)元意味著什么?如果大腦有選擇地只聽其中一個或另一個,它會導(dǎo)致化學(xué)失衡和誘發(fā)抑郁嗎?

從根本上說,通過進一步解碼大腦的過程,研究結(jié)果還揭示了創(chuàng)造人類智力的因素。Botvinick說:“它為我們提供了關(guān)于日常生活中大腦活動的新視角?!?/p>

最后,研究人員希望這些問題的提出和解答,能推動神經(jīng)科學(xué)領(lǐng)域的技術(shù)進步,并將其成果反哺AI研究,實現(xiàn)良性循環(huán)。

參考鏈接:

https://www.newscientist.com/article/2230327-deepmind-found-an-ai-learning-technique-also-works-in-human-brains/

https://www.vox.com/future-perfect/2020/1/15/21067228/ai-brain-protein-folding-google-deepmind

https://www.technologyreview.com/s/615054/deepmind-ai-reiforcement-learning-reveals-dopamine-neurons-in-brain/

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
DeepMind團隊沖擊腦科學(xué)領(lǐng)域,揭秘大腦的分布式獎勵機制
《Nature》最新研究:大腦中存在分布式強化學(xué)習(xí)機制
Deepmind ''預(yù)測地圖''論文背后:神經(jīng)科學(xué)或?qū)⒅I迎來新突破
DeepMind:AI元強化學(xué)習(xí)的關(guān)鍵因素同樣存在于人類大腦
DeepMind發(fā)現(xiàn):深度學(xué)習(xí)與神經(jīng)科學(xué)實驗中動物的學(xué)習(xí)方式類似!
人類對大腦多巴胺機制理解錯了!頂級版AlphaGo背后技術(shù)啟發(fā)腦科學(xué),DeepMind最新成果登上N...
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服