(多巴胺因作為大腦中的快樂信號(hào)能增強(qiáng)前額葉系統(tǒng)中的突觸連接負(fù)責(zé)編碼傳遞抽象任務(wù)與規(guī)則結(jié)構(gòu)的重要信息)
https://www.toutiao.com/i6555753251843605005/
上周,《Nature》刊登了 DeepMind 用 AI 算法模擬人類大腦導(dǎo)航功能的論文,而就在今天,DeepMind 又發(fā)布了一項(xiàng)新的突破——利用元強(qiáng)化學(xué)習(xí)來解釋人類大腦的快速學(xué)習(xí)原理,探索多巴胺(dopamine)在人腦學(xué)習(xí)中的地位,并據(jù)此提出了強(qiáng)化學(xué)習(xí)模型未來的發(fā)展思路。
以下為 DeepMind 官方博客對(duì)此次突破的解讀:
近年來,人工智能逐漸系統(tǒng)掌握了視頻游戲的訣竅,比如雅達(dá)利經(jīng)典游戲的《Breakout》和《Pong》。但是,盡管這些人工智能的表現(xiàn)已稱得上相當(dāng)出色,它們依然需要上千小時(shí)的游戲?qū)W習(xí)才能趕超人類玩家水平;而另一方面,人類卻能在幾分鐘之內(nèi)就能掌握陌生游戲的基本技巧。
由于人腦往往輕而易舉便能學(xué)會(huì)更加錯(cuò)綜復(fù)雜的事物,人們提出了“元學(xué)習(xí)”理論(theory of meta-learning),換句話說,就是“學(xué)習(xí)如何學(xué)習(xí)”。一般認(rèn)為,我們的學(xué)習(xí)可以分為兩個(gè)時(shí)間尺度:短期學(xué)習(xí)中,我們往往更專注于事實(shí)的學(xué)習(xí);而長期學(xué)習(xí)中,我們更偏重任務(wù)中抽象的技巧與規(guī)則。正是這樣長期、短期學(xué)習(xí)的結(jié)合幫助我們有效學(xué)習(xí),并得以在新任務(wù)中快速而靈活地應(yīng)用新知識(shí)。而在人工智能系統(tǒng)中,這種“元學(xué)習(xí)”結(jié)構(gòu)的再創(chuàng)造被稱為“元強(qiáng)化學(xué)習(xí)”(meta-reinforcement learning),在進(jìn)行快速、單次的學(xué)習(xí)任務(wù)中極富有成效。然而,要從神經(jīng)科學(xué)角度解釋人腦中相應(yīng)的機(jī)制則困難得多。
我們最新發(fā)表在期刊《Nature Neuroscience》上的文章中運(yùn)用了人工智能研究中“元強(qiáng)化學(xué)習(xí)”的框架,以探索多巴胺(dopamine)在人腦學(xué)習(xí)中的地位。多巴胺因作為大腦中的“快樂信號(hào)”被大家熟知,目前被認(rèn)為是一種“獎(jiǎng)勵(lì)預(yù)測誤差”(reward prediction error,RPE)信號(hào),類似于人工智能中的強(qiáng)化學(xué)習(xí)算法。我們?cè)谖闹刑岢?,多巴胺的功能并不只是從過往事件中估測獎(jiǎng)勵(lì)值。事實(shí)上,多巴胺尤其在前額葉皮質(zhì)區(qū)中扮演著且重要的整體性角色,使我們?cè)谛氯蝿?wù)中高效、迅速、靈活地學(xué)習(xí)。
為了證明該理論,我們從神經(jīng)科學(xué)領(lǐng)域?qū)嶒?yàn)中改造了 6 項(xiàng)元學(xué)習(xí)實(shí)驗(yàn),實(shí)驗(yàn)均需要受試完成一定的任務(wù),雖然 6 項(xiàng)任務(wù)的基本原理或所需技巧相同,在不同方面卻各有側(cè)重。我們訓(xùn)練了一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)以代表前額葉皮質(zhì),用標(biāo)準(zhǔn)深度強(qiáng)化學(xué)習(xí)技術(shù)代表人腦中的多巴胺功能,然后將循環(huán)網(wǎng)絡(luò)的動(dòng)態(tài)活動(dòng)與過去神經(jīng)科學(xué)實(shí)驗(yàn)中的實(shí)際數(shù)據(jù)相比較。事實(shí)證明,循環(huán)網(wǎng)絡(luò)非常擅長元學(xué)習(xí),因?yàn)樗鼈兡軐v史的行動(dòng)與觀察結(jié)果內(nèi)化,然后運(yùn)用到多項(xiàng)受訓(xùn)任務(wù)里。
實(shí)驗(yàn)中的一項(xiàng) Harlow 實(shí)驗(yàn)是 19 世紀(jì) 40 年代的著名心理學(xué)實(shí)驗(yàn),用于摸索元學(xué)習(xí)概念。在原始實(shí)驗(yàn)中,研究者讓一組受試猴從兩個(gè)陌生物體中選擇,只有其中一個(gè)才能讓猴得到食物獎(jiǎng)勵(lì)。兩個(gè)物體出現(xiàn) 6 次,每次的左右擺放位置都是隨機(jī)的,因此實(shí)驗(yàn)猴必須學(xué)習(xí)究竟選擇哪一個(gè)物體才能獲得食物獎(jiǎng)勵(lì)。之后又換上兩個(gè)新的陌生物體,同樣也只有其中一個(gè)與食物獎(jiǎng)勵(lì)相關(guān)聯(lián)。在這一訓(xùn)練階段中,猴子們學(xué)會(huì)了選中正確物體的策略:首先在第一次物體出現(xiàn)時(shí)先隨機(jī)選擇一個(gè),之后再根據(jù)獎(jiǎng)勵(lì)與否的結(jié)果反饋選擇特定物體,而不是左右位置。這一實(shí)驗(yàn)表明,這些猴能夠內(nèi)化實(shí)驗(yàn)任務(wù)的原理,并習(xí)得抽象的規(guī)則結(jié)構(gòu)——也就是“學(xué)習(xí)如何學(xué)習(xí)”。
當(dāng)我們?cè)谟?jì)算機(jī)中進(jìn)行類似的模擬實(shí)驗(yàn)時(shí),我們發(fā)現(xiàn),即使提供全新的圖片,這些受試的“元強(qiáng)化學(xué)習(xí)”網(wǎng)絡(luò)依舊表現(xiàn)出了和 Harlow 實(shí)驗(yàn)中動(dòng)物類似的學(xué)習(xí)行為。
事實(shí)上,這些元強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)迅速地適應(yīng)了一系列不同規(guī)則和結(jié)構(gòu)的實(shí)驗(yàn)任務(wù);也正是因?yàn)樗鼈円呀?jīng)了解了如何適應(yīng)各種任務(wù),它們還學(xué)會(huì)了高效學(xué)習(xí)的一些普適性原則。
重要的一點(diǎn)是,我們觀察到的大多數(shù)學(xué)習(xí)都發(fā)生在循環(huán)網(wǎng)絡(luò)中,這就支持了我們的觀點(diǎn)——多巴胺在元學(xué)習(xí)過程中有著更為整體性的作用。傳統(tǒng)觀點(diǎn)認(rèn)為,多巴胺能增強(qiáng)前額葉系統(tǒng)中的突觸連接,強(qiáng)化某些特定行為。在人工智能系統(tǒng)學(xué)習(xí)解決一項(xiàng)任務(wù)時(shí),類似多巴胺的獎(jiǎng)勵(lì)信號(hào)負(fù)責(zé)調(diào)整神經(jīng)網(wǎng)絡(luò)中人工突觸的權(quán)重。然而,在我們的實(shí)驗(yàn)中,神經(jīng)網(wǎng)絡(luò)的突觸權(quán)重是固定的,無法在學(xué)習(xí)過程中進(jìn)行調(diào)整,而元強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)仍然解決并適應(yīng)了任務(wù)。這就說明類似多巴胺的獎(jiǎng)勵(lì)信號(hào)不僅僅是對(duì)權(quán)重進(jìn)行調(diào)整,它還負(fù)責(zé)編碼、傳遞抽象任務(wù)與規(guī)則結(jié)構(gòu)的重要信息,從而使快速任務(wù)適應(yīng)成為可能。
一直以來,神經(jīng)科學(xué)家們?cè)谇邦~葉皮質(zhì)中觀察到了不少類似的神經(jīng)活動(dòng)模式,然而關(guān)于這些適應(yīng)及時(shí)且具有靈活性的模式,他們始終沒能找到合理的解釋。對(duì)于神經(jīng)模式的多變性,有一種較為合理的觀點(diǎn):前額葉皮質(zhì)并不依賴于突觸權(quán)重隨著規(guī)則結(jié)構(gòu)學(xué)習(xí)的緩慢改變,而是基于直接編碼于多巴胺的抽象模型信息。
我們的研究證明了,人工智能中元強(qiáng)化學(xué)習(xí)的關(guān)鍵因素同樣存在于大腦中,而提出的理論不僅結(jié)合了對(duì)多巴胺和前額葉皮質(zhì)的現(xiàn)有認(rèn)知,還解釋了神經(jīng)科學(xué)與心理學(xué)的許多未知現(xiàn)象。
這進(jìn)而引發(fā)一些對(duì)其他問題的思考:基于結(jié)構(gòu)和模型的學(xué)習(xí)是如何發(fā)生在腦中的?為什么多巴胺本身就編碼模型信息?前額葉皮質(zhì)的神經(jīng)元是如何調(diào)節(jié)學(xué)習(xí)信號(hào)的?此外,從人工智能得到的結(jié)果能應(yīng)用到神經(jīng)科學(xué)、心理學(xué)等其他學(xué)科的發(fā)現(xiàn)上,這就進(jìn)一步強(qiáng)調(diào)了不同學(xué)科領(lǐng)域間的互惠價(jià)值。未來我們期待這一研究成果能夠反向,從大腦神經(jīng)環(huán)路的組織結(jié)構(gòu)中獲得啟發(fā),從而設(shè)計(jì)出更新、更好的強(qiáng)化學(xué)習(xí)模型。
聯(lián)系客服