編者按:人工智能與神經(jīng)科學(xué)/腦科學(xué)之間存在剪不斷理還亂的關(guān)系。從人工智能誕生之初,其研究就深受神經(jīng)科學(xué)的影響,包括人工神經(jīng)網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)等諸多算法;最近較火的類腦計(jì)算,更是提出“brain-inspire”的想法。然而,我們常聽,人工智能研究受神經(jīng)科學(xué)/腦科學(xué)啟發(fā);那么,神經(jīng)科學(xué)/腦科學(xué)的研究能否受人工智能研究的啟發(fā)呢?
DeepMind最近發(fā)表在《Nature》上的文章正是這樣的的典范,在分布式強(qiáng)化學(xué)習(xí)的啟發(fā)下,他們研究了小鼠多巴胺細(xì)胞的生理機(jī)制,發(fā)現(xiàn)大腦中同樣在使用「分布式強(qiáng)化學(xué)習(xí)」。這樣的研究,一方面促進(jìn)了神經(jīng)科學(xué)的發(fā)展,另一方面也驗(yàn)證了AI研究走在正確的道路上。
學(xué)習(xí)和動(dòng)機(jī)是由內(nèi)、外部獎(jiǎng)勵(lì)所驅(qū)動(dòng)的。我們的許多日常行為都以預(yù)測(cè)或預(yù)測(cè)給定的行動(dòng)是否會(huì)帶來(lái)積極的(即有益的)結(jié)果為指導(dǎo)。巴浦洛夫在他最著名的實(shí)驗(yàn)中,訓(xùn)練狗在鈴聲響起后會(huì)產(chǎn)生期待食物的反應(yīng),這些狗在食物到達(dá)之前聽到聲音就開始流唾液,這表明它們已經(jīng)學(xué)會(huì)了預(yù)測(cè)獎(jiǎng)勵(lì)。在最初的實(shí)驗(yàn)中,巴甫洛夫通過(guò)測(cè)量它們產(chǎn)生的唾液量來(lái)估計(jì)它們的期望。不過(guò)最近幾十年中,科學(xué)家們開始破譯大腦如何學(xué)習(xí)這些期望的內(nèi)部運(yùn)作方式。
與神經(jīng)科學(xué)家的研究同時(shí),計(jì)算機(jī)科學(xué)家們也在人工系統(tǒng)中不斷地開發(fā)強(qiáng)化學(xué)習(xí)的算法,這些算法使AI系統(tǒng)不需要外部指導(dǎo)(而是由獎(jiǎng)勵(lì)預(yù)測(cè)指導(dǎo))即可學(xué)習(xí)復(fù)雜的策略。DeepMind近期發(fā)表在Nature上的一項(xiàng)新的工作是,受計(jì)算機(jī)科學(xué)最新的研究(對(duì)強(qiáng)化學(xué)習(xí)算法的重大改進(jìn))啟發(fā),他們?yōu)榇竽X中獎(jiǎng)勵(lì)學(xué)習(xí)的一些以前無(wú)法解釋的特征提供了一個(gè)深刻而簡(jiǎn)約的解釋,并由此開辟了研究大腦多巴胺系統(tǒng)的新途徑??芍^是人工智能研究反哺神經(jīng)科學(xué)/腦科學(xué)的典范。
預(yù)測(cè)鏈:時(shí)間差分學(xué)習(xí)
強(qiáng)化學(xué)習(xí)是人工智能與神經(jīng)科學(xué)結(jié)合形成的最為「古老」且強(qiáng)大的思想,早在80年代末就已經(jīng)出現(xiàn)。當(dāng)時(shí)的計(jì)算機(jī)科學(xué)研究人員試圖設(shè)計(jì)一種算法,把獎(jiǎng)勵(lì)和懲罰作為反饋信號(hào)融入到機(jī)器的學(xué)習(xí)過(guò)程,目的是讓機(jī)器能夠自動(dòng)執(zhí)行復(fù)雜的行為。獎(jiǎng)勵(lì)行為可以強(qiáng)化機(jī)器的行為,但是要解決一個(gè)特定的問(wèn)題,即必須了解當(dāng)前機(jī)器的行為如何帶來(lái)未來(lái)的回報(bào);為了預(yù)測(cè)某項(xiàng)行為帶來(lái)的未來(lái)的總回報(bào),通常有必要對(duì)未來(lái)采取許多措施。時(shí)間差分算法(TD)的出現(xiàn)為解決獎(jiǎng)勵(lì)預(yù)測(cè)問(wèn)題找到額突破口,TD使用一種數(shù)學(xué)技巧,通過(guò)一個(gè)非常簡(jiǎn)單的學(xué)習(xí)過(guò)程代替對(duì)未來(lái)的復(fù)雜推理,還能得到相同的結(jié)果。簡(jiǎn)單的說(shuō),TD算法并不計(jì)算所能得到的未來(lái)的總回報(bào),而是僅僅預(yù)測(cè)即時(shí)獎(jiǎng)勵(lì)以及下一步驟所能獲得的獎(jiǎng)勵(lì)。 然后,當(dāng)下一刻出現(xiàn)新信息時(shí),將新的預(yù)測(cè)與預(yù)期的進(jìn)行比較。如果它們不同,則算法會(huì)計(jì)算出它們之間的差異,并使用此“時(shí)間差分”將舊的預(yù)測(cè)調(diào)整為新的預(yù)測(cè)。不斷調(diào)整,使期望與現(xiàn)實(shí)相匹配,從而使整個(gè)預(yù)測(cè)鏈逐漸變得更加準(zhǔn)確。大約在20世紀(jì)80年代末和90年代初,神經(jīng)科學(xué)家研究了多巴胺神經(jīng)元的行為,并發(fā)現(xiàn)此神經(jīng)元的放電和獎(jiǎng)勵(lì)有某種關(guān)系,而且這種關(guān)系依賴于感覺(jué)輸入,并且如果研究目標(biāo)(例如動(dòng)物)在一項(xiàng)任務(wù)中變得更加有經(jīng)驗(yàn),則這種關(guān)系也會(huì)發(fā)生改變。20世紀(jì)90年代中期,有一批科學(xué)家同時(shí)對(duì)神經(jīng)科學(xué)和人工智能都非常精通。他們注意到:有一些多巴胺神經(jīng)元的反饋意味著獎(jiǎng)勵(lì)預(yù)測(cè)的錯(cuò)誤,例如與訓(xùn)練時(shí)的預(yù)期相比,當(dāng)動(dòng)物得到過(guò)多或過(guò)少的獎(jiǎng)勵(lì)時(shí),這些多巴胺就會(huì)放電發(fā)出信號(hào)。這些科學(xué)家于是提出了大腦使用的TD算法,即考慮多巴胺的反饋,并用于驅(qū)動(dòng)學(xué)習(xí)。此后這種多巴胺獎(jiǎng)勵(lì)預(yù)測(cè)誤差理論( reward prediction error theory of dopamine)在數(shù)千個(gè)實(shí)驗(yàn)中得到驗(yàn)證,并成為了神經(jīng)科學(xué)中最成功的定量理論之一。計(jì)算機(jī)科學(xué)家的腳步并未停留于此,自2013年以來(lái),越來(lái)越多的研究人員開始關(guān)注深度強(qiáng)化學(xué)習(xí),這種在強(qiáng)化學(xué)習(xí)中用深度神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)表示的算法,能夠極為有效的解決復(fù)雜問(wèn)題。 圖 1 :概率表示未來(lái)可能得到的獎(jiǎng)勵(lì),如上圖所示,紅色表示正向結(jié)果,綠色表示負(fù)向結(jié)果。分布強(qiáng)化學(xué)習(xí)是其中的代表,它能讓強(qiáng)化學(xué)習(xí)發(fā)揮出更加優(yōu)異的效果。在許多情況下(尤其是在現(xiàn)實(shí)世界中),特定動(dòng)作所產(chǎn)生的未來(lái)獎(jiǎng)勵(lì)具有隨機(jī)性。如上圖所示,圖中的“小人”并不知道是跨過(guò)缺口,還是掉進(jìn)去,所以預(yù)測(cè)獎(jiǎng)勵(lì)的概率分布圖形出現(xiàn)了兩個(gè)凸起:一個(gè)代表跌落;一個(gè)代表成功跨過(guò)。傳統(tǒng)的TD算法采用的方式是預(yù)測(cè)未來(lái)獎(jiǎng)勵(lì)的平均值,這顯然無(wú)法獲得獎(jiǎng)勵(lì)分布的兩個(gè)峰值(凸起),這時(shí)候分布強(qiáng)化學(xué)習(xí)則可以預(yù)測(cè)到所有的可能性。最簡(jiǎn)單的分布強(qiáng)化學(xué)習(xí)算法與標(biāo)準(zhǔn)TD密切想關(guān),這種算法也稱為分布式TD。兩者的區(qū)別是:標(biāo)準(zhǔn)TD算法學(xué)習(xí)單個(gè)預(yù)測(cè)或者預(yù)測(cè)的期望值;而分布式TD則學(xué)習(xí)的是一組不同的預(yù)測(cè),這組預(yù)測(cè)中的每一個(gè)都采用標(biāo)準(zhǔn)TD方法學(xué)習(xí)。但關(guān)鍵的因素是,每個(gè)預(yù)測(cè)器都會(huì)對(duì)其獎(jiǎng)勵(lì)預(yù)測(cè)誤差應(yīng)用不同的轉(zhuǎn)換。圖 2:a:“悲觀的”細(xì)胞將放大負(fù)向獎(jiǎng)勵(lì)或忽略正向獎(jiǎng)勵(lì),樂(lè)觀的細(xì)胞將放大正向獎(jiǎng)勵(lì)或忽略負(fù)向獎(jiǎng)勵(lì);b:獎(jiǎng)勵(lì)累積分布圖;c:獎(jiǎng)勵(lì)的完整分布圖如上圖a所示,當(dāng)獎(jiǎng)勵(lì)預(yù)測(cè)誤差為正時(shí),一些預(yù)測(cè)器有選擇地“放大”或“加碼”獎(jiǎng)勵(lì)預(yù)測(cè)誤差(RPE)。與獎(jiǎng)勵(lì)分配的較高部分相對(duì)比,這種方法能夠讓預(yù)測(cè)器學(xué)習(xí)到一個(gè)更樂(lè)觀的獎(jiǎng)勵(lì)預(yù)測(cè)。同樣如上圖所示,其他預(yù)測(cè)因子放大了它們的負(fù)獎(jiǎng)勵(lì)預(yù)測(cè)誤差,因此學(xué)習(xí)更悲觀的預(yù)測(cè)。綜上所述,包含悲觀和樂(lè)觀獎(jiǎng)勵(lì)的預(yù)測(cè)器能夠繪制完整的獎(jiǎng)勵(lì)分布圖。 除了簡(jiǎn)單之外,分布式強(qiáng)化學(xué)習(xí)的另一個(gè)好處是,與深度神經(jīng)網(wǎng)絡(luò)結(jié)合使用時(shí),它會(huì)非常強(qiáng)大。在過(guò)去5年中,基于原始的深度強(qiáng)化學(xué)習(xí)DQN agent的算法取得了很大進(jìn)展,并且經(jīng)常在Atari 2600游戲的Atari-57基準(zhǔn)測(cè)試集上進(jìn)行評(píng)估。圖 3:將經(jīng)典的深度強(qiáng)化學(xué)習(xí)與分布強(qiáng)化學(xué)習(xí)進(jìn)行對(duì)比,在Atari-57基準(zhǔn)上的標(biāo)準(zhǔn)化得分中位數(shù)(Atari-57 human-normalised scores)圖3比較了在相同基準(zhǔn)下經(jīng)過(guò)相同條件訓(xùn)練和評(píng)估的多個(gè)標(biāo)準(zhǔn)RL和分布式RL算法。分布式強(qiáng)化學(xué)習(xí)agent以藍(lán)色顯示,可以看出取得了顯著的提升。其中的三種算法(QR-DQN,IQN和FQF)是我們一直在討論的分布式TD算法的變體。為什么分布強(qiáng)化學(xué)習(xí)算法如此有效?雖然這仍然還是一個(gè)活躍的研究課題,但其中一點(diǎn)則在于了解獎(jiǎng)勵(lì)的分布情況會(huì)為神經(jīng)網(wǎng)絡(luò)提供更強(qiáng)的信號(hào),從而以一種對(duì)環(huán)境變化或策略變化更具魯棒性的方式來(lái)塑造其表示形式。由于分布式時(shí)間差分在人工神經(jīng)網(wǎng)絡(luò)中的功能如此強(qiáng)大,一個(gè)科學(xué)問(wèn)題隨之出現(xiàn):分布式時(shí)間差分能被應(yīng)用到大腦中嗎?這就是驅(qū)動(dòng)研究者開始這篇《Nature》論文工作的最初動(dòng)機(jī)。在這篇論文中,DeepMind與哈佛Uchida Lab 合作,分析了他們對(duì)小鼠多巴胺細(xì)胞的記錄。這些記錄記下了小鼠在一項(xiàng)任務(wù)中表現(xiàn)出的學(xué)習(xí)能力,在任務(wù)中,它們獲得了意料之外的大量的獎(jiǎng)勵(lì)(如圖4 的彩圖所示):圖4:在該任務(wù)中,小鼠被給予隨機(jī)確定、容積可變的水獎(jiǎng)勵(lì),容積從0.1ul到20ul不等(獎(jiǎng)勵(lì)大小由擲骰子決定):(A)經(jīng)典TD 模型下模擬的多巴胺細(xì)胞對(duì)7種不同獎(jiǎng)勵(lì)大小的反應(yīng);(B)分布式TD 模型下,每一行點(diǎn)對(duì)應(yīng)著一個(gè)多巴胺細(xì)胞,每一種顏色對(duì)應(yīng)著不同的獎(jiǎng)勵(lì)大小,顏色曲線表示數(shù)據(jù)的樣條插值。一個(gè)細(xì)胞的“反轉(zhuǎn)點(diǎn)”(細(xì)胞的獎(jiǎng)勵(lì)預(yù)測(cè)誤差、放電率在0值處相交)就是特定細(xì)胞將獎(jiǎng)勵(lì)“調(diào)”到的預(yù)期獎(jiǎng)勵(lì),例如,由于獎(jiǎng)勵(lì)大小達(dá)到了細(xì)胞的期望,所以它的放電率與它的基線率相比不多也不少;(C)實(shí)際多巴胺細(xì)胞對(duì)其中不同獎(jiǎng)勵(lì)大小的反應(yīng),與分布式TD模型的預(yù)測(cè)非常接近。插圖展示了三個(gè)對(duì)正向和負(fù)向的獎(jiǎng)勵(lì)預(yù)測(cè)誤差有不同的相對(duì)縮放比例的示例細(xì)胞。研究者評(píng)估了多巴胺神經(jīng)元的活動(dòng)是與「標(biāo)準(zhǔn)的時(shí)間差分」還是與「分布式時(shí)間差分」更加一致。如上所描述的,分布式時(shí)間差分依賴于一組不同的獎(jiǎng)勵(lì)預(yù)測(cè)。因此,研究首要的問(wèn)題便是,是否能夠在神經(jīng)數(shù)據(jù)中找到這些真實(shí)多樣的獎(jiǎng)勵(lì)預(yù)測(cè)。在此前的工作中,研究者了解到多巴胺細(xì)胞會(huì)改變它們的放電率,來(lái)暗示出現(xiàn)了預(yù)測(cè)誤差,也就是說(shuō),當(dāng)動(dòng)物獲得了比它們的預(yù)期更多或更少的獎(jiǎng)勵(lì),就是發(fā)生了預(yù)測(cè)誤差。而當(dāng)細(xì)胞獲得了與它的預(yù)測(cè)恰好相等的獎(jiǎng)勵(lì),預(yù)測(cè)誤差就為 0 ,從而其放電率也不會(huì)發(fā)生任何變化。研究者為每個(gè)多巴胺細(xì)胞決定好不會(huì)改變它的基線放電率的獎(jiǎng)勵(lì)大小,對(duì)此研究者稱之為細(xì)胞的“反轉(zhuǎn)點(diǎn)”。他們希望能夠了解到,細(xì)胞與細(xì)胞之間的“反轉(zhuǎn)點(diǎn)”是否不同。在圖4c中,作者展示了細(xì)胞之間的顯著差異,一些細(xì)胞預(yù)測(cè)的獎(jiǎng)勵(lì)非常大,而另一些細(xì)胞預(yù)測(cè)的獎(jiǎng)勵(lì)卻非常小。這些差異超出了預(yù)期從記錄中原有的隨機(jī)變異性,所看到的差異程度。在分布式時(shí)間差分中,獎(jiǎng)勵(lì)預(yù)測(cè)中的這些差異源自于正向或負(fù)向的獎(jiǎng)勵(lì)預(yù)測(cè)誤差的選擇性放大。放大正向的獎(jiǎng)勵(lì)預(yù)測(cè)誤差,會(huì)造成學(xué)習(xí)的獎(jiǎng)勵(lì)預(yù)測(cè)更樂(lè)觀;而放大負(fù)向的獎(jiǎng)勵(lì)預(yù)測(cè)誤差,則會(huì)帶來(lái)悲觀的獎(jiǎng)勵(lì)預(yù)測(cè)。所以研究者接下來(lái)測(cè)量了不同多巴胺細(xì)胞表現(xiàn)的不同正向和負(fù)向預(yù)測(cè)的相對(duì)放大程度。在細(xì)胞間,研究者發(fā)現(xiàn)了可靠然而卻無(wú)法用噪聲來(lái)解釋的多樣性。并且最關(guān)鍵的是,研究者發(fā)現(xiàn),放大了正向獎(jiǎng)勵(lì)預(yù)測(cè)誤差的相同的細(xì)胞,也有更高的反轉(zhuǎn)點(diǎn)(圖4c,右下角圖),也就是說(shuō),它們顯然將反轉(zhuǎn)點(diǎn)調(diào)整到了更高獎(jiǎng)勵(lì)量的預(yù)期。最后,分布式時(shí)間差分理論預(yù)測(cè)出,細(xì)胞之間不同的“反轉(zhuǎn)點(diǎn)”、不同的不對(duì)稱性應(yīng)該一起對(duì)學(xué)到的獎(jiǎng)勵(lì)分布編碼。所以最后一個(gè)問(wèn)題就是,是否能夠基于多巴胺細(xì)胞的放電率對(duì)獎(jiǎng)勵(lì)分布解碼。圖5:多巴胺細(xì)胞作為一個(gè)群體,對(duì)學(xué)到的獎(jiǎng)勵(lì)分布的形狀進(jìn)行編碼:可以給予放電率對(duì)獎(jiǎng)勵(lì)分布編碼,灰色的陰影區(qū)域是任務(wù)中遇到的真實(shí)的獎(jiǎng)勵(lì)分布。每條淺藍(lán)色的軌跡都顯示了執(zhí)行解碼過(guò)程的示例。深藍(lán)色表示的是淺藍(lán)色軌跡平均超出灰色區(qū)域的部分。如圖5 所示,研究者發(fā)現(xiàn)僅使用多巴胺細(xì)胞的放電率,完全有可能重構(gòu)一個(gè)獎(jiǎng)勵(lì)分布(藍(lán)色軌跡),這與小鼠參與任務(wù)中的實(shí)際獎(jiǎng)勵(lì)分布(灰色區(qū)域)非常接近。 這一重構(gòu)依賴于將多巴胺細(xì)胞的放電率解譯為分布時(shí)間差分模型分布的獎(jiǎng)勵(lì)預(yù)測(cè)誤差并進(jìn)行推理以確定模型已經(jīng)了解的分布。總結(jié)來(lái)說(shuō),研究者發(fā)現(xiàn)大腦中的每個(gè)多巴胺神經(jīng)元都被調(diào)到了不同的積極或消極程度。要是它們是一個(gè)唱詩(shī)班,它們唱的并不是一個(gè)音符,而是在唱和聲,它們都像低音或女高音歌手一樣,有著各自始終如一的聲帶。在人工強(qiáng)化學(xué)習(xí)系統(tǒng)中,這種多樣的調(diào)整,創(chuàng)造了更加豐富的訓(xùn)練信號(hào),極大地加速了神經(jīng)網(wǎng)絡(luò)中的學(xué)習(xí)速度,研究者推斷大腦也會(huì)出于這種考量而去采用這種多樣的調(diào)整方式。 大腦中現(xiàn)存的分布式強(qiáng)化學(xué)習(xí),對(duì)AI 和神經(jīng)科學(xué)都有著非常有意思的影響。首先,這一發(fā)現(xiàn)驗(yàn)證了分布式強(qiáng)化學(xué)習(xí),讓我們更加堅(jiān)信:AI 研究正走在正確的軌跡上,因?yàn)榉植际綇?qiáng)化學(xué)習(xí)算法已經(jīng)應(yīng)用于我們認(rèn)為最智能的實(shí)體:大腦。 其次,它為神經(jīng)科學(xué)提出了新問(wèn)題,并為理解心理健康和動(dòng)機(jī)提供了新的視角。如果一個(gè)人的大腦有選擇性地“傾聽”樂(lè)觀或悲觀的多巴胺神經(jīng)元,會(huì)發(fā)生什么?這會(huì)引起沖動(dòng)或是抑郁的情緒?大腦的優(yōu)勢(shì)在于其強(qiáng)大的表示能力——所以,分布式學(xué)習(xí)到底是怎么形成的這種強(qiáng)大的表示能力的呢?當(dāng)動(dòng)物學(xué)習(xí)了獎(jiǎng)勵(lì)分布,又是如何在其下游使用這種表示?多巴胺細(xì)胞之間的各種正向表示,與大腦中已知的其他多樣性形式又有何關(guān)系呢?這些都有待進(jìn)一步去探索。我們希望能有更多的研究人員去提出并回答類似這樣的問(wèn)題,從而來(lái)推動(dòng)神經(jīng)科學(xué)的進(jìn)步,并反過(guò)來(lái)讓 AI 研究受益,形成一個(gè)良性的閉環(huán)!via https://deepmind.com/blog/article/Dopamine-and-temporal-difference-learning-A-fruitful-relationship-between-neuroscience-and-AI參考:https://www.nature.com/articles/s41586-019-1924-6來(lái)源:AI科技評(píng)論、網(wǎng)絡(luò)
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。