【編者按】2015 年 AlphaGo 出道一年,就戰(zhàn)勝法國二段職業(yè)棋手樊麾,2016 年 3 月以 4:1 戰(zhàn)勝韓國國手李世石九段,3 月 14 日,韓國棋院表示 AlphaGo 實力不遜于李世石九段,授予 Alphago 韓國棋院名譽(yù)九段證書。AlphaGo 一戰(zhàn)成名,要知道,多少棋手宵衣旰食也到不了九段。同年 12 月,強(qiáng)化版 AlphaGo 化名“Master”,在非正式網(wǎng)絡(luò)快棋對戰(zhàn)測試當(dāng)中取得 60 戰(zhàn)全勝。2017 年 5 月,與中國棋手柯潔九段對戰(zhàn),全取三分,虐哭柯潔。而且由于此次使用 Google 的 TPU,使得計算資源只有對戰(zhàn)李世石時候的十分之一。要知道,柯潔可不是旁人,是當(dāng)時世界第一,年紀(jì)輕輕,已經(jīng)手握多項含金量高比賽的冠軍,代表人類最高水平的棋手都無能為力,可見 AlphaGo 真的不是尋常之輩。 賽后,中國圍棋協(xié)會也授予了 AlphaGo 職業(yè)圍棋九段的稱號,棋圣聶衛(wèi)平更是盛贊 AlphaGo 的水平相當(dāng)于職業(yè)圍棋二十段。賽后,DeepMInd 團(tuán)隊宣布 AlphaGo 退役,但相關(guān)研究不會停止。
DeepMind 團(tuán)隊為 AlphaGo 各個版本起了不同名字, 歷數(shù)幾代分別稱為 AlphaGo 樊、AlphaGo李、AlphaGo Master,后來還推出了 AlphaGo Zero 和 Alpha Zero 等版本, AlphaGo Zero 及此后版本沒有用到人類數(shù)據(jù),通過和自己對戰(zhàn),訓(xùn)練三天即可實現(xiàn)極高勝率。在那之后,AlphaGo 團(tuán)隊獨(dú)孤求敗,淡出江湖。
此后, DeepMind 在蛋白質(zhì)折疊等方面也做出 AlphaFold 等令人矚目的成就。
誰能想到,僅僅淡出了兩年,DeepMInd 團(tuán)隊帶著 AlphaGo 的后輩——— MuZero 新重出江湖。MuZero 通過自我比賽以及和 AlphaZero 進(jìn)行比賽,利用多項常規(guī)和殘局訓(xùn)練,實現(xiàn)了算法的升級突破。相關(guān)研究成果論文今年 12 月在國際頂級期刊 Nature 上發(fā)出(2019年,該文章在預(yù)印本平臺發(fā)布)。如果此前 AlphaGo 版本是靠著機(jī)器學(xué)習(xí)和算力的一力降十會的話,此次的新算法就是雙手互搏,無師自通,不光如此,MuZero 的 “魔爪”從圍棋伸向了各個領(lǐng)域,包括國際象棋、日本的將棋和 Atari 電子游戲。你冬練三九夏練三伏,別人一出世就自帶超強(qiáng)自學(xué)能力,而且人家全家輸?shù)拇螖?shù)屈指可數(shù),還都是輸給自己人,你說這比賽讓人怎么打?
平心而論,再早之前 “深藍(lán)”就已經(jīng)深深傷過棋手們的心,各類智力比賽和游戲當(dāng)中,圍棋可以說是難度非常高的了,本以為圍棋 324 格棋盤生出千萬般變化能夠守住人類的陣地,結(jié)果 AlphaGo 虐哭柯潔, Alpha Zero 還說 “我能自己學(xué)”,MuZero 說 “我能自己學(xué),還不需要規(guī)則”,就像 AI 世界里的葉問,一個馬步攤手,豪氣發(fā)問:“我要打十個,還有誰?”
如果這次真的有人能上來對陣三招五式的話,可能也只有 AI 本身能對抗 AI了。 或者像網(wǎng)友戲謔的那樣,“不讓他聯(lián)網(wǎng)”、“拔他電源”。。。。那么 MuZero 到底是哪路神仙呢? 我們一起來看一下:
從上圖可以看出,隨著技術(shù)的進(jìn)化,需要的知識庫(規(guī)則)逐漸減少,到 MuZero 直接沒有了,而應(yīng)用的領(lǐng)域卻逐漸增加, 從圍棋、將棋擴(kuò)展到 Atari 游戲。
文章表示,MuZero 和此前的 Alpha Zero 代碼相似,但是 MuZero 無法訪問規(guī)則集合,而是將該規(guī)則替換成了搜索樹狀態(tài)神經(jīng)網(wǎng)絡(luò),研究人員主要通過以下方法應(yīng)對 AI 的挑戰(zhàn),超前搜索和基于模型的計劃。超前搜索已經(jīng)在國際象棋、撲克等景點(diǎn)游戲當(dāng)中取得成功,但是依賴于游戲規(guī)則,這樣的話,對于復(fù)雜世界和混亂的現(xiàn)實問題就沒有辦法,因為它們無法提煉成簡化的規(guī)則;基于模型的系統(tǒng)旨在學(xué)習(xí)環(huán)境動力學(xué)的精確模型, 然后以此進(jìn)行規(guī)劃和學(xué)習(xí)。不過對于視覺豐富的環(huán)境當(dāng)中依然沒有競爭力。比如游戲 Atari 當(dāng)中,最好的結(jié)果其實來自于無模型系統(tǒng)。
MuZero 使用另外的方法來克服此前方法的局限性, 它不是對整個環(huán)境建模,而是對代理的決策環(huán)境或者關(guān)鍵方面進(jìn)行建模。DeepMInd 表示:畢竟,了解雨傘會使您保持干燥比對空氣中雨滴進(jìn)行建模更有用。
具體而言, MuZero 對三個元素進(jìn)行建模,分別是值、策略、獎勵。 分別衡量了:當(dāng)前位置好壞程度、最優(yōu)策略以及上一步好壞的衡量。 通過蒙特卡羅搜索樹,配合動力學(xué)函數(shù)和預(yù)測函數(shù),考慮下一步的動作序列,同時利用了和環(huán)境互動時候收集的經(jīng)驗來訓(xùn)練神經(jīng)網(wǎng)絡(luò),在每一步當(dāng)中保存之前的信息。這個似乎是一種無監(jiān)督學(xué)習(xí)內(nèi)的強(qiáng)化學(xué)習(xí)。其實它也不能說完全 “無規(guī)則”,它唯一的規(guī)則其實是我們在下棋當(dāng)中常說的“走一步、看三步”,不管是什么游戲,它都給自己一個這樣的規(guī)則。MuZero 就可以反復(fù)發(fā)使用學(xué)習(xí)的模型來改進(jìn)計劃,而不需要從環(huán)境當(dāng)中重新收集數(shù)據(jù)。
從項目主要開發(fā)者 Julian Schrittwieser 的博客當(dāng)中,我們還發(fā)現(xiàn)了一些有意思的內(nèi)容,為什么給它取名叫 MuZero 呢?
很大程度上來自于日語發(fā)音,開發(fā)者 Julian 覺得這個和日語夢、以及無 的發(fā)音相似;另外他認(rèn)為這個發(fā)音和希臘字母 μ 也很像。Zero 和此前一樣,表示沒有用到人類的數(shù)據(jù)。所以這個算法可以讀作“木Zero”、'繆Zero'~不過開發(fā)者自己的發(fā)音是“繆Zero”。
這位小哥也很有意思,來自奧地利,對各種語言都很感興趣,當(dāng)然也包括一些開發(fā)語言。而且努力學(xué)日語中~
如果你對 MuZero 感興趣, 不妨可以看看小哥博客里面推薦的文章 ,教你怎么利用 Python 搭建自己的 MuZero AI ,說不定也能用 AI 打敗誰(比如街邊下棋的大爺)。
從 AlphaGo 震驚圍棋江湖以來,越來越多的 “唯人能贏”的游戲開始被 AI 染指,如果此前《星際爭霸II》當(dāng)中戰(zhàn)勝人類選手還是算力的取勝,MuZero 雙掌互搏就能增長內(nèi)力、左腳踩右腳就能騰云這次真的是一次巨大的沖擊。
歡迎在AI技術(shù)粉絲群交流
下一個被 AI 虐哭的會是誰呢?
????
文章來源:https://blog.csdn.net/weixin_39787030/article/details/111871558