国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
下一代AlphaGo問(wèn)世:數(shù)十款游戲全面碾壓 裸考也能拿滿分

Google 母公司 Alphabet 旗下的 DeepMind,在這一個(gè)月里大動(dòng)作頻出。

先是在月初推出了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè) AI——AlphaFold 2,這個(gè) AI 在 CASP 競(jìng)賽中拔得頭籌,解決了困擾了學(xué)界 50 年的難題:生物學(xué)家 Andrei Lupas 本人花了十年時(shí)間,用盡各種實(shí)驗(yàn)方法也沒(méi)能弄清楚一種蛋白質(zhì)折疊后的形狀,但借助 AlphaFold 2 后,他在半個(gè)小時(shí)內(nèi)就得到了答案。

接著,在月底,DeepMind 在《自然》雜志上發(fā)布論文介紹“進(jìn)階版 AlphaGo”——MuZero。簡(jiǎn)單來(lái)說(shuō),MuZero 更“通用”了,它精通國(guó)際象棋、圍棋、將棋,還能在數(shù)十款 Atari 游戲上全面超越過(guò)去的 AI 算法和人類。

但更具革命意義的是,MuZero 不像它的前輩們,它在下棋和游戲前完全不知道游戲規(guī)則,完全是通過(guò)自己的試驗(yàn)和摸索,洞悉棋局和游戲的規(guī)則,形成自己的決策。換句話說(shuō),AI 會(huì)自己“動(dòng)腦子”了。

MuZero 就像是 Netflix 熱劇《女王的棋局》里的貝絲 · 哈蒙,在完全不知國(guó)際象棋規(guī)則的情況下,憑借幾次觀察就把棋盤“畫”在自己的心里,并通過(guò)不斷復(fù)盤棋局強(qiáng)化自己的直覺(jué),最終所向披靡。

不知道規(guī)則,怎么贏棋?

2016 年,AlphaGo 橫空出世,以 4:1 擊敗韓國(guó)頂級(jí)棋手李世乭,并在 2017 年的烏鎮(zhèn)圍棋峰會(huì)上擊敗了世界第一棋手柯潔。中國(guó)圍棋協(xié)會(huì)甚至當(dāng)即授予 AlphaGo 職業(yè)圍棋九段的稱號(hào)。

AlphaGo 依賴的還是 DeepMind 輸入的專家棋法數(shù)據(jù)集,然后它的繼任者 AlphaGo Zero 開始擺脫對(duì)“人類數(shù)據(jù)”的依賴,開始通過(guò)多次自我對(duì)弈積累所需數(shù)據(jù)。2018 年底問(wèn)世的 AlphaZero 更是在前兩者的基礎(chǔ)上迭代,除了圍棋,它還學(xué)會(huì)了將棋和國(guó)際象棋。讓人嘆為觀止的是,從第一次見(jiàn)到棋盤,到成為世界級(jí)棋類大師,AlphaZero 只用了 24 小時(shí)。

“但你不能像下棋一樣,只顧著往前看。你必須學(xué)習(xí)這個(gè)世界如何運(yùn)作?!盌eepMind 的首席研究科學(xué)家 David Silver 告訴《連線》,按照這個(gè)思路,他們決定不提前告訴 AI 該怎么贏了,“這是我們第一次打造這種系統(tǒng)”。

上面提到的“Alpha”家族,最早需要“人類數(shù)據(jù)”、“領(lǐng)域知識(shí)”和“游戲規(guī)則”,至少也還需依賴“游戲規(guī)則”。而剛面世的 MuZero 則沒(méi)有這些知識(shí)儲(chǔ)備,就像是下棋被蒙著眼,玩游戲背著手。


“Alpha”家族至少也還需依賴“游戲規(guī)則”,而剛面世的 MuZero 則沒(méi)有任何知識(shí)儲(chǔ)備

既然 MuZero 連怎么贏棋都不知道,那它又是如何學(xué)習(xí)世界運(yùn)作原理的呢?先以 AlphaZero 為例,由于它已經(jīng)知曉棋局的規(guī)則,所以它知道一個(gè)動(dòng)作后的下一個(gè)棋步是什么樣的,運(yùn)用深度學(xué)習(xí)中的“蒙特卡洛樹搜索”(MCTS)就能評(píng)估不同的下棋可能性,并從中選出最優(yōu)的動(dòng)作。在這個(gè)過(guò)程中,AlphaZero 只需要利用“預(yù)測(cè)網(wǎng)絡(luò)”這一神經(jīng)網(wǎng)絡(luò)。

而 MuZero 不知道現(xiàn)有的規(guī)則,那么只能從零開始構(gòu)建一個(gè)內(nèi)部模型,形成自己對(duì)棋局的理解。

首先,MuZero 會(huì)利用“表征網(wǎng)絡(luò)”將自己觀察到的棋步收集起來(lái),轉(zhuǎn)化為專屬于自己的知識(shí);

接著,利用“預(yù)測(cè)網(wǎng)絡(luò)”形成策略(即最好的“下一步”是什么),判斷價(jià)值(即當(dāng)前決策“有多好”);

最后,借助“動(dòng)態(tài)網(wǎng)絡(luò)”判斷“上一步有多好”,回收此前做出的最佳棋步,不斷完善自己的內(nèi)部模型。

也就是說(shuō),MuZero 并沒(méi)有具體的“行事準(zhǔn)則”,它就像是一個(gè)小孩,在有了一定思考能力的基礎(chǔ)上,正在不斷完善自己的行事準(zhǔn)則。在此之前,“AlphaGo”雖能輕松擊敗人類,但也只限于圍棋等專精領(lǐng)域,卻無(wú)法“觸類旁通”,每遇到新的游戲都需要更改框架,重新學(xué)習(xí)。而掌握了“思考方式”的 MuZero 顯然能做得更多了,也就是,更通用了。

“知道雨傘能讓人不被淋濕,比能對(duì)雨滴建模更有用。”DeepMind 用這句話表示,對(duì) AI 來(lái)說(shuō),它們會(huì)的本領(lǐng)看起來(lái)越笨,越有實(shí)際意義。

在游戲方面,以研究 AI 打撲克出名的 FAIR 研究科學(xué)家 Noam Brown 這樣評(píng)價(jià) MuZero:“當(dāng)前人們對(duì)游戲 AI 的主要批評(píng)是模型不能對(duì)現(xiàn)實(shí)世界中相互作用進(jìn)行準(zhǔn)確建模。MuZero 優(yōu)雅而令人信服地克服了這個(gè)問(wèn)題(適用于完美信息游戲)。我認(rèn)為,這是可以與 AlphaGo 和 AlphaZero 相提并論的重大突破!”

這個(gè)會(huì)思考的 AI,能做什么?

DeepMind 研究表示,MuZero 在不具備任何底層動(dòng)態(tài)知識(shí)的情況下,通過(guò)結(jié)合 MCTS 和學(xué)得模型,在各種棋類種的精確規(guī)劃任務(wù)中可以匹敵 AlphaZero,甚至超過(guò)了提前得知規(guī)則的圍棋版 AlphaZero。

在實(shí)驗(yàn)中,只要為 MuZero 延長(zhǎng)每次行為的時(shí)間,它的表現(xiàn)就會(huì)變得更好。隨著將每次行動(dòng)的時(shí)間從十分之一秒增加到 50 秒,MuZero 的能力會(huì)增加 1000 Elo(衡量玩家的相對(duì)技能),這基本相當(dāng)于熟練的業(yè)余玩家和最強(qiáng)的職業(yè)玩家之間的區(qū)別。

開始自我思考的 MuZero 就像人一樣?,F(xiàn)實(shí)世界混沌、復(fù)雜,人們也沒(méi)有具體的行事手冊(cè),只能摸著石頭過(guò)河,慢慢形成自己的規(guī)劃能力,進(jìn)而制定下一步該怎么做的策略。

那么,MuZero 能做什么?

《連線》記者提到了在生化界做了件“大實(shí)事”的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè) AI,接著問(wèn)起了 MuZero 的實(shí)用價(jià)值。David Silver 表示,MuZero 已經(jīng)投入實(shí)際使用,用于尋找一種新的視頻編碼方式,從而完成視頻壓縮。考慮到大量不同的視頻格式和眾多的壓縮模式,能節(jié)省 5% 的比特已經(jīng)是極具挑戰(zhàn)的任務(wù)?!盎ヂ?lián)網(wǎng)上的數(shù)據(jù)大部分是視頻,那么如果可以更有效地壓縮視頻,則可以節(jié)省大量資金。”由于 Google 擁有世界上最大的視頻共享平臺(tái) YouTube,因此他們很可能將 MuZero 其應(yīng)用到該平臺(tái)上。

David Silver 想得更遠(yuǎn),“一個(gè)真正強(qiáng)大的系統(tǒng),它能看到所有你看到的東西,它有和你一樣的感官,它能夠幫助你實(shí)現(xiàn)目標(biāo)。另外一個(gè)變革性的,從長(zhǎng)遠(yuǎn)來(lái)看,(MuZero 的『強(qiáng)化學(xué)習(xí)』思路)是可以提供個(gè)性化的醫(yī)療解決方案的東西。有一些隱私和倫理問(wèn)題必須解決,但它會(huì)有巨大的價(jià)值,它會(huì)改變醫(yī)學(xué)的面貌和人們的生活質(zhì)量?!?/p>

目前,“Alpha 家族”這種規(guī)劃算法也已經(jīng)在物流、化學(xué)合成等諸多現(xiàn)實(shí)世界領(lǐng)域中產(chǎn)生影響。然而,這些規(guī)劃算法都依賴于環(huán)境的動(dòng)態(tài)變化,如游戲規(guī)則或精確的模擬器,導(dǎo)致它們?cè)跈C(jī)器人學(xué)、工業(yè)控制、智能助理等領(lǐng)域中的應(yīng)用受到限制。

而不再“循規(guī)蹈矩”的 MuZero,先摸索規(guī)則、建立內(nèi)部模型再精通的思路,顯然具有更強(qiáng)的可塑性。會(huì)自己思考的 AI,離通用 AI 會(huì)更近一些。

我不想給它設(shè)定一個(gè)時(shí)間尺度,但我想說(shuō),人類能實(shí)現(xiàn)的一切,我最終認(rèn)為機(jī)器都能實(shí)現(xiàn)。大腦完成的只是一個(gè)計(jì)算過(guò)程,我不認(rèn)為那里有什么神奇的東西。”David Silver 對(duì)它的造物有足夠的自信。

如果說(shuō) AlphaGo 確立了 AI 的“圍棋霸權(quán)”,那懂得自己思考的 MuZero,可能會(huì)在更多領(lǐng)域確立“霸權(quán)”。

- THE END -

#AlphaGo

原文鏈接:極客公園責(zé)任編輯:隨心

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
DeepMind全能AI:完全自學(xué)規(guī)則,攻破多款游戲,表現(xiàn)碾壓人類!
Google DeepMind 團(tuán)隊(duì)發(fā)布新算法,下一個(gè)被 AI 虐哭的是誰(shuí)?
谷歌AlphaZero堪稱游戲大師,但與人類頭腦比起來(lái)孰高孰低?
觀點(diǎn) | 精通國(guó)際象棋的AI研究員:AlphaZero真的是一次突破嗎?
通用版AlphaGo登《Nature》!最強(qiáng)AI棋手,不懂規(guī)則也能精通游戲
“全能棋王”AlphaZero來(lái)了 人類會(huì)失業(yè)但不會(huì)滅亡
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服