国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
AlphaZero降臨:8小時(shí)內(nèi)拿下圍棋、國(guó)際象棋、日本將棋!

(《麻省理工科技評(píng)論》中英文版APP現(xiàn)已上線,年度訂閱用戶每周直播科技英語(yǔ)講堂,還有科技英語(yǔ)學(xué)習(xí)社區(qū)哦~)

自從DeepMind的AlphaGo在圍棋賽場(chǎng)上一戰(zhàn)成名之后,人類對(duì)AI的恐懼就突然出現(xiàn)于世。但自那以后,這家Google旗下的人工智能公司并沒(méi)有停止前進(jìn)的腳步,又推出了實(shí)力更強(qiáng)的AlphaGo Zero,而他們的遠(yuǎn)期目標(biāo)是打造出通用的人工智能機(jī)器。雖然這一目標(biāo)尚顯遙遠(yuǎn),但根據(jù)本周DeepMind科學(xué)家發(fā)表的最新的論文來(lái)看,他們已經(jīng)走在了正確的道路上。

※ 論文地址:https://arxiv.org/pdf/1712.01815.pdf

在這篇論文中,DeepMind詳細(xì)描述了AlphaGo Zero的“繼承者”—— AlphaZero(注:之前刷屏的是 AlphaGo Zero,它做到的是不依賴任何人類知識(shí),3天超越李世乭版本)。AlphaZero 首先經(jīng)過(guò) 8 個(gè)小時(shí)的對(duì)世界頂級(jí)圍棋棋譜的學(xué)習(xí),就成功擊敗了與李世石對(duì)戰(zhàn)的 AlphaGo v18;又經(jīng)過(guò)了 4 個(gè)小時(shí)的訓(xùn)練,它又擊敗了世界頂級(jí)的國(guó)際象棋程序——Stockfish;緊接著,又是2個(gè)小時(shí)的訓(xùn)練之后,世界上最強(qiáng)的日本將棋程序Elmo又?jǐn)≡诹怂氖窒隆?/p>

看出來(lái)了嗎?AlphaZero 或許已經(jīng)有了些許邁向棋類通用 AI 的跡象!和AlphaGo Zero相比,AlphaZero的主要變化在于:

1、AlphaGo Zero優(yōu)化時(shí)假定兩種結(jié)果:輸、贏。AlphaZero則有三種:輸、贏、 僵持 。圍棋每一步都可以有一個(gè)輸贏,即誰(shuí)的數(shù)量多,但是其他的很多棋在中間是沒(méi)有輸贏的,所以這樣的設(shè)計(jì)使得AlphaZero從圍棋跨向棋類領(lǐng)域。

2、AlphaZero能適應(yīng)更為復(fù)雜的規(guī)則。圍棋規(guī)則相對(duì)簡(jiǎn)單,規(guī)則具有旋轉(zhuǎn)和反射不變形和對(duì)稱性,所以AlphaZero的算法適應(yīng)了將棋的規(guī)則意味著對(duì)于這樣規(guī)則多變復(fù)雜的棋類的有效性。

3、在所有棋類中使用相同的超參數(shù),這是泛化的表現(xiàn),期間不需要針對(duì)特定棋做改變。

4、AlphaGo Zero的最優(yōu)策略由之前所有迭代的最佳選手生成。在每一輪的迭代中,新玩家都將和最佳選手比較。如果新玩家以55%的差距獲勝,那么他就會(huì)取代最選選手。而 AlphaZero 只保留一個(gè)網(wǎng)絡(luò),并持續(xù)更新,而不必等待一個(gè)迭代結(jié)束,self-game的結(jié)果由這個(gè)網(wǎng)絡(luò)的最終參數(shù)生成。這就省去了ZeroGo中每一步的評(píng)估和對(duì)最佳選手的選擇。

從中我們也可以發(fā)現(xiàn),AlphaZero 并不是針對(duì)某一種棋類被專門(mén)開(kāi)發(fā)出來(lái)的,在不同的棋類游戲中,它只是被傳授一些基本的規(guī)則,但類似于更高級(jí)別的戰(zhàn)略策略則完全沒(méi)有,只憑借人工智能自己反復(fù)的從訓(xùn)練和實(shí)戰(zhàn)中獲得,而這種訓(xùn)練方法就是我們熟知的“強(qiáng)化學(xué)習(xí)”(reinforcement learning)。

圖丨強(qiáng)化學(xué)習(xí)入選《麻省理工科技評(píng)論》10大突破技術(shù)

使用強(qiáng)化學(xué)習(xí)這項(xiàng)技術(shù)并不是新鮮事,今年10月DeepMind的工程師過(guò)去也是使用相同的方法來(lái)打造AlphaGo Zero,不過(guò),值得注意的是,新的AlphaZero是同一套軟件下“更通用的版本”,代表可以應(yīng)用于更廣泛的任務(wù),而且不需要預(yù)先準(zhǔn)備好。在不到24小時(shí),同一個(gè)電腦程式就可以教會(huì)自己玩三種復(fù)雜的棋盤(pán)游戲,而且是超越人類的水平,這無(wú)疑是AI世界的新創(chuàng)舉。

在這次研究中,研究團(tuán)隊(duì)使用了5000個(gè)一代TPU來(lái)生成自我對(duì)弈棋譜,用另外64個(gè)二代TPU來(lái)進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練。而在此前AlphaGo Zero的神經(jīng)網(wǎng)絡(luò)訓(xùn)練中使用的則是GPU。DeepMind 的目標(biāo)一直是打造通用的AI機(jī)器,這項(xiàng)任務(wù)代表DeepMind又往目標(biāo)邁進(jìn)了一步,但是挑戰(zhàn)仍在前方,DeepMind CEO Demis Hassabis在今年初展示AlphaGo Zero時(shí),他就希望未來(lái)的版本能夠幫助解決科學(xué)問(wèn)題,像是設(shè)計(jì)新藥、發(fā)現(xiàn)新材料等。但是這些問(wèn)題與玩棋盤(pán)游戲在根本上有很大的差異,還有許多問(wèn)題得被解決才能找出正確的算法。

大概總結(jié)一下人類開(kāi)發(fā)棋類AI 的思路,那就是:精心設(shè)計(jì)特征,調(diào)整參數(shù),依賴強(qiáng)大的搜索算法——學(xué)習(xí)人類的全部經(jīng)驗(yàn)——不學(xué)習(xí)人類的經(jīng)驗(yàn),自己學(xué)習(xí)——自己在一個(gè)廣泛的領(lǐng)域?qū)W習(xí)。不過(guò),現(xiàn)在可以肯定的是,人工智能不再只是會(huì)下棋而已。至于對(duì)普通人類來(lái)說(shuō),我們只能說(shuō),DeepMind 論文可以不用發(fā)太快,上次的還沒(méi)消化完!

以下為論文摘要部分,僅供各位參考:

在計(jì)算機(jī)科學(xué)剛誕生的時(shí)候,巴貝奇、圖靈、香農(nóng)和馮諾依曼這些先驅(qū)們就開(kāi)始從硬件、算法和理論的角度研究國(guó)際象棋。從那時(shí)起,國(guó)際象棋就成了人工智能領(lǐng)域的重大挑戰(zhàn)。雖然最終人們讓程序在國(guó)際象棋棋盤(pán)上戰(zhàn)勝了人類,但是相關(guān)的算法并不通用:判斷每一步行棋優(yōu)劣的評(píng)分算法由國(guó)際象棋專家手動(dòng)調(diào)整定制,因此很難擴(kuò)展到其他應(yīng)用場(chǎng)景中。

相對(duì)國(guó)際象棋來(lái)說(shuō),源自日本的將棋遠(yuǎn)更復(fù)雜。首先,它的棋盤(pán)更大;其次,棋子被吃后會(huì)換邊,并出現(xiàn)在棋盤(pán)的任何地方。直到最近,代表將棋程序最高水平的Elmo才打敗了人類冠軍棋手。將棋程序和之前的國(guó)際象棋類似,需要根據(jù)自身特點(diǎn)高度優(yōu)化的alpha-beta搜索引擎,并根據(jù)將棋自身的特性進(jìn)行很多修改。AlphaGo的神經(jīng)網(wǎng)絡(luò)架構(gòu)更適合圍棋。因?yàn)閲宓囊?guī)則變化較少。而象棋和將棋的規(guī)則變化較多,很多規(guī)則還要基于棋盤(pán)上的具體位置。例如象棋中的“兵”在第一步的時(shí)候可以前進(jìn)一格或兩格,并在到達(dá)對(duì)方底線后升棋(即兵可以升級(jí)為車(chē)、馬、象或后)。

相對(duì)于用來(lái)下圍棋的AlphaGo Zero,AlphaZero的算法通用性更強(qiáng)。它去掉了一些需要手工調(diào)整的專業(yè)棋類知識(shí),并用可以從頭進(jìn)行增強(qiáng)學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)取而代之。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
完爆阿爾法狗元,DeepMind用5000臺(tái)TPU訓(xùn)練出新算法,1天內(nèi)稱霸3種棋類
秒殺其它人工智能的谷歌AI——阿爾法元橫空出世
谷歌AlphaZero堪稱游戲大師,但與人類頭腦比起來(lái)孰高孰低?
解讀AlphaZero:一種人類從未見(jiàn)過(guò)的智慧
AlphaZero 進(jìn)化論:從零開(kāi)始,制霸所有棋類游戲
史上最強(qiáng)棋類AI降臨:谷歌公布AlphaGo升級(jí)版
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服