杨幂原版视频,美女视频男,国产美女视频免费

AlphaZero降臨：8小時(shí)內(nèi)拿下圍棋、國(guó)際象棋、日本將棋！

2017.12.07

（《麻省理工科技評(píng)論》中英文版APP現(xiàn)已上線，年度訂閱用戶每周直播科技英語(yǔ)講堂，還有科技英語(yǔ)學(xué)習(xí)社區(qū)哦~）

自從DeepMind的AlphaGo在圍棋賽場(chǎng)上一戰(zhàn)成名之后，人類對(duì)AI的恐懼就突然出現(xiàn)于世。但自那以后，這家Google旗下的人工智能公司并沒(méi)有停止前進(jìn)的腳步，又推出了實(shí)力更強(qiáng)的AlphaGo Zero，而他們的遠(yuǎn)期目標(biāo)是打造出通用的人工智能機(jī)器。雖然這一目標(biāo)尚顯遙遠(yuǎn)，但根據(jù)本周DeepMind科學(xué)家發(fā)表的最新的論文來(lái)看，他們已經(jīng)走在了正確的道路上。

※ 論文地址：https://arxiv.org/pdf/1712.01815.pdf

在這篇論文中，DeepMind詳細(xì)描述了AlphaGo Zero的“繼承者”—— AlphaZero（注：之前刷屏的是 AlphaGo Zero，它做到的是不依賴任何人類知識(shí)，3天超越李世乭版本）。AlphaZero 首先經(jīng)過(guò) 8 個(gè)小時(shí)的對(duì)世界頂級(jí)圍棋棋譜的學(xué)習(xí)，就成功擊敗了與李世石對(duì)戰(zhàn)的 AlphaGo v18；又經(jīng)過(guò)了 4 個(gè)小時(shí)的訓(xùn)練，它又擊敗了世界頂級(jí)的國(guó)際象棋程序——Stockfish；緊接著，又是2個(gè)小時(shí)的訓(xùn)練之后，世界上最強(qiáng)的日本將棋程序Elmo又?jǐn)≡诹怂氖窒隆?/p>

看出來(lái)了嗎？AlphaZero 或許已經(jīng)有了些許邁向棋類通用 AI 的跡象！和AlphaGo Zero相比，AlphaZero的主要變化在于：

1、AlphaGo Zero優(yōu)化時(shí)假定兩種結(jié)果：輸、贏。AlphaZero則有三種：輸、贏、僵持。圍棋每一步都可以有一個(gè)輸贏，即誰(shuí)的數(shù)量多，但是其他的很多棋在中間是沒(méi)有輸贏的，所以這樣的設(shè)計(jì)使得AlphaZero從圍棋跨向棋類領(lǐng)域。

2、AlphaZero能適應(yīng)更為復(fù)雜的規(guī)則。圍棋規(guī)則相對(duì)簡(jiǎn)單，規(guī)則具有旋轉(zhuǎn)和反射不變形和對(duì)稱性，所以AlphaZero的算法適應(yīng)了將棋的規(guī)則意味著對(duì)于這樣規(guī)則多變復(fù)雜的棋類的有效性。

3、在所有棋類中使用相同的超參數(shù)，這是泛化的表現(xiàn)，期間不需要針對(duì)特定棋做改變。

4、AlphaGo Zero的最優(yōu)策略由之前所有迭代的最佳選手生成。在每一輪的迭代中，新玩家都將和最佳選手比較。如果新玩家以55%的差距獲勝，那么他就會(huì)取代最選選手。而 AlphaZero 只保留一個(gè)網(wǎng)絡(luò)，并持續(xù)更新，而不必等待一個(gè)迭代結(jié)束，self-game的結(jié)果由這個(gè)網(wǎng)絡(luò)的最終參數(shù)生成。這就省去了ZeroGo中每一步的評(píng)估和對(duì)最佳選手的選擇。

從中我們也可以發(fā)現(xiàn)，AlphaZero 并不是針對(duì)某一種棋類被專門(mén)開(kāi)發(fā)出來(lái)的，在不同的棋類游戲中，它只是被傳授一些基本的規(guī)則，但類似于更高級(jí)別的戰(zhàn)略策略則完全沒(méi)有，只憑借人工智能自己反復(fù)的從訓(xùn)練和實(shí)戰(zhàn)中獲得，而這種訓(xùn)練方法就是我們熟知的“強(qiáng)化學(xué)習(xí)”（reinforcement learning）。

圖丨強(qiáng)化學(xué)習(xí)入選《麻省理工科技評(píng)論》10大突破技術(shù)

使用強(qiáng)化學(xué)習(xí)這項(xiàng)技術(shù)并不是新鮮事，今年10月DeepMind的工程師過(guò)去也是使用相同的方法來(lái)打造AlphaGo Zero，不過(guò)，值得注意的是，新的AlphaZero是同一套軟件下“更通用的版本”，代表可以應(yīng)用于更廣泛的任務(wù)，而且不需要預(yù)先準(zhǔn)備好。在不到24小時(shí)，同一個(gè)電腦程式就可以教會(huì)自己玩三種復(fù)雜的棋盤(pán)游戲，而且是超越人類的水平，這無(wú)疑是AI世界的新創(chuàng)舉。

在這次研究中，研究團(tuán)隊(duì)使用了5000個(gè)一代TPU來(lái)生成自我對(duì)弈棋譜，用另外64個(gè)二代TPU來(lái)進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練。而在此前AlphaGo Zero的神經(jīng)網(wǎng)絡(luò)訓(xùn)練中使用的則是GPU。DeepMind 的目標(biāo)一直是打造通用的AI機(jī)器，這項(xiàng)任務(wù)代表DeepMind又往目標(biāo)邁進(jìn)了一步，但是挑戰(zhàn)仍在前方，DeepMind CEO Demis Hassabis在今年初展示AlphaGo Zero時(shí)，他就希望未來(lái)的版本能夠幫助解決科學(xué)問(wèn)題，像是設(shè)計(jì)新藥、發(fā)現(xiàn)新材料等。但是這些問(wèn)題與玩棋盤(pán)游戲在根本上有很大的差異，還有許多問(wèn)題得被解決才能找出正確的算法。

大概總結(jié)一下人類開(kāi)發(fā)棋類AI 的思路，那就是：精心設(shè)計(jì)特征，調(diào)整參數(shù)，依賴強(qiáng)大的搜索算法——學(xué)習(xí)人類的全部經(jīng)驗(yàn)——不學(xué)習(xí)人類的經(jīng)驗(yàn)，自己學(xué)習(xí)——自己在一個(gè)廣泛的領(lǐng)域?qū)W習(xí)。不過(guò)，現(xiàn)在可以肯定的是，人工智能不再只是會(huì)下棋而已。至于對(duì)普通人類來(lái)說(shuō)，我們只能說(shuō)，DeepMind 論文可以不用發(fā)太快，上次的還沒(méi)消化完！

以下為論文摘要部分，僅供各位參考：

在計(jì)算機(jī)科學(xué)剛誕生的時(shí)候，巴貝奇、圖靈、香農(nóng)和馮諾依曼這些先驅(qū)們就開(kāi)始從硬件、算法和理論的角度研究國(guó)際象棋。從那時(shí)起，國(guó)際象棋就成了人工智能領(lǐng)域的重大挑戰(zhàn)。雖然最終人們讓程序在國(guó)際象棋棋盤(pán)上戰(zhàn)勝了人類，但是相關(guān)的算法并不通用：判斷每一步行棋優(yōu)劣的評(píng)分算法由國(guó)際象棋專家手動(dòng)調(diào)整定制，因此很難擴(kuò)展到其他應(yīng)用場(chǎng)景中。

相對(duì)國(guó)際象棋來(lái)說(shuō)，源自日本的將棋遠(yuǎn)更復(fù)雜。首先，它的棋盤(pán)更大；其次，棋子被吃后會(huì)換邊，并出現(xiàn)在棋盤(pán)的任何地方。直到最近，代表將棋程序最高水平的Elmo才打敗了人類冠軍棋手。將棋程序和之前的國(guó)際象棋類似，需要根據(jù)自身特點(diǎn)高度優(yōu)化的alpha-beta搜索引擎，并根據(jù)將棋自身的特性進(jìn)行很多修改。AlphaGo的神經(jīng)網(wǎng)絡(luò)架構(gòu)更適合圍棋。因?yàn)閲宓囊?guī)則變化較少。而象棋和將棋的規(guī)則變化較多，很多規(guī)則還要基于棋盤(pán)上的具體位置。例如象棋中的“兵”在第一步的時(shí)候可以前進(jìn)一格或兩格，并在到達(dá)對(duì)方底線后升棋（即兵可以升級(jí)為車(chē)、馬、象或后）。

相對(duì)于用來(lái)下圍棋的AlphaGo Zero，AlphaZero的算法通用性更強(qiáng)。它去掉了一些需要手工調(diào)整的專業(yè)棋類知識(shí)，并用可以從頭進(jìn)行增強(qiáng)學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)取而代之。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開(kāi)APP，閱讀全文并永久保存查看更多類似文章

完爆阿爾法狗元，DeepMind用5000臺(tái)TPU訓(xùn)練出新算法，1天內(nèi)稱霸3種棋類

秒殺其它人工智能的谷歌AI——阿爾法元橫空出世

谷歌AlphaZero堪稱游戲大師，但與人類頭腦比起來(lái)孰高孰低？

解讀AlphaZero：一種人類從未見(jiàn)過(guò)的智慧

AlphaZero 進(jìn)化論：從零開(kāi)始，制霸所有棋類游戲

史上最強(qiáng)棋類AI降臨：谷歌公布AlphaGo升級(jí)版

更多類似文章 >>

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看