国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
機器下棋的歷史與啟示——從“深藍”到AlphaZero

機器下棋的歷史線索揭示:在棋類游戲中,囿于人類自身認知能力的局限,人類幾千年積累下來的經(jīng)驗較之于機器在短期內(nèi)所形成的“經(jīng)驗”已不占優(yōu)勢。在巨大的算力和不斷完善的算法的支撐下,借助于機器自身“經(jīng)驗”,機器可以做得比人類更好。未來,“放棄人類經(jīng)驗,依靠自身經(jīng)驗”的機器將有可能在更為復雜的領域取得突破性進展。

棋類游戲一直是人工智能所要攻克的領域。1947 年,圖靈(A. L.Turing)編寫了一個國際象棋的程序,但是由于計算機在當時是稀缺資源,使得這個程序沒有機會在計算機上運行。與此同時,信息理論的創(chuàng)始人香農(nóng)(C. E. Shannon)等提出了雙人對弈的最小最大算法(Minimax),并于 1950年發(fā)表了理論研究論文《Programming a computer for playing chess》(《計算機下棋程序》),首開理論研究機器下棋的先河。在文中,棋盤被定義為一個二維數(shù)組,每個棋子都被賦予一個子程序,用于對棋子可能走法的計算,當子程序計算出所有可能的走法后,就會得到一個評估函數(shù),用每個棋子的可能走法就可以形成一個博弈樹。對于一個完全信息的博弈系統(tǒng),如果能窮舉完整的博弈樹,那 Minimax算法就可以計算出最優(yōu)的策略。由于復雜游戲的博弈樹增長是指數(shù)形式的,因此要窮舉完整的博弈樹非常困難。約翰·麥卡錫(J. McCarth)提出了著名的α-β剪枝技術,對有效控制博弈樹的規(guī)模提供了依據(jù)。隨后,卡內(nèi)基梅隆大學的紐厄爾(A.Newell)、司馬賀(H. Simon)等很快在實戰(zhàn)中實現(xiàn)了這一技術。Minimax 算法必須在完成完整的博弈樹之后才能計算評估函數(shù),而α-β剪枝技術則是一邊畫博弈樹,一邊進行計算,一旦在計算過程中評估函數(shù)出現(xiàn)“溢出”,則自動停止對樹的進一步搜索,從而極大地減小了博弈樹的規(guī)模和實際的搜索空間。這一創(chuàng)新被看作是攻克棋類游戲的重要法寶,并且首先在國際象棋領域大獲成功。

“深藍”成功的秘訣

起初,由于機器下棋的水平遠達不到人類普通棋手,所以比賽一般都是在機器之間進行。1989年,卡內(nèi)基梅隆大學的團隊開發(fā)出的下棋機“深思”(Deep Thought),成為第 1 個國際象棋的計算機特級大師。此后這個團隊加入IBM,成為后來“深藍”(Deep Blue)的核心團隊。1997 年 5 月,在美國紐約舉行的一場六局的比賽中,“深藍”戰(zhàn)勝了卡斯帕羅夫,從而成為歷史上第1個戰(zhàn)勝人類國際象棋大師的下棋機。

與卡斯帕羅夫?qū)?zhàn)的“深藍”有2個操作臺,包括30臺計算機(路機),其中用到了480個定制的國際象棋芯片。因此,可以將“深藍”視為通過高速交換網(wǎng)絡連接的IBM RS/6000 處理器或工作站的集合。而IBM 開發(fā)的用于 RS/6000 的超能 2 芯片(P2SC)可以使 SP2 計算機以 130 MHz 的速度運行?!吧钏{”系統(tǒng)中的每個處理器最多可控制 16個國際象棋芯片,分布在 2個微信道卡上,每張卡上有 8 個國際象棋芯片,有超過 4000 個的處理器。這一系統(tǒng)每秒可以檢索 2×108個棋局,而且檢索的深度也有了進一步提高。因此,專用芯片所提供的強大算力為“暴力窮舉”算法的實現(xiàn)提供了基礎。加上豐富的象棋知識、殘局、改進的開局庫以及在特級大師的仔細檢驗下進行了1年的測試,最終版本的“深藍”棋力非常之強。

可以看出,“深藍”能戰(zhàn)勝國際象棋大師,主要是基于兩點:第一是豐富的國際象棋知識,尤其是對這些知識的深入理解;第二是巨大的算力。雖然剪枝算法以及軟件對殘局的搜索客觀上降低了搜索空間,但整體上依然屬于暴力窮舉。這種設計思路即使是在 20年后的圍棋下棋機AlphaGo中也仍然存在。

國際象棋之后,研究人員便把目標鎖定在圍棋上。國際象棋的搜索寬度大概是 30,搜索深度大概是 80,整個搜索空間大約為 1050;而圍棋的搜索寬度大概為250,搜索深度大概是150,搜索空間在10170以上,比宇宙中的粒子數(shù) 1080還多。由于搜索空間太大,只依賴評估函數(shù)和剪枝搜索算法在有限的時間內(nèi)無法完成對整個空間的搜索。因此,“深藍”所使用的暴力窮舉的搜索方法對于圍棋則完全失效。很長時間以來,人們認為圍棋是人工智能不可逾越的一道坎。人類為邁過“圍棋”這道坎,足足準備了20年。

AlphaGo 的進化之路

2016年 1月 26日,谷歌旗下的 DeepMind 團隊在《Nature》雜 志 發(fā) 表《Mastering the game of Go with deep neural networks and tree search》(《通過深度神經(jīng)網(wǎng)絡和樹搜索來征服圍棋》),從而揭開了圍棋人機大戰(zhàn)的歷史性一頁。該論文稱,在2015年10月5—9日的比賽中,AlphaGo以5∶0的比分戰(zhàn)勝了歐洲圍棋冠軍樊麾(Fan Hui)。這是圍棋歷史上機器第 1次戰(zhàn)勝職業(yè)圍棋選手。為了進一步測試 AlphaGo 的性能,2016 年 3 月,DeepMind 團隊向圍棋世界冠軍、韓國頂尖棋手李世石發(fā)起挑戰(zhàn)。2016年 3月 9—15日,在韓國首爾舉行的人機大戰(zhàn)中,AlphaGo Lee 以 4∶1 的比分戰(zhàn)勝了李世石。此后,DeepMind依據(jù) AlphaGo Lee與李世石的對戰(zhàn)的經(jīng)驗,對系統(tǒng)做了進一步改進。

2016 年 12 月 29 日起,一個名為“Master”的神秘網(wǎng)絡棋手在幾個知名圍棋對戰(zhàn)平臺上輪番挑落中、日、韓圍棋高手,并在2017年1月3日晚間戰(zhàn)勝中國頂級圍棋棋手柯潔。此后,在擊敗古力使自己對人類的連勝紀錄達到 60∶0后收手。正當人們對此神秘棋手進行揣測之時,DeepMind 團隊發(fā)表正式聲明,宣稱Master乃是AlphaGo Lee的升級版本。

2017年 5月,在中國烏鎮(zhèn)舉行的人工智能峰會上,排名世界第一的圍棋冠軍柯潔挑戰(zhàn)AlphaGo Master,最終以 0∶3落敗。在比賽結(jié)束后的發(fā)布會上,DeepMind的負責人哈薩比斯(D. Hassabis)宣布AlphaGo “退役”,即不再與人類棋手進行比賽,但申明團隊仍舊會繼續(xù)研究和發(fā)表相關的研究論文。

2017年 10月,DeepMind團隊公布進化最強版AlphaGo Zero,這個版本最大的特征是不再需要人類經(jīng)驗數(shù)據(jù),用于訓練的是機器自我對弈所產(chǎn)生的數(shù)據(jù)。在經(jīng)過 3天的訓練后,AlphaGo Zero就可以戰(zhàn)勝 AlphaGo Lee,比分高達 100∶0;而經(jīng)過 40天的訓練后,就以89∶11的比分擊敗了 AlphaGo Master。 AlphaGo Zero 的具體細節(jié)以論文的形式于2017年10月19日發(fā)表在《Nature》雜志上。

AlphaGo的成功,可歸結(jié)于機器學習與人工神經(jīng)網(wǎng)絡相結(jié)合而產(chǎn)生的深度學習的應用。當然,谷歌的并行計算系統(tǒng)、TPU專用芯片以及大數(shù)據(jù)為它的成功提供了平臺和物質(zhì)基礎。正如李開復所說:“深度學習、大規(guī)模計算和大數(shù)據(jù)三位一體?!?/p>

人工神經(jīng)網(wǎng)絡與機器學習

1943年,神經(jīng)科學家麥卡洛克(W. Mc Colloch)和皮茨(W. Pitts)提出了模擬神經(jīng)網(wǎng)絡的理論,描述了人類神經(jīng)沿網(wǎng)狀結(jié)構(gòu)傳遞和處理信息的理論模型。這一理論很快被計算機領域的研究者所借鑒,通過計算機模擬人的神經(jīng)系統(tǒng)的工作模式來進行簡單的模式識別和信息處理,從而開辟了人工神經(jīng)網(wǎng) 絡(artificial neural networks)的研 究 領 域 。1957 年,康奈爾大學的實驗心理學家羅森布拉特(F Rosenblatt)在計算機上實現(xiàn)了一種“感知機”的神經(jīng)網(wǎng)絡模型,并且證明了單層神經(jīng)網(wǎng)絡在處理線性可分的模式識別問題時可以收斂,從而使這一領域成為當時的熱點研究領域之一。1965 年,伊瓦赫年科(A. G.Ivakhnenko)提出了基于多層神經(jīng)網(wǎng)絡的機器學習模型,即現(xiàn)在所說的深度學習(deep learning)。正當人工神經(jīng)網(wǎng)絡研究大熱之時,1969年,明斯基(M.Minsky)卻斷言感知機不能解決異或問題,羅森布拉特之前也意識到這一問題。這一論斷使神經(jīng)網(wǎng)絡研究遭受了巨大的打擊,并且也因此沉寂多年。直到 1975 年,在哈佛大學的沃波斯(P.Werbos)解決了這一難題之后,人工神經(jīng)網(wǎng)絡的發(fā)展才又逐漸進入了正軌。

一直以來,人工神經(jīng)網(wǎng)絡是機器學習的主要算法之一,主要用于計算機對圖像、文字、語言等的識別。由于淺層的神經(jīng)網(wǎng)絡在實踐中效果并不好,所以人們就逐漸就產(chǎn)生了用多層神經(jīng)網(wǎng)絡(圖 1)使計算機獲得“學習”功能的想法。

圖 1 多層神經(jīng)網(wǎng)絡示意

網(wǎng)絡層數(shù)的增加將面臨 3個挑戰(zhàn):其一是在理論上無法解決由于網(wǎng)絡層數(shù)增加而產(chǎn)生的問題;其二是層數(shù)越多,所需要的計算復雜度就越高,而計算機遠遠達不到處理深度神經(jīng)網(wǎng)絡的要求;其三是對復雜模型的訓練需要海量數(shù)據(jù),當時還沒有大數(shù)據(jù)可用。因此,用大數(shù)據(jù)來訓練復雜模型是深度學習的一個明確方向,等待的只是一個時機而已。

人工神經(jīng)網(wǎng)絡領域的泰斗辛頓(G.Hinton)是深度學習的推進者。2006年,他與合作者發(fā)表文章《A fast learning algorithm for deep belief nets》(《一種深度的置信網(wǎng)絡的快速學習算法》),提出了對深層神經(jīng)網(wǎng)絡進行訓練的算法。該算法不但可以讓計算機漸進地進行學習,而且學習的精確性會隨著網(wǎng)絡層數(shù)的增加而提高,這在客觀上推動了無監(jiān)督學習(unsupervised learning)的產(chǎn)生和發(fā)展。

2010年,谷歌開發(fā)了名為 Google Brain的深度學習工具,將人工神經(jīng)網(wǎng)絡并行實現(xiàn),即將一個大規(guī)模的模型訓練的問題簡化到同時能夠分布到上萬臺服務器上訓練的小問題,從而解決了深度學習的基本技術問題。起初,谷歌大腦只使用了大量的CPU,后來又逐漸引入了GPU以及專用的TPU處理器。與此同時,大數(shù)據(jù)如火如荼的態(tài)勢,使得基于深度網(wǎng)絡的機器學習突破了前面所述的三大挑戰(zhàn),并在各領域都迅速發(fā)展,而圍棋便是谷歌大腦的試金石。

AlphaGo的技術分析與演變

在數(shù)學上,“最優(yōu)策略”和“判斷局面”可以被量化成為函數(shù) Q(s,a)和V(s)。s表示局面狀態(tài),a表示落子動作。在關于強化學習的理論中,Q(s,a)被稱為策略函數(shù)(policy function),V(s)被稱作是局面函數(shù)或者評估函數(shù)(value function)。策略函數(shù)的用處在于衡量在局面 s下執(zhí)行 a所能帶來的價值;估值函數(shù)用于衡量局面 s的價值,估值越大意味著在該落子動作下獲勝的概率越高。因此,這兩個函數(shù)可以用于模仿人類的下棋行為。人類在下棋時,首先憑借經(jīng)驗和“直覺”確定落子的若干方案(最優(yōu)策略),這一行為客觀上降低了“搜索寬度”,因為一些明顯不好的方案不會被考慮進去;其次,對于每一個落子動作之后的情況,棋手也只能看到為數(shù)不多的幾步(最頂尖的棋手在 10步左右),并且以此為基礎進行判斷(判斷盤面),這種行為在客觀上降低了“搜索深度”。

AlphaGo 在進化過程中,出現(xiàn)了 4 個典型的版本:AlphaGo Lee、AlphaGo Master、AlphaGo Zero 及AlphaZero,以下將詳述這些版本的設計思想和技術特征。

1)AlphaGo Lee

AlphaGo 的設計思想就是模仿人類下棋的模式:用策略網(wǎng)絡(policy network)來減小“搜索寬度”,即實現(xiàn)對人類“棋感”的模擬;用估值網(wǎng)絡(value network)來減小“搜索深度”,從而模擬人類對盤面的綜合判斷;最后借助谷歌的技術優(yōu)勢——海量數(shù)據(jù)、并行計算以及GPU、TPU,通過訓練最終獲得遠超人類棋手的棋力。

從技術上講,AlphaGo 在設計過程中,融合了蒙特卡洛樹搜索算法(MCTS)、強化學習(RL)和深度神經(jīng)網(wǎng)絡(DNN)這 3 種目前人工智能領域最先進的技術。在具體設計中,蒙特卡洛樹搜索為 AlphaGo提供了一個基礎框架;強化學習則用來提升AlphaGo的學習方法;深度神經(jīng)網(wǎng)絡則是用來擬合策略函數(shù)和估值函數(shù)的工具。這三大技術雖然在AlphaGo出現(xiàn)之前就已經(jīng)成熟,但是谷歌借助于其巨大的計算能力(GPU、TPU、并行計算)以及海量數(shù)據(jù),將三者有機結(jié)合,從而使 AlphaGo 獲得了巨大的成功。

在設計思想上,AlphaGo設置有兩個大腦(圖2):一個是策略網(wǎng)絡,另一個是估值網(wǎng)絡,蒙特卡洛樹搜索將這兩個大腦整合在一起。通過這兩個大腦,一方面來模擬人類下棋的“棋感”和大局觀,另一方面來模擬人類對每一步棋的深思熟慮。因此,AlphaGo 最終具備了在“直覺”基礎上的“深思熟慮”,而這正是一種典型的“人類思維”處理復雜問題的方式,這為解決復雜決策智能的問題提供了一種工程技術框架。

圖2 兩個大腦:“策略網(wǎng)絡”和“估值網(wǎng)絡”

具體方法上,第一搭建了一個具有 13 層的深層神經(jīng)網(wǎng)絡,并且用監(jiān)督學習(supervised learning)的方式,用人類經(jīng)驗數(shù)據(jù)(KGS 上的 3000 萬盤棋局)對此網(wǎng)絡進行訓練,最終得到策略網(wǎng)絡 pσ。具體訓練方法是通過輸入當前的棋盤數(shù)據(jù),輸出下一步落子位置的概率分布,從而預測落子位置。設計這個網(wǎng)絡的目標不是為了贏棋,而是要從經(jīng)驗數(shù)據(jù)中歸納出最好的落子方法——“妙手”。這個網(wǎng)絡對人類專家下棋預測的精準度達到了 55.7%。一方面,這個預測結(jié)果已經(jīng)遠超當時最先進的機器棋手(44.4%);另一方面,出現(xiàn)的不精準結(jié)果也不能全歸于網(wǎng)絡本身,因為人類棋手在落子時存在不可避免的“臭招”。

第二,雖然更龐大、復雜的神經(jīng)網(wǎng)絡能提高預測的精確度,但這也會拖慢網(wǎng)絡評估的速度;此外,網(wǎng)絡雖然能根據(jù)當前盤面,給出下一步落子的最好位置,但是它并不會“看棋”,即不會給出后面的走法。為了解決這一問題,研究人員又通過人類棋譜訓練了一個具有較少層數(shù)(雙層)的神經(jīng)網(wǎng)絡——快速走子網(wǎng)絡(rollout policy)pπ(圖3)。這個網(wǎng)絡雖然只能達到 24.2%的預測精度,但與策略網(wǎng)絡 pσ相比,下棋的速度更快——它只需 2 μs,而pσ需要 3ms,相當于快了1000多倍。之所以設置快速走子網(wǎng)絡,原因是策略網(wǎng)絡雖然精確,但是搜索速度慢,并且也不可能搜索到最后一步。而快速走子網(wǎng)絡pπ的搜索結(jié)果(相同時間內(nèi)搜索更深),可以讓策略網(wǎng)絡pσ的實際搜索范圍縮小,即實現(xiàn)對搜索樹的剪枝。

圖 3 網(wǎng)絡訓練、生成示意

第三,通過強化學習來提高策略網(wǎng)絡 pσ的棋力,得到策略網(wǎng)略 pρ。pρ的結(jié)構(gòu)與 pσ完全相同,其獲得方法是,取pσ作為 1.0版本,通過左右手互博(自對弈),得到N個棋譜;接著用這 N個棋譜對 1.0版本進行訓練,得到 2.0版本;然后讓 1.0和 2.0版本雙方互博,再得到N個棋譜;再用這 N個棋譜對 2.0進行訓練得到 3.0。新的版本隨機選擇之前的版本進行互博,產(chǎn)生更新的版本,以此類推。通過 n次的訓練,最終得到 pρ。整個過程中,自對弈數(shù)達到了3000 萬局。在實測中,pρ對最強的開源圍棋軟件Pachi的勝率達到了 85%,而 pσ對 Pachi的勝率只有11%。可以看出,pρ是在人類經(jīng)驗的基礎上,再依據(jù)機器互博的機器“經(jīng)驗”,從而大幅度地提升了自己的棋力。數(shù)據(jù)顯示,使用機器自對弈數(shù)據(jù)作為樣本訓練而成的版本,都具有較高的棋力,這也為谷歌最終完全放棄人類經(jīng)驗數(shù)據(jù)埋下了伏筆。

第四,通過機器經(jīng)驗(自對弈數(shù)據(jù))對 pρ進行訓練,得到一個估值網(wǎng)絡 vθ,這就是AlphaGo的第 2個大腦,用于對盤面進行評估。估值網(wǎng)絡的體系結(jié)構(gòu)與策略網(wǎng)絡近似,在功能上的不同在于它輸出的不是一個概率分布空間,而是一個單一的預測結(jié)果。它會將無用的走法因其概率較低而剪枝,因此不再進一步搜索,從而極大地降低了搜索的深度。

第五,估值網(wǎng)絡雖然通過剪枝減小了搜索深度,但是卻不能給出最終的決策。最終的落子決策則是通過蒙特卡洛算法實現(xiàn)的。在采樣不足的情況下,蒙特卡洛算法可以通過盡可能多次的隨機采樣,一步一步接近最優(yōu)解。AlphaGo即是運用蒙特卡洛樹搜索算法,對兩個大腦即策略網(wǎng)絡pρ與估值網(wǎng)絡 vθ進行整合。蒙特卡洛樹搜索的作用就是在模擬下棋的過程中對盤面進行評估?!癕onte Carlo”一詞源自于意大利語,有可疑、隨機等意思。如果下棋的時候棋手“隨機”落子,則必輸無疑。因此,首先使用策略網(wǎng)絡來預測人類的落子行為,即在AlphaGo 的每一個落子動作執(zhí)行之前,AlphaGo 首先運行策略網(wǎng)絡,從而獲得一個人類棋手落子位置的概率分布;接著,蒙特卡洛搜索算法才以這個概率分布為基礎進行“隨機”。因此,正因二者的有效結(jié)合,才使得 AlphaGo 在減小搜索空間的基礎上,得到了贏棋概率最高的落子動作。

從對 AlphaGo 的技術分析可以看出,首先,該系統(tǒng)的成功離不開 3個方面:數(shù)據(jù)、硬件和算法,三方互相依賴,缺一不可。數(shù)據(jù)方面,AlphaGo將圍棋盤面的一個狀態(tài) s抽象為 19×19的網(wǎng)格圖像,并且抽取出 48個特征量來表征這一狀態(tài)。因此,每一個狀態(tài) s是一個19×19×48的圖像。在整個訓練中,先后用到了 KGS 的 3000萬盤棋局以及自對弈產(chǎn)生的3000 萬盤棋。對于一個圍棋學習者來說,想達到頂級水平所需完成的盤數(shù)大概為幾萬盤。因此,AlphaGo所用的數(shù)據(jù)是海量的大數(shù)據(jù)。在硬件方面,谷歌強大的硬件系統(tǒng)為訓練深度神經(jīng)網(wǎng)絡提供了基礎:與李世石比賽的 AlphaGo Lee使用了40個搜索線程、48個 CPU、8個GPU。而最強的分布式的 AlphaGo 版本,利用了多臺電腦,40個搜索線程、1202個CPU、176個GPU。在算法上,AlphaGo使用了機器學習中的監(jiān)督學習、加強學習和蒙特卡洛搜索算法。這些算法雖然都早已有之,但是在谷歌大數(shù)據(jù)以及強大的計算技術的支持下,顯示出了巨大的威力。其次,依靠人類經(jīng)驗,機器最多只能達到人類頂尖水平,而要超越人類,就需要摒棄人類的經(jīng)驗。相對于人類數(shù)據(jù),機器經(jīng)驗數(shù)據(jù)已經(jīng)是較優(yōu)數(shù)據(jù)。由機器經(jīng)驗數(shù)據(jù)訓練而來的value network可以達到專業(yè) 5段水平,遠高于通過人類經(jīng)驗訓練而來的rollouts和policy network(圖4)。

圖4 3種網(wǎng)絡以不同方式組合后的棋力水平

2)AlphaGo Master

DeepMind 雖然沒有發(fā)表關于 AlphaGo Master的文章,但可以結(jié)合它的表現(xiàn)以及DeepMind 團隊負責人哈薩比斯在烏鎮(zhèn)的演講,大致梳理出一些關鍵的技術和思想。

與 AlphaGo Lee 相比,AlphaGo Master 在下棋的表現(xiàn)上有以下典型的特點。

第一,落子速度更快,發(fā)揮更穩(wěn)定。上線以來,除了由網(wǎng)絡中斷而出現(xiàn)的自判和局以外,接連戰(zhàn)勝世界頂級高手,對人類的連勝達到60∶0。

第二,布局與落子方法極具創(chuàng)造性,并且形成了許多人類高手沒有見過的布局與落子方法,對人類極具啟發(fā)性,使人類對棋理產(chǎn)生了重新認識。柯潔在觀看 AlphaGo Master在線的部分表現(xiàn)后表示:“從來沒見過這樣的招法,圍棋還能這么下?”“看AlphaGo Master的招法,等于說以前學的圍棋都是錯誤的,原來學棋的時候要被罵的招法現(xiàn)在 AlphaGo Master都下出來了?!?/p>

第三,AlphaGo Master基本上都是在中盤就已經(jīng)確定了絕對優(yōu)勢。由此看來,人類棋手經(jīng)過幾千年時間所歸納總結(jié)的經(jīng)驗知識與 AlphaGo Master相比,顯然不在一個層次。此外,最為關鍵的是,AlphaGo Master似乎還有上升空間。

在設計思想上,DeepMind對 AlphaGo Lee的兩個大腦即策略網(wǎng)絡和估值網(wǎng)絡做了進一步改造和優(yōu)化。從其超越人類圍棋知識的表現(xiàn)來說,已經(jīng)與AlphaGo Lee 有極大的不同,并且可以肯定的是對人類經(jīng)驗數(shù)據(jù)的依賴變得更少。在AlphaGo Lee輸?shù)舻牡?4 局中,李世石在第78 手下出的“神之一手”,導致機器如同人類棋手一樣產(chǎn)生由于缺乏經(jīng)驗而產(chǎn)生的“慌亂”,并且接連出現(xiàn)欠考慮的“臭招”,最終落敗,這說明人類經(jīng)驗數(shù)據(jù)對機器下棋策略的某種限制。DeepMind的優(yōu)化思路是用 2個 AlphaGo Lee自我對弈,用對弈得到的機器經(jīng)驗數(shù)據(jù)再進行強化學習,從而得到新的策略網(wǎng)絡和估值網(wǎng)絡,然后再將 2個網(wǎng)絡整合,得到一個加強的版本AlphaGo Master。由于這個版本的訓練數(shù)據(jù)完全是自我對戰(zhàn)的高質(zhì)量機器數(shù)據(jù),因此由其所訓練得到的網(wǎng)絡更強大,并且也進一步縮小了樹搜索的搜索空間。數(shù)據(jù)表明,在硬件系統(tǒng)上,由于 AlphaGo Master 需要的計算量是 AlphaGo Lee 的 1/10,與柯潔對戰(zhàn)的AlphaGo Master 實際上已經(jīng)實現(xiàn)了單機運行,并且只用到了 4 個 TPU。盡管如此,它的棋力就已經(jīng)遠超了AlphaGo lee。

由于在訓練過程中完全使用了機器自對弈數(shù)據(jù),棋力遠遠超過了先前基于大量人類經(jīng)驗數(shù)據(jù)訓練而來 AlphaGo Lee,這進一步證明了人類經(jīng)驗的局限性。而在硬件系統(tǒng)上的低要求說明人類數(shù)據(jù)訓練而來的策略網(wǎng)絡是拖慢系統(tǒng)速度的主因。因此,完全放棄人類經(jīng)驗數(shù)據(jù)就成為DeepMind 的必然選擇。

3)AlphaGo Zero

2017 年 10 月 19 日,DeepMind 團隊在《Nature》發(fā)表文章《Mastering the game of Go without human knowledge》(《不需要人類知識的圍棋游戲》),論文指出:“由之前 AlphaGo 的訓練和對弈經(jīng)驗可以看出,人工智能的許多進展都是通過監(jiān)督學習而取得的,即通過專家數(shù)據(jù)集來訓練系統(tǒng),以模擬人類專家的決策。但是專家數(shù)據(jù)集通常是昂貴的、不可靠的或根本是不可用的。即使是可靠的數(shù)據(jù)集,但它們也可能對以這種方式訓練得到的系統(tǒng)的性能造成限制?!币虼?,AlphaGo Zero最大的亮點就是完全放棄圍棋的人類經(jīng)驗知識,以圍棋的規(guī)則為基礎框架,通過自對弈從而得到機器自身關于圍棋的知識。其基本思路和技術特征可以歸結(jié)為:第一,放棄之前所用的卷積神經(jīng)網(wǎng)絡,而是選用殘差神經(jīng)網(wǎng)絡,這個網(wǎng)絡比 AlphaGo Master所用的卷積網(wǎng)絡更為復雜,它包含 40個隱含層,比 AlphaGo Master 多一倍;第二,只用一個大腦,而不是如同之前的版本由卷積神經(jīng)網(wǎng)絡訓練出的兩個大腦——策略網(wǎng)絡和估值網(wǎng)絡;第三,基于圍棋的基本規(guī)則,以最為直接和簡單的黑白子為輸入特征量,進行無監(jiān)督的加強學習;第四,完全放棄圍棋領域的人類經(jīng)驗數(shù)據(jù),機器從零開始不斷地左右互博(4900 萬盤),以尋找和歸納圍棋知識;第五,只使用最簡單的 MCTS樹搜索,并依賴單一的神經(jīng)網(wǎng)絡來預測落子位置和評估盤面;第六,為了提高學習的速度和保證精確、穩(wěn)定的學習過程,開發(fā)和使用了一種新的加強學習算法。

最終訓練成的AlphaGo Zero能在具有4個TPU的單機上運行(訓練過程中使用了 CPU、GPU 和TPU),并且在訓練 3 h 后棋力就達到了AlphaGo Lee 的水平,訓練 40 d 就能達到 AlphaGo Master 的水平(圖 5)。可以看出,在摒棄人類經(jīng)驗數(shù)據(jù)、改變方法以及引入新算法后,不但使AlphaGo的棋力大大提高,而且也降低了運行過程中的能耗,極大地提高了效率。

圖5 不同版本的AlphaGo的訓練時間與棋力表現(xiàn)

自圍棋誕生以來的幾百萬年的時間里,人們通過無數(shù)次的對弈游戲,積累了大量的圍棋知識、定式和書籍。而 AlphaGo Zero 只通過 3 d的訓練,從圍棋“兒童”達到圍棋“超人”的水平。棋力不但遠遠超越了人類水平,同時還發(fā)現(xiàn)了人類未發(fā)現(xiàn)的新的知識、定式等。

4)AlphaZero

2018年 12月,《Science》雜志發(fā)表論文《A general reinforcement learning algorithm that masters chess, shogi and Go through self-play》(《用通用強化學習算法自我對弈,掌握國際象棋、將棋和圍棋》)。論文揭示,DeepMind依據(jù)之前的經(jīng)驗,采用新算法開發(fā)了單一系統(tǒng) AlphaZero,這套系統(tǒng)竟然在短期的自我學習中,成功地實現(xiàn)了對國際象棋、日本將棋及圍棋目前最強智能系統(tǒng)的完勝。論文揭示:AlphaZero 僅用 4 h的自我學習,就超越了目前最強的國際象棋智能系統(tǒng) Stockfish;僅用 2 h 的自我學習就超越了日本將棋的最強智能系統(tǒng) Elmo;僅用 8 h就戰(zhàn)勝了圍棋最強智能系統(tǒng) AlphaGo Zero(圖6)。

圖 6 AlphaZero在訓練 700000步時所達到的水平

AlphaZero的出現(xiàn)標志著人類在信息完全博弈領域(至少是棋類游戲)實現(xiàn)通用智能系統(tǒng)的關鍵性進展。國際象棋大師卡斯帕羅夫在應邀參加 AlphaZero與國際象棋系統(tǒng)的對戰(zhàn)后感慨道:“我真的不能掩飾我自己的滿足感,它極具活力,就如同我一樣!”

綜上可以看出,在人類自認為所擅長的棋類游戲領域,機器能在不需要人類經(jīng)驗、專家知識的情況下,短時間內(nèi)同時掌握多種游戲技能,并且實現(xiàn)對人類的全面超越;而在機器擅長的方面,“人的因素成為了一種導致錯誤的誘因。人類,僅憑其遲緩的反應時間和高度的易疲勞性,根本無法與計算機和高速設備相匹敵”。面對機器的迅速進化和崛起,人類該怎樣面對呢?

如何應對機器的崛起

縱觀機器下棋的短短的 20 多年的歷史,尤其是 AlphaGo不到 3年時間的“進化史”,充分說明,在圍棋這個領域,受限于人類自身認知能力的局限,人類幾千年積累下來的經(jīng)驗數(shù)據(jù)較之于機器在 3 d內(nèi)形成的經(jīng)驗數(shù)據(jù),已經(jīng)不是最優(yōu)數(shù)據(jù)。正如柯潔在輸?shù)舯荣愔笤硎荆骸皣鍙漠a(chǎn)生到現(xiàn)在已經(jīng)經(jīng)歷了幾千年的歷史,但是 AlphaGo 卻向人類表明,人類可能還沒有揭開圍棋的表皮。”也如DeepMind的論文中所指出的:“專家數(shù)據(jù)集通常是昂貴的、不可靠的或根本不可用的。即使可靠的數(shù)據(jù)集是可用的,也可能對以這種方式訓練的系統(tǒng)的性能造成限制?!狈艞墝θ祟惤?jīng)驗的依賴,深度強化學習算法也許能被廣泛應用到其他復雜領域,尤其是信息不完全的復雜系統(tǒng),如天氣、醫(yī)療等。

面對智能系統(tǒng)的迅速崛起,人類不能總是陷入塞爾(J. R. Searle)“中文屋”論證的泥淖,即:聲稱機器雖然能戰(zhàn)勝人類,但它不懂得下棋,機器有的僅僅是“一串串無意義的符號”。其實,馬丁·戴維斯(M. Davis)對這一論證早就有過精辟的反駁:“塞爾強調(diào)了‘深藍’不‘知道’任何東西,而富有專業(yè)知識的工程師卻有可能聲稱,‘深藍’的確知道各種東西,例如它知道能將給定方格中的象移動到哪幾個方格中去,這完全取決于‘知道’是什么意思?!碑吘鼓壳暗臋C器與以前的機器有了巨大的不同。機器在進化中不斷地蛻變,它已經(jīng)不僅僅是對人類感官系統(tǒng)的放大,也不僅僅是作為人類認知和行動的輔助系統(tǒng),“他”已經(jīng)逐漸擁有了自己獨立的價值與生命。即使機器不會像人類一樣去“理解”世界,但是在某些方面卻能比人類做得更好,因此,人類要謙遜地接受和面對。

此外要說明的是,AlphaGo戰(zhàn)勝人類世界冠軍,只說明它在圍棋上比人類做得更好,它并沒有全面攻克圍棋。因為 AlphaGo是以勝利、贏得比賽的實用主義哲學為唯一目標,而不是以追求必勝策略或最優(yōu)理論的理性主義為目標。要想真正攻克圍棋,路還很長。就拿跳棋游戲來說,由哈佛大學的舍佛(J. Schaeffer)團隊設計的 Chinook跳棋程序于 1994 年就戰(zhàn)勝了當時的跳棋冠軍丁斯利(M.Tinsley),但直到 2007 年,舍佛團隊才從理論上證明,對于跳棋,“只要對弈雙方不犯錯,最終都是和棋”。從這種意義上講,戰(zhàn)勝并非是完全攻克,這本質(zhì)上是由于其核心——人工神經(jīng)網(wǎng)絡——的認識論本質(zhì)所決定的,因為神經(jīng)網(wǎng)絡作為復雜網(wǎng)絡系統(tǒng),通過搭建神經(jīng)元之間的網(wǎng)絡關系,模擬人腦的結(jié)構(gòu)和功能,是對大腦信息處理方式的簡化、抽象和模擬,輸入與輸出之間的對偶是通過復雜的參數(shù)調(diào)整,因此學習目標的達成并非是基于因果律的。在完全信息的棋類游戲中,由于本質(zhì)上每一步棋有固定的走法,如果算力足夠強大,則完全可以“計算”每一步棋的最優(yōu)走法。可以說,完全信息的游戲本質(zhì)上就是計算,只不過,“深藍”依賴的是高速芯片,AlphaGo則依賴“谷歌大腦”提供的算力以及新算法對搜索空間的剪枝。也就是說,即使僅靠算力最強的谷歌大腦,都無法窮盡圍棋的所有可能性。如果假設有更強的算力支撐的話,用最簡單的暴力窮舉法就完全可以戰(zhàn)勝人類冠軍。比如按照目前的量子計算機的理論,如果能實現(xiàn) 600個量子位的量子計算機,其計算能力就能達到 10180,這個結(jié)果很顯然超過了圍棋的局面數(shù)。

基于以上的討論,可以做如下總結(jié):首先,從IBM 的“深藍”,到谷歌的AlphaGo,再到AlphaGo Zero,經(jīng)歷了對人類經(jīng)驗的重新審視以及對機器自身“經(jīng)驗”的新認識。也就是說,對于信息完全的博弈系統(tǒng),依據(jù)強大的算力,機器可以做得比人更好,機器獲得的“經(jīng)驗”比人類經(jīng)驗更優(yōu)。其次,新的算法的開發(fā)不僅可以降低機器對算力的依賴,而且可以擺脫人類經(jīng)驗的束縛。機器可以依靠基礎規(guī)則,通過不斷的自我對弈,達到遠超人類經(jīng)驗、知識的水平。AlphaGo 的搜索深度比深藍系統(tǒng)的搜索位置少了很多,這主要歸功于深度神經(jīng)網(wǎng)絡算法的開發(fā)。再次,AlphaGo 對于人類最大的啟示在于:放棄對人類經(jīng)驗的依賴,深度強化學習算法也許能被廣泛應用到其他復雜領域,尤其是信息不完全的復雜系統(tǒng),如天氣、醫(yī)療等。這也正是 DeepMind團隊的初衷和目標絕不在于攻克圍棋的原因。圍棋,只是他們的一個試金石或者小戰(zhàn)場,醫(yī)療、癌癥、天氣預測等缺乏完全信息的復雜系統(tǒng)才是他們的終極目標。DeepMind的負責人哈薩比斯在多個場合就說過,他們的目標在于將在游戲中證明過的技術,用來解決醫(yī)療等更為復雜的問題。這些問題,對于最聰明的人都是無可奈何的,人工智能是一個解決這些復雜問題的潛在模式“。我們發(fā)明AlphaGo并以此來探索圍棋的奧秘,正如科學家用哈勃望遠鏡來探索宇宙的奧秘一樣。因此,AlphaGo的發(fā)明,并不是為了戰(zhàn)勝人類。與人類進行比賽,是為了測試我們的智能算法,因此它只是手段,而不是目的。這些有效的算法應用到真實世界,并為人類社會提供服務才是我們的終極目標?!?/p>

聶衛(wèi)平說“:人類可以向AlphaGo 學習!”2008年《Nature》大數(shù)據(jù)專刊中討論的主題是“人類從谷歌能學到什么”。面對快速發(fā)展的智能系統(tǒng),人類需要從智能系統(tǒng)中學習什么,這正是人類需要深思的。(責任編輯 劉志遠)

基金項目:2018年度國家社會科學基金重點項目(18AZX008);中央高?;究蒲袠I(yè)務費項目(3142018057)

參考文獻(略)

本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
經(jīng)濟學人特寫|機器能“深度學習”,但還不能舉一反三
新版AlphaGo擺脫人類訓練,展現(xiàn)出無師自通的學習能力
Deepmind AMA:你想了解的關于Deepmind的一切都在這里了!
如果讓AlphaGo去開車……
史上最強棋類AI降臨:谷歌公布AlphaGo升級版
你愿意變成機器人嗎?王小川與人類簡史作者尤瓦爾探討未來
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服