圍棋領(lǐng)域,人類最強(qiáng)大的大腦,也終于宣告完敗。
首發(fā) | 黑智(ID:VR-2014)
文 | 黑君
實(shí)際上,無論柯潔在今天的棋局上表現(xiàn)如何,AlphaGo在5月23日和5月25日,連續(xù)兩場戰(zhàn)勝,從前天起,這個結(jié)果已經(jīng)就被鎖定了。在昨日還進(jìn)行了配對賽和團(tuán)體賽,而在團(tuán)隊賽中,中國的5位世界冠軍聯(lián)手群戰(zhàn)AlphaGo,最后還是執(zhí)黑254手中盤告負(fù)。
圍棋領(lǐng)域,人類最強(qiáng)大的大腦,也終于宣告完敗。
圍棋比賽,看似離我們的生活還比較遙遠(yuǎn)。但是,我們又能不能把這場烏鎮(zhèn)的全民關(guān)注的棋局,單純看成一場娛樂的表演秀?
在有些人看來,似乎就是如此,我們還沒有看到AlphaGo下圍棋能夠給我們帶來何等改變。
但對另外一些人來說,這是令人恐懼的開端。機(jī)器會和我們一樣思考?它比我們強(qiáng)大,不需要受情緒、感情和身體因素的影響,如果搭配一個強(qiáng)有力的大腦,還有什么是它不能做的?
我們可以思考的問題,還有很多。AlphaGo究竟因?yàn)槭裁炊绱藦?qiáng)大,人類在機(jī)器面前是否就全無可以反攻的余地;除了下棋之外,AlphaGo還想告訴我們什么,它究竟能給未來帶來何等改變;以及,下一場,人類和機(jī)器,又將在什么戰(zhàn)局中對峙?
對弈中的AlphaGo有多可怕?
我已經(jīng)很拼了。能讓AlphaGo的主機(jī)發(fā)燙一下也好啊。
——by:柯潔
今天的第三局,在上一局落敗后,柯潔提出本局仍由他執(zhí)白,哈薩比斯痛快地答應(yīng)了。第三局柯潔“回歸自然”,做回自己,不再受對手的影響。而AlphaGo在開局依然將第一手落在了右下角的位置上。雙方前4手常規(guī)開局,但隨后AlphaGo下出新手,柯潔開始長考,最終只能無奈脫先。
讓我們再來回顧一下前幾場棋局,以及AlphaGo讓我們曾經(jīng)吃驚的地方。
1、勝半目是AlphaGo刻意而為之?
第一場,柯潔執(zhí)黑先行,以小目、三三開場。經(jīng)過4小時17分37秒,289手的激戰(zhàn)后,最后AlphaGo以1/4子取勝。盡管這是中國規(guī)則中最小的差距,但最可怕的是,賽后人們對此結(jié)果的猜測:贏半目,是AlphaGo故意設(shè)置好的?
第一局棋到中盤時,阿爾法狗已經(jīng)領(lǐng)先差不多一個貼目。但是之后,它采取了保守的下法,沒有寸土必爭。在賽后點(diǎn)棋的時候,柯潔就苦笑表示:“我很早就知道自己要輸1/4子,AlphaGo每步棋都是勻速,在最后單官階段也是如此,所以我就有時間點(diǎn)目?!?/p>
獨(dú)立IT評論人keso就在賽后第一時間評論表示這可能是AlphaGo特意而為之。
但業(yè)界對此也有不同的看法。畢竟,對于電腦而言,AlphaGo被設(shè)定的目標(biāo)就是勝利,而不是“贏幾目”。AlphaGo給自己的命令,是用最穩(wěn)妥的方法去贏,哪怕只是贏半目。極客幫創(chuàng)投合伙人蔣濤就認(rèn)為,這一說法尚不能證實(shí)。但是,他也同樣認(rèn)可,“最后能夠出現(xiàn)這么細(xì)微的局面,說明棋局是在AlphaGo的掌控之中的。畢竟它要確保的,是結(jié)果的勝利。至于勝1目還是勝10目,對電腦來說判斷都是一樣的?!?/p>
2、效仿對手開局?評價柯潔近乎“完美”
5月25日,第二局比賽進(jìn)行。
而比第一戰(zhàn)更加出乎人意料的是,比賽進(jìn)行到當(dāng)天中午13:37時,柯潔主動投子認(rèn)輸,AlphaGo提前一個多小時,中盤取勝。
在第二局,AlphaGo執(zhí)黑先行。而它在落子前,不同以往地經(jīng)過了思索,最后選擇了第一局柯潔采用的小目、三三開局。
這是頗有意味的。要知道,AlphaGo公開問世以來到本次人機(jī)大戰(zhàn)之前,一共下了70局,包括與樊麾的5局、與李世石的5局、以Master網(wǎng)名在網(wǎng)上下的60局。這70局里,沒有一局開局就走了三三。
而柯潔在本場,則相對更加的沉穩(wěn)??梢钥闯?,柯潔在布局的策略上,本局下了更大的功夫。甚至在前面十幾手,能夠預(yù)料到AlphaGo多步棋的落子。比賽進(jìn)行到1小時的時候,DeepMind創(chuàng)始人、AlphaGo之父哈比薩斯在自己的推特寫道:“簡直不敢相信,根據(jù)AlphaGo的判斷,柯潔現(xiàn)在下得非常完美。”
之前一直有AlphaGo不擅長打劫的傳言,但本局中,面對柯潔引爆的劫爭,AlphaGo處理得非常得當(dāng),根本沒有回避打劫之舉。
在左下角的劫爭中,柯潔的一步失誤,頓時讓局勢無可挽回??聺嵲谶M(jìn)行了近20手的嘗試后,于155手投子認(rèn)輸。
這一局棋的震動也是無可比擬的。在賽后發(fā)布會上,雙方都承認(rèn),當(dāng)天的棋局,在前面,AlphaGo根本沒有顯示出勝率優(yōu)勢。DeepMind方也表示:“柯潔在比賽中擁有了很多機(jī)會,AlphaGo一度無法處理……我們作為開發(fā)者,從來沒有見過AlphaGo出現(xiàn)這么勢均力敵的情況。”
這可以說是,迄今為止,人類棋手在和AlphaGo的對弈中,最精彩的一局。
3、面對劣勢時AlphaGo怎么辦?認(rèn)輸、逼隊友認(rèn)輸……
之后的最有趣和最令人懵逼的一幕,則出現(xiàn)在昨日的配對賽中。這場賽制規(guī)定,兩名中國棋手古力、連笑將分別和AlphaGo組隊,雙方對壘。
之前,很多人猜測過,AlphaGo會不會有故意輸?shù)舯荣?、或者下臭棋的可能。那么,?dāng)AlphaGo真正面對劣勢時,它是怎么處理的?這場比賽或許會告訴你答案。
在對決即將結(jié)束之時,與古力搭檔的AlphaGo決定投子認(rèn)輸,古力卻拒絕了AlphaGo的要求,仍堅持鏖戰(zhàn)。而之后,AlphaGo的棋路變得越來越消極,最終,古力在不可逆轉(zhuǎn)的情勢下,也只得認(rèn)輸。
不管你如何認(rèn)為,但明顯,AlphaGo已經(jīng)成為了控制棋局的關(guān)鍵。
現(xiàn)在的AlphaGo有多強(qiáng)大?
或許,關(guān)于AlphaGo的很多問題,可以在DeepMind對其算法的講解中得到解釋。
早在去年,AlphaGo就已經(jīng)以4:1戰(zhàn)勝過李世乭。而在今年年初,Master橫空出世,在弈城和野狐兩大圍棋網(wǎng)站上,和各國頂尖棋手快棋對弈,最后以60:0的戰(zhàn)績橫掃棋壇。而賽后,Master自揭真身,正是AlphaGo的最新版本。
而這次在烏鎮(zhèn)和柯潔對弈的,正是Master。年初的對弈中,柯潔已經(jīng)在快棋上,敗給了它。
AlphaGo Master和戰(zhàn)勝李世乭的AlphaGo Lee相比,有哪些區(qū)別?第一局賽后,DeepMind首席科學(xué)家席爾瓦在演講中透露,去年與李世乭對戰(zhàn)的AlphaGo Lee有50個TPUs在運(yùn)作,搜索50個棋步為10000個位置/秒,而昨天打敗柯潔的AlphaGo Master則是在單個TPU上進(jìn)行游戲,計算量只是去年那個版本的十分之一。
和柯潔對戰(zhàn)的是年初戰(zhàn)勝60位高手的AlphaGo Master。
目前的AlphaGo是單機(jī)版。
配備了4塊TPU。
與去年3月與李世石的比賽時相比,當(dāng)前的版本在處理計算時所消耗的能量僅為過去的十分之一。
目前,與柯潔對戰(zhàn)的AlphaGo Master的等級分已經(jīng)接近了4800分。
現(xiàn)在的AlphaGo采用強(qiáng)化學(xué)習(xí),讓人工智能進(jìn)行自我博弈,產(chǎn)生更強(qiáng)的神經(jīng)網(wǎng)絡(luò)。這一次AlphaGo用自我對弈訓(xùn)練出的策略網(wǎng)絡(luò),可以做到不需要更多運(yùn)算,直接給出下一步的決策。
相比之下,現(xiàn)在的AlphaGo比去年擊敗了李世石那一版的AlphaGo Lee相比要“強(qiáng)三子”。
4塊TPU,單機(jī)版,完虐了人類。而“強(qiáng)三子”的概念是什么?讓柯潔的反應(yīng)來告訴你。
如果說打敗了李世乭的AlphaGo是利用卷及神經(jīng)網(wǎng)絡(luò),讓它了解規(guī)則、了解棋局,從而進(jìn)行處理,那么,現(xiàn)在的AlphaGo,就增強(qiáng)了“思考”能力,并且,可以自學(xué)成才了。
在這次賽前,很多媒體報道,此次參戰(zhàn)的 AlphaGo 2.0 可能采用了全新的算法模型,放棄了監(jiān)督學(xué)習(xí),即未先學(xué)習(xí)人類棋譜的經(jīng)驗(yàn),而是直接通過對戰(zhàn)來獲得認(rèn)知和能力。但哈比薩斯在賽后發(fā)布會上回答,這明顯是個誤解。AlphaGo還是要學(xué)習(xí)人類經(jīng)驗(yàn),但這個版本的AlphaGo更依賴自我博弈來學(xué)習(xí)。
如何讓AlphaGo進(jìn)行監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí),席爾瓦解釋,是讓AlphaGo先通過訓(xùn)練形成一個策略網(wǎng)絡(luò),將棋盤上的局勢作為輸入信息,并對所有可行的落子位置生成一個概率分布。然后,訓(xùn)練出一個價值網(wǎng)絡(luò),以 -1(對手的絕對勝利)到1(AlphaGo的絕對勝利)的標(biāo)準(zhǔn),預(yù)測所有可行落子位置的結(jié)果。也就是說,在這個過程中, AlphaGo不僅會算出自己的最優(yōu)選項,還會根據(jù)自己下過的棋,經(jīng)過多層處理形成一個“值”,值高意味著自己贏,低意味著對手贏,并在棋局中的某一步判斷是否是關(guān)鍵的一步。
并且,AlphaGo的搜索算法能在計算能力之上,加入和人類直覺近似的判斷,讓它更接近人腦。
為什么選擇棋牌?
那么,為什么科學(xué)家都執(zhí)著于讓機(jī)器和棋牌類游戲過不去呢?讓一個電腦學(xué)會下棋,對我們究竟有什么好處?
原因很簡單。首先,棋牌類是人類智力活動的象征,它的宣傳和號召能力自然也是其他運(yùn)動所不能比擬的。
其次,自然是因?yàn)槠孱惙浅_m合作為AI算法的標(biāo)桿。機(jī)器和人對弈,是一個博弈的過程,它具有抽象的特性,而棋牌游戲的規(guī)則非常明確,狀態(tài)顯示則比較明確。
而在棋牌類中,圍棋是非常難以攻克的一類。我們都知道,搜索算法的復(fù)雜程度取決于分支系數(shù)——每一步棋可能的走法。相比起來,國際象棋的平均分支因子大約是35,而圍棋的平均分支因子為250,一局步數(shù)為350步,搜索樹有250^350個節(jié)點(diǎn),需要更加復(fù)雜和先進(jìn)的搜索算法。在1997年之前,就沒有出現(xiàn)過有競爭力的圍棋程序。
而戰(zhàn)勝眾多棋手的AlphaGo,使用的是蒙特卡洛樹搜索算法,借助值網(wǎng)絡(luò)(value network)與策略網(wǎng)絡(luò)(policy network)這兩種深度神經(jīng)網(wǎng)絡(luò),通過值網(wǎng)絡(luò)來評估大量選點(diǎn),并通過策略網(wǎng)絡(luò)選擇落點(diǎn)。
神經(jīng)網(wǎng)絡(luò)系統(tǒng)是以人類大腦為原型的信息處理模式,可以根據(jù)特定的輸入產(chǎn)生特定輸出,并實(shí)現(xiàn)圖片識別、語音識別等功能。谷歌做了兩個神經(jīng)網(wǎng)絡(luò),一個神經(jīng)網(wǎng)絡(luò)用于動態(tài)評估——計算對手下一步棋落子的各自可能性,依靠計算機(jī)遠(yuǎn)遠(yuǎn)超過棋手的計算能力,在某種程度上會占據(jù)一定優(yōu)勢。另一個神經(jīng)網(wǎng)絡(luò)用于靜態(tài)評估——評估棋局交戰(zhàn)雙方總體態(tài)勢。
谷歌輸入了海量棋譜,讓AlphaGo以此為基礎(chǔ)進(jìn)行了難以計數(shù)的自我對局,以豐富其數(shù)據(jù)庫,預(yù)測對手的落子。
AlphaGo勝利后,今年1月,在美國賓夕法尼亞,卡內(nèi)基梅隆大學(xué)開發(fā)的德州撲克人工智能系統(tǒng)Libratus擊敗了四名頂尖人類高手,一舉獲得了20萬美元將近和177萬美元籌碼。
德?lián)浜虯lphaGo所擅長的圍棋不同。圍棋、國際象棋和西洋雙陸等被AI逐個攻破的游戲,都是“完美信息”游戲。也即是,所有玩家在游戲中,能夠獲得公開和對稱的確定信息。游戲中需要作出的決策點(diǎn)的數(shù)量,決定了機(jī)器的計算量。
而與之相比,德?lián)鋭t是“不完整信息”游戲。其中包含了更多的隱藏信息,每個玩家掌握的信息都是不對稱的,他只能看到自己的牌,卻不知道對手的牌,需要根據(jù)直覺推測對手手牌,選擇下注和放棄,并判斷對手的打法。因此,“不完整信息”博弈,就成為難以攻克的計算機(jī)難題。
而Libratus,基于在匹茲堡超級計算中心大約1500萬核心小時的計算,用算法分析德?lián)湟?guī)則,預(yù)測所有步驟的勝率,來進(jìn)行自己的下一步。和AlphaGo用大量棋局做訓(xùn)練不同,它沒有用專業(yè)牌局進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,而是用隨機(jī)生成的牌局(隨機(jī)產(chǎn)生公共牌、底池籌碼、玩家拿牌概率)和嘗試性的動作帶來的結(jié)果(在隨機(jī)生成的輸入情況下模擬玩家跟牌后的結(jié)果)來作為訓(xùn)練數(shù)據(jù)。Libratus還采用了博弈論,它通過納什均衡來計算如何應(yīng)對對手的招數(shù),通過平衡風(fēng)險和收益,對自身的下一步進(jìn)行修正,以期達(dá)到收益最大化。其程序名Libratus,就是來源于拉丁文“制衡”。
是的,所以,你知道,風(fēng)靡我國的“國民運(yùn)動”麻將,就是不完美信息博弈的一種。目前雖然已經(jīng)有比較強(qiáng)的AI,但是和人類頂尖高手相比,還是有較大的差距。
柯潔之后,或許我們可以期待一場高水平的麻將人機(jī)大賽。
但據(jù)微軟亞洲研究院研究員楊懋和秦濤的文章,最難被AI攻克的,還是星際爭霸和我的世界這類游戲。它們不僅信息不對稱,而且游戲規(guī)則是開放性的。除了運(yùn)行速度上占優(yōu)勢外,計算機(jī)還還需要處理不斷出現(xiàn)的復(fù)雜的新情況?,F(xiàn)在,計算機(jī)還沒有在這些游戲中證明過自己的能力。
AlphaGo下完棋能做什么?
“AlphaGo 贏了李世石,so what?下圍棋本來的樂趣就是對方下一把臭棋,結(jié)果機(jī)器不會下臭棋,那還有什么意思呢?”
——by:馬云
所以,我們可以意識到,棋牌類游戲,對于人工智能而言,是一種早期的演練?;蛟S它能夠讓游戲更有趣味,會挑戰(zhàn)專業(yè)棋手的價值,會引發(fā)很多人的思考和恐懼,但是,AlphaGo,或者說DeepMind,它的最終目標(biāo)不僅僅是下棋。DeepMind的最終目標(biāo),還是智能助手、醫(yī)療和機(jī)器人等領(lǐng)域。
谷歌現(xiàn)在有兩套人工智能系統(tǒng),包括谷歌的機(jī)器學(xué)習(xí)開發(fā)者工具TensorFlow,以及DeepMind的AlphaGo系統(tǒng),AlphaGo未來將計劃應(yīng)用在醫(yī)療看護(hù)、自動駕駛車等部分。
在烏鎮(zhèn)的人工智能峰會上,Alphabet 董事長 Eric Schmidt談到機(jī)器學(xué)習(xí)和人工智能引領(lǐng)了“智能時代”的發(fā)展,他表示:“神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的爆發(fā)是我所經(jīng)歷過的最大變革”。他還表示,這些新技術(shù)不僅提升了日常的生產(chǎn)效率,更為企業(yè)帶來了無限機(jī)遇,尤其是在“醫(yī)療、交通以及政務(wù)”等領(lǐng)域。而谷歌的各項AI研究成果,也在這場交流中向國內(nèi)觀眾做了完全的展示。
比如機(jī)器學(xué)習(xí)在消費(fèi)產(chǎn)品中的應(yīng)用,包括 Google Photos以及Gmail。以 Google Photos最新版本為例,通過機(jī)器學(xué)習(xí)技術(shù),可以將照片中的雨滴去除,并為照片添加濾鏡,使其擁有與知名藝術(shù)作品一般的效果。
還比如,如何利用電腦工具幫助缺乏醫(yī)療資源的國家更廣泛地進(jìn)行眼疾診斷,這其中就包括了印度。印度擁有13億人口,總計缺少 127,000 名眼科醫(yī)生。Google 的機(jī)器學(xué)習(xí)模型診斷眼疾的準(zhǔn)確率,甚至略微高于一些通過美國認(rèn)證委員會認(rèn)證的眼科醫(yī)生。這個技術(shù)還有很大的潛能可以應(yīng)用到其它疾病的診斷,例如斯坦福的研究者近期已經(jīng)開始使用 TensorFlow 利用圖像進(jìn)行皮膚癌的診斷。
TensorFlow 是現(xiàn)在 GitHub 上世界第一的機(jī)器學(xué)習(xí)知識庫,其使用增長率遠(yuǎn)遠(yuǎn)高于其它同類型平臺。比利時公司Connecterra 就將TensorFlow 應(yīng)用到了牧場當(dāng)中,而澳大利亞的研究者則將此項技術(shù)用于判斷海牛種群的健康狀況。
Google 翻譯也用到了TensorFlow。隨著神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的引入,翻譯結(jié)果有了顯著提高。同時,結(jié)合了“計算機(jī)視覺”使得 Google 翻譯 App 能夠利用手機(jī)攝像頭進(jìn)行即時圖像翻譯,這項功能正是通過TensorFlow 在移動設(shè)備上的版本來實(shí)現(xiàn)的。在文藝領(lǐng)域,還有“Portrait Matcher” ,一個可以利用攝像頭將你的面部特征與類似藝術(shù)品匹配的功能。
柯潔戰(zhàn)后說:“未來是人工智能的。”而人工智能,終究是人類所開發(fā)的。
暫時我們也不必?fù)?dān)憂,人類將被機(jī)器所完全取代和統(tǒng)治。李開復(fù)的答案是,人工智能目前只有在符合以下三個前提的領(lǐng)域里,將全面戰(zhàn)勝人類:
第一,有海量的數(shù)據(jù);
第二,數(shù)據(jù)有標(biāo)準(zhǔn);
第三,單一領(lǐng)域。
在前不久的IT領(lǐng)袖峰會上,李彥宏也說:“強(qiáng)人工智能時代,也許永遠(yuǎn)不會到來。”
也許,機(jī)器并不值得我們?nèi)タ謶?。但真正可怕的事?shí),其實(shí)是,我們并不知道,人類會將它推向哪一步……