国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
AlphaGO憑什么戰(zhàn)勝李世石

    AlphaGO和李世石的第一局對局棋譜。(李世石執(zhí)黑)


    新聞背景

    昨天,谷歌旗下英國公司DeepMind 開發(fā)的AlphaGO 計算機程序,在與世界頂尖天才棋手李世石的五番棋對決中,以4:1取得完勝。此時此刻,想必每一個關(guān)注這個事件的人心里都有一個疑問,AlphaGO 到底是何方神圣?竟強到讓圍棋一代天驕李世石九段敗下陣來?

    ■ 任你千般招數(shù),我只亢龍有悔

    現(xiàn)在很多正在研究AlphaGO與李世石這幾盤對局的棋友,熱衷于按照人類的思考方式為AlphaGO的每一步落子賦予一個戰(zhàn)略意圖,然后討論合理與否。但事實上,AlphaGO和人類下棋思路很不一樣。人類下棋時的思路是多變的,根據(jù)盤面情形的不同,人類會把最基本的贏棋問題轉(zhuǎn)化成不同類型的子目標(biāo),時而考慮如何殺棋,如何做活,時而又考慮如何借助打擊對手?jǐn)U張地盤,如何制造劫爭。有時我們還會猜測對手在盤算什么,自己又如何“將計就計”來應(yīng)對等等。一旦確立了這些子目標(biāo),人類棋手便集中精力考慮具體戰(zhàn)術(shù)走法來完成這個子目標(biāo),而不是贏棋這個最終目標(biāo)。

    但是AlphaGO與人類思維最大的不同,就是沒有這種具有適應(yīng)性的戰(zhàn)略思考成分。事實上,今天AlphaGO 的“思考模式”,和20年前戰(zhàn)勝國際象棋世界冠軍卡斯帕羅夫的“深藍(lán)”是一樣的。對于一個給定的當(dāng)前盤面A,AlphaGO和深藍(lán)這樣的計算機,會對盤面A之后可能出現(xiàn)的大量局面變化所導(dǎo)致的不同結(jié)果分別進(jìn)行預(yù)判,然后綜合所有這些可能性的勝率分析結(jié)果,對最初給定的盤面A進(jìn)行一次評估。

    “在當(dāng)前局面下,我走在x點的話最終勝算幾何”,計算機就是通過不停地重復(fù)問自己這個單一問題來完成對弈的,大有點“任你千般招數(shù),我只一招亢龍有悔”的味道。

    ■ 需要融入人類圍棋知識經(jīng)驗

    既然AlphaGO和20年前的深藍(lán)思路一樣,為什么它能擁有以前計算機程序不曾達(dá)到的棋力呢?

    一種觀點認(rèn)為,“圍棋復(fù)雜度遠(yuǎn)比國際象棋高,因此AlphaGO的成功關(guān)鍵是避免了像深藍(lán)那樣窮舉所有可能性”。這其實是對搜索型程序的誤解,所謂“蠻力搜索”從來都不是“窮舉所有可能”。事實上,無論是圍棋還是國際象棋,其變化總數(shù)都遠(yuǎn)遠(yuǎn)超過宇宙中所有原子數(shù)量的總和,根本不可能有物理系統(tǒng)有這樣的“窮舉能力”。從深藍(lán)到AlphaGO,這些搜索型程序其實都只是考慮了盤面所有可能性中極小的一部分,和“窮盡所有變化”相比規(guī)模小到不值一提。

    更具體說,深藍(lán)時代的國際象棋程序,得益于擁有一個強大的評估函數(shù)。當(dāng)時人類國際象棋大師所擁有的知識已經(jīng)足夠精確,使得對盤面勝率的評估可以被直接手工編寫。圍棋這邊,AlphaGO之前的一流圍棋程序,大多借助圍棋專業(yè)知識來手工編寫搜索策略。這樣的程序目前已經(jīng)達(dá)到業(yè)余五段水平,但這些“傳統(tǒng)圍棋程序”中用到的圍棋知識仍然只是“入門級”的。一般而言,圍棋高手的知識并不像國際象棋中那樣精確,從而使得手工將圍棋知識經(jīng)驗寫入搜索算法的編程方式面臨很大挑戰(zhàn),這一直是阻礙傳統(tǒng)圍棋程序棋力進(jìn)一步提高的主要瓶頸。這次橫空出世的AlphaGO,主要就是突破了這個“知識融入”瓶頸。

    ■ 可以自我訓(xùn)練和改進(jìn)的程序

    AlphaGO的“圍棋知識升級”是由同一項技術(shù)帶來的——人工神經(jīng)網(wǎng)絡(luò)。這項技術(shù)的主要優(yōu)點是不需要手工編寫,而是通過程序自我改進(jìn)的方式,來表達(dá)比較“模糊”的領(lǐng)域知識和經(jīng)驗。

    由一條條指令組成的傳統(tǒng)“過程式”程序,固然對我們?nèi)祟惗灾庇^明了,但當(dāng)程序輸出有偏差時通常不能自我修正,而是需要人根據(jù)具體情況對程序進(jìn)行分析之后,才能找到應(yīng)該改動哪里,如何改動。但 “神經(jīng)網(wǎng)絡(luò)程序”在面對輸出誤差時,卻有一套既簡單又通用的自動修正方法。這樣,每完成一次計算,神經(jīng)網(wǎng)絡(luò)程序就可以通過比對輸出誤差來對自己進(jìn)行一次微調(diào),當(dāng)觀察了大量誤差數(shù)據(jù)之后,這些微調(diào)累加起來就有可能趨近一個誤差很小的神經(jīng)網(wǎng)絡(luò)程序。

    具體到AlphaGO,開發(fā)團隊建立一個包含上千萬個實戰(zhàn)盤面的數(shù)據(jù)集,每個盤面對應(yīng)一個實戰(zhàn)中的落子位置和最終勝負(fù)結(jié)果,然后根據(jù)這個數(shù)據(jù)集來“訓(xùn)練”人工神經(jīng)網(wǎng)絡(luò)預(yù)測落子位置和盤面勝率。面對數(shù)據(jù)集中的一個盤面,最開始的神經(jīng)網(wǎng)絡(luò)可能只是隨機無意義地做出的判斷,但通過和數(shù)據(jù)集中的“正確答案”之間的誤差進(jìn)行比對,神經(jīng)網(wǎng)絡(luò)可以逐漸修正自己的判斷輸出,使得這樣觀察了上千萬個誤差數(shù)據(jù)之后的神經(jīng)網(wǎng)絡(luò),可以做出大概正確的落子預(yù)測和勝率預(yù)測。

    事實結(jié)果證明,這樣通過海量數(shù)據(jù)迭代訓(xùn)練出來的神經(jīng)網(wǎng)絡(luò)模塊,可以比傳統(tǒng)的手工編寫知識的方式表達(dá)更多的圍棋領(lǐng)域知識和經(jīng)驗,因此配備了神經(jīng)網(wǎng)絡(luò)的蒙特卡洛搜索程序(也就是AlphaGO),棋力才呈現(xiàn)出飛躍式提升。

    ■ 訓(xùn)練AlphaGO更像“馴動物”

    但要注意到,這種人工神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)方式上和我們?nèi)祟愂墙厝徊煌?。人類從了解圍棋?guī)則,到理解前人總結(jié)的一般概念和要領(lǐng) (如棋理、手筋、定式),到練習(xí)局部攻殺 (俗稱做死活題),再到通過實戰(zhàn)把所學(xué)的各種“局部”知識融成一體,再到對已有對局復(fù)盤打譜,找出對棋局結(jié)果影響大的“關(guān)鍵手”,分析研究背后反映出的因果關(guān)系和邏輯規(guī)律,其間還要和其他棋手討論交換心得,甚至可能在某些時候從圍棋之外的生活經(jīng)驗得到啟發(fā)借鑒,然后又以非常微妙的方式運用于圍棋之中。所有以上步驟又再經(jīng)過反復(fù)循環(huán)之后,一個人類圍棋高手才逐漸誕生。

    與之不同的是,我們看到上面描述的訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)的方式,和馬戲團訓(xùn)練動物更類似,相當(dāng)于就是做對了給個吃的,做錯了打一鞭子,然后大量重復(fù)。拿AlphaGO來說,它“學(xué)棋”沒人類那么多手段,相當(dāng)于就是自己坐在那里默默看高手對局,數(shù)量多到世界上最勤奮的人幾十輩子也看不完,其間每一局每一步都通過比對自己與高手的差異,一點點校正自己的行為,以圖盡量模仿。這個校正過程本質(zhì)上可以看作是在同樣浩瀚無窮的原始“參數(shù)空間”中的一個“蠻力搜索”過程。

    人類和AlphaGO學(xué)習(xí)方式的不同,一個最大的后果就是AlphaGO這樣的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),必須要極其海量的數(shù)據(jù)堆砌才有可能體現(xiàn)出效果。在AlphaGO的訓(xùn)練過程中就發(fā)生了一個小插曲:一開始,他們使用來自16萬盤棋中的數(shù)據(jù)來訓(xùn)練AlphaGO,但效果卻不佳。為此開發(fā)團隊不得不通過AlphaGO自弈的方式,重新產(chǎn)生了3000萬盤棋做訓(xùn)練數(shù)據(jù)。這帶給我們一個重要的信息就是,AlphaGO使用的神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時對數(shù)據(jù)量要求非常驚人,即使是十萬量級的數(shù)據(jù)規(guī)模仍然不能滿足要求,而是一定要通過其他手段達(dá)到百萬甚至千萬的量級。

    延伸閱讀

    AlphaGO戰(zhàn)勝李世石

    并不代表人工智能已接近人類

    AlphaGO戰(zhàn)勝李世石這一事件,確實給很多人觀念上的巨大沖擊。有些人認(rèn)為,圍棋是檢驗人類智能的標(biāo)準(zhǔn),圍棋下得好的人大都思維敏捷聰明絕頂,所以計算機在圍棋棋盤上戰(zhàn)勝人類,預(yù)示著人工智能超越人類智能腳步的臨近。

    但筆者認(rèn)為,這種理解恐怕帶有一定“恐慌情緒”——速算能力同樣是一個人智力超群的標(biāo)志,但最聰明的人也算不過兜里的智能手機,可沒見誰擔(dān)心自己的手機比自己智商高。況且對于和圍棋情況類似的國際象棋,機器早已超越人類多年(人類國際象棋棋手下棋時同樣需要綜合棋感、推理、計算、定式知識等思考手段)。

    這些事實都一再證明,通常用于檢驗人類智能的標(biāo)準(zhǔn),未必是檢驗“智能”程度的一般原則,尤其不適用于檢驗機器智能。從專業(yè)角度看,通用性才是智能的一般標(biāo)準(zhǔn),一個物理系統(tǒng)的“智能”體現(xiàn)為它在各種不同環(huán)境中都能更好完成既定目標(biāo)的“全才”能力。

    那么機器要怎樣才能“證明自己的智商”呢?既然客觀事實已經(jīng)證明用于人類的智能標(biāo)準(zhǔn)對機器不再有效,我們就應(yīng)該放棄固有的思維慣性,回歸到智能的原始定義去檢驗機器智能。AlphaGO戰(zhàn)勝了人類高手,這說明AlphaGO圍棋下的好,但并不能立即說明AlphaGO智力超群。圍棋上你下不過AlphaGO,0:1??墒请S便再找一萬個任務(wù)來你都比AlphaGO強,總比分10000:1。

    事實上,現(xiàn)在學(xué)術(shù)界已經(jīng)有人開始挑戰(zhàn)“通用人工智能”,可以說這也是人工智能領(lǐng)域的“初心所在”。比如這次做出AlphaGO的DeepMind公司也致力于此。他們做了一個程序可以同時在幾百種視頻游戲中都超出人類平均水平,是可喜的進(jìn)展。但這也不過是幾百比零而已,我們一個人可以解決的問題何止萬千,按“通用性”標(biāo)準(zhǔn)來看,此時此刻的機器智能程度遠(yuǎn)遠(yuǎn)不及人類萬分之一。

    綜上所述,現(xiàn)在像“動物”一樣學(xué)習(xí),“一根筋”式思考的AlphaGO程序,之所以可以戰(zhàn)勝李世石這樣的頂級棋手,不是因為它此時已經(jīng)像人類一樣思考和學(xué)習(xí),更不是因為它已經(jīng)達(dá)到了“超人”的智力水平。當(dāng)然,圍棋被稱為人工智能研究的果蠅,AlphaGO帶來的事實結(jié)果和其中所用技術(shù),肯定會為人工智能學(xué)術(shù)界帶來很多啟發(fā),毫無疑問是偉大的里程碑。但這距離公眾擔(dān)心的機器智能威脅人類智能的局面,還尚且遙遠(yuǎn)。

    (本文作者在微軟亞洲研究院任副研究員期間曾從事圍棋AI相關(guān)研究,對于此次AlphaGO事件的進(jìn)一步深入介紹,作者在3月底即將出版的《NEWTON科學(xué)世界》雜志4月號有專文刊載。)

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
【火線速遞】關(guān)于Google人工智能圍棋的訪談
★ALphaGO發(fā)明者是誰?AlphaGo是怎樣模擬人類“思考”的
人類迎來與人工智能共舞新時代下一步棋怎么走?
人機大戰(zhàn)李世石和阿爾法 誰的腦子更快?
人類會被機器奴役嗎
豆瓣8.8,這部良心好片,比恐怖片還恐怖一百倍!
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服