2017年10月19日凌晨,谷歌下屬公司 Deepmind 在《自然》(Nature)刊文,報(bào)告了新版、也是終版圍棋程序AlphaGoZero,可以從空白狀態(tài)學(xué)起,在無(wú)任何人類輸入的條件下,迅速自學(xué)圍棋,并已經(jīng)以100:0的戰(zhàn)績(jī)擊敗老版 AlphaGo,當(dāng)然,也能夠完勝任何人類對(duì)手。
柯潔,這位世界圍棋史上最年輕的四冠王,此前輸給阿爾法狗的世界頂級(jí)棋手在19號(hào)凌晨發(fā)了一條微博,“一個(gè)純凈、純粹自我學(xué)習(xí)的Alphago是最強(qiáng)的...對(duì)于alphago的自我進(jìn)步來(lái)講...人類太多余了?!?/span>
當(dāng)阿爾法狗第一次戰(zhàn)勝人類圍棋冠軍的時(shí)候,一個(gè)新的時(shí)代來(lái)臨了,雖然那時(shí)它還要大量的依賴人類已有的圍棋經(jīng)驗(yàn)。
這次,又一個(gè)時(shí)代來(lái)臨了,新的人工智能系統(tǒng)可以從零學(xué)起,超越人類。
這是一個(gè)所有的人和公司,都容易掉隊(duì)的時(shí)代。
讓我們?cè)倩仡櫼幌掳柗ü返倪M(jìn)化歷程:
2016年1月27日,國(guó)際頂尖期刊《自然》封面文章報(bào)道,谷歌研究者開(kāi)發(fā)的名為“阿爾法圍棋”(AlphaGo)的人工智能機(jī)器人,以5:0完勝歐洲圍棋冠軍、職業(yè)二段選手樊麾。
2016年3月9日,韓國(guó)首爾,在谷歌發(fā)起的“人機(jī)大戰(zhàn)”第一局中,手握14個(gè)世界冠軍頭銜的韓國(guó)圍棋天王李世石轟然倒下,最終AlphaGo以4:1贏得這場(chǎng)比賽。
2017年年初,AlphaGo Master創(chuàng)造了連續(xù)60場(chǎng)對(duì)人類不敗的恐怖戰(zhàn)績(jī),因此圍棋界都希望能夠有一名大神站出來(lái)打敗AlphaGo,以證明人類的實(shí)力。
2017年5月23日-27日,AlphaGo將與圍棋世界冠軍柯潔等為代表的中國(guó)頂尖棋手進(jìn)行圍棋對(duì)弈。最終柯潔負(fù)于AlphaGo。
2017年10月19日,DeepMind今天發(fā)布新版本AlphaGo程序,經(jīng)過(guò)三天的訓(xùn)練,該系統(tǒng)能夠擊敗AlphaGo Lee,后者是去年擊敗了韓國(guó)選手李世石,勝率是100比0。經(jīng)過(guò)大約40天的訓(xùn)練后,AlphaGo Zero完勝AlphaGo Master。
如果說(shuō),此前的阿爾狗戰(zhàn)勝李世石跟絕大多數(shù)人沒(méi)什么直接關(guān)系,那么,這次阿法狗的新進(jìn)化跟每個(gè)人都有關(guān)系。不是未來(lái)有關(guān)系,而是現(xiàn)在就有關(guān)。
我在北大讀博士期間陰差陽(yáng)錯(cuò)機(jī)緣巧合,做過(guò)一個(gè)智能“專家系統(tǒng)”項(xiàng)目。專家系統(tǒng)是人工智能的一個(gè)領(lǐng)域。這兩天看到阿爾法狗的新聞,忍不住聊聊。
1. 狗大師的學(xué)霸秘訣
戰(zhàn)勝柯潔的阿爾法狗系統(tǒng)稱為AlphaGo Master,也就是“阿爾法狗大師”,簡(jiǎn)稱狗大師。
DeepMind公司給這款人工智能起的名字一點(diǎn)兒都沒(méi)夸張,因?yàn)?,最終結(jié)果是狗大師把人類圍棋大師打的一敗涂地。
拋開(kāi)技術(shù)細(xì)節(jié),狗大師的秘訣其實(shí)非常簡(jiǎn)單。
第一, 精準(zhǔn)的讀懂棋譜。
讀懂棋譜首先意味著知道基本的游戲規(guī)則,比如在什么情況下一個(gè)子會(huì)被吃掉(無(wú)論是象棋還是圍棋),比如什么算輸,什么算贏。
顯然,這一切都能用數(shù)學(xué)表達(dá),棋盤上的所有東西都是可以數(shù)字化的。
在這個(gè)階段,阿爾狗不需要人類任何經(jīng)驗(yàn),只要懂得已經(jīng)訂好的規(guī)則。
讀懂棋譜的更進(jìn)一步是得讀懂以往的棋局。
實(shí)際上它不需要讀懂,它只需要把以往的棋局都存儲(chǔ)起來(lái)方便調(diào)用就行了。而這對(duì)于它來(lái)說(shuō)非常簡(jiǎn)單,因?yàn)椋魏纹寰侄际强梢詳?shù)字化的。
所以,狗大師的第一步就是把規(guī)則和以往的棋局?jǐn)?shù)字化。
第二, 會(huì)決策。
簡(jiǎn)單的說(shuō),狗大師得知道,好歹。例如,在同樣的情況下,哪一招更高明。這一點(diǎn)至關(guān)重要,但是對(duì)于阿爾狗來(lái)說(shuō),并不困難。因?yàn)橐磺卸际怯?jì)算,并且最終變成了加減法的計(jì)算。
一旦狗大師從以往的棋局中看懂了同樣情境下哪一招更高明,那么它就厲害了。
比如,柯潔在棋盤上放了一顆子。狗大師在以往的棋局里搜索,同樣的情境下,下那個(gè)子勝算最大。把最大的找出來(lái)就可以了。
所以,說(shuō)到底,這第二步就是會(huì)模仿就行了。
狗大師根本不需要自己想出什么妙招,它需要做的就是拷貝以往人類大師的棋招。在對(duì)弈的每一時(shí)刻,它只需要找到最有效的干掉對(duì)方的招,拿出來(lái)用就行了。
實(shí)際情形是阿爾法狗有兩個(gè)復(fù)雜的決策系統(tǒng):策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)。策略網(wǎng)絡(luò)負(fù)責(zé)預(yù)測(cè)對(duì)手的下一個(gè)子放在哪兒,而價(jià)值網(wǎng)絡(luò)負(fù)責(zé)判斷相應(yīng)對(duì)手的招數(shù)自己怎么下才能贏。兩者都需要計(jì)算大量的可能性,都需要找出最可能的選擇。
第三, 大量模仿
顯然,狗大師能夠找到最有效的干掉對(duì)方的招,取決于它的“腦子”里有多少以往的棋局,取決于它到底有多少可供選擇的高招。
顯然,它學(xué)習(xí)的量越大,所學(xué)習(xí)的棋譜質(zhì)量越高,它就越厲害。
顯然,在這一點(diǎn)上,計(jì)算機(jī)是具有絕對(duì)優(yōu)勢(shì)的。人類能夠記住多少棋譜還沒(méi)有統(tǒng)計(jì)過(guò),但肯定是有上限的,而計(jì)算機(jī)的存儲(chǔ)量沒(méi)有上限!
當(dāng)然,下棋是要有時(shí)間限制的,落子的速度很重要,而對(duì)于計(jì)算機(jī)而言,這個(gè)速度顯然是可以無(wú)限提升的。
起初戰(zhàn)勝李世石和柯潔的阿爾狗系統(tǒng)是依賴人類經(jīng)驗(yàn)的。不但如此,它要學(xué)習(xí)巨量的曾經(jīng)有過(guò)的棋譜,做巨大量的計(jì)算,在大量可能性中最大概率的預(yù)測(cè)對(duì)手的下一步,并找出最有可能致勝的招數(shù)。
這就相當(dāng)于一個(gè)人要學(xué)一門知識(shí)和技能,需要閱讀、鉆研、模仿大量的參考書(shū)。這個(gè)段位學(xué)習(xí)者的水平高下,取決于研習(xí)速度的快慢、和研習(xí)量的大小。
比如面對(duì)同樣的知識(shí)領(lǐng)域,研習(xí)過(guò)100本書(shū)/做過(guò)10萬(wàn)道題目的人,輕松秒殺另外一個(gè)只研習(xí)過(guò)一本書(shū)/做了100道題目的人。當(dāng)然,假設(shè)二者對(duì)學(xué)習(xí)都是一樣認(rèn)真的。
說(shuō)幾個(gè)具體的例子。
我的一位學(xué)弟叫童哲,物理競(jìng)賽保送到北大。他高中的時(shí)候,做過(guò)40本物理參考書(shū),包含高考級(jí)和競(jìng)賽級(jí)的。每本1000題,總共4萬(wàn)題左右。
你問(wèn)他憑什么保送北大?憑這個(gè)。
我的兄弟大威,也是同班同學(xué),從英語(yǔ)30多分到全班第一,用了兩個(gè)月的時(shí)間,總共做了1萬(wàn)多道英語(yǔ)題目(包含詳細(xì)的筆記)。他后來(lái)上了清華。
你問(wèn)他憑什么上清華?憑這個(gè)。
比如我,高三平均每天做了20頁(yè)學(xué)習(xí)筆記,一年按320天計(jì)算,總計(jì)6400頁(yè)筆記。我憑什么一年逆襲進(jìn)北大?很容易回答。
所以,對(duì)于許多叫囂“題海戰(zhàn)術(shù)不管用”的人來(lái)說(shuō),不是別有用心,就是……(說(shuō)出來(lái)很難聽(tīng),不說(shuō)了,你懂得)。
當(dāng)一個(gè)人沒(méi)有什么高級(jí)的學(xué)習(xí)方法之前,題海戰(zhàn)術(shù)就是方法。
無(wú)論在什么領(lǐng)域,當(dāng)你想不出什么妙招的時(shí)候,用“量”壓倒對(duì)方,就是妙招。
阿法狗此前戰(zhàn)勝人類冠軍就是這么干的!它的學(xué)習(xí)量可以遠(yuǎn)遠(yuǎn)超過(guò)任何人類,它的學(xué)習(xí)速度永遠(yuǎn)可以更快,而且它目標(biāo)明確,永不疲倦,不帶有任何情緒!
中國(guó)古人形容一個(gè)人的高境界有個(gè)說(shuō)法,“心空似水,意冷于冰,神靜如岳,氣行如泉”。
顯然,狗大師做到了。人類在愁眉苦臉,它在夯吃夯吃的干。由于計(jì)算機(jī)技術(shù)的發(fā)展,它連夯吃夯吃的聲音的都沒(méi)有了,而是不動(dòng)聲色的干掉了一個(gè)個(gè)人類大師。
所以,對(duì)于絕大多數(shù)行業(yè)和領(lǐng)域,尤其是對(duì)于有標(biāo)準(zhǔn)化考試的領(lǐng)域,如果你目標(biāo)明確,能夠定量的、精準(zhǔn)的、大量的模仿,不需要有什么情緒,你就可以不動(dòng)聲色、悄無(wú)聲息的干掉絕大大多數(shù)對(duì)手!
這就是學(xué)霸的秘密。
2. 狗小零的學(xué)神秘訣
AlphaGo Zero它的獨(dú)門秘籍,是把自己當(dāng)做老師,從一張白紙開(kāi)始,零基礎(chǔ)學(xué)習(xí),在短短3天內(nèi),成為頂級(jí)高手。
“AlphaGo在兩年內(nèi)達(dá)到的成績(jī)令人震驚?,F(xiàn)在,AlphaGo Zero是我們最強(qiáng)版本,它提升了很多。Zero提高了計(jì)算效率,并且沒(méi)有使用到任何人類圍棋數(shù)據(jù),”AlphaGo之父、DeepMind聯(lián)合創(chuàng)始人兼CEO 戴密斯·哈薩比斯(Demis Hassabis)說(shuō)。
AlphaGo此前的版本,結(jié)合了數(shù)百萬(wàn)人類圍棋專家的棋譜,以及強(qiáng)化學(xué)習(xí)的監(jiān)督學(xué)習(xí)進(jìn)行了自我訓(xùn)練。在戰(zhàn)勝人類圍棋職業(yè)高手之前,它經(jīng)過(guò)了好幾個(gè)月的訓(xùn)練,依靠的是多臺(tái)機(jī)器和48個(gè)TPU(谷歌專為加速深層神經(jīng)網(wǎng)絡(luò)運(yùn)算能力而研發(fā)的芯片)。
AlphaGo Zero的能力則在這個(gè)基礎(chǔ)上有了質(zhì)的提升。最大的區(qū)別是,它不再需要人類數(shù)據(jù)。也就是說(shuō),它一開(kāi)始就沒(méi)有接觸過(guò)人類棋譜。研發(fā)團(tuán)隊(duì)只是讓它自由隨意地在棋盤上下棋,然后進(jìn)行自我博弈。值得一提的是,AlphaGoZero還只用到了一臺(tái)機(jī)器和4個(gè)TPU,極大地節(jié)省了資源。
“這些技術(shù)細(xì)節(jié)強(qiáng)于此前版本的原因是,我們不再受到人類知識(shí)的限制,它可以向圍棋領(lǐng)域里最高的選手——AlphaGo自身學(xué)習(xí)?!?/span> AlphaGo團(tuán)隊(duì)負(fù)責(zé)人大衛(wèi)·席爾瓦(Dave Sliver)說(shuō)。
據(jù)大衛(wèi)·席爾瓦介紹,AlphaGo Zero使用新的強(qiáng)化學(xué)習(xí)方法,讓自己變成了老師。系統(tǒng)一開(kāi)始甚至并不知道什么是圍棋,只是從算法開(kāi)始,進(jìn)行了自我對(duì)弈。
隨著自我博弈的增加,系統(tǒng)提升預(yù)測(cè)下一步的能力,最終贏得比賽。更為厲害的是,隨著訓(xùn)練的深入,DeepMind團(tuán)隊(duì)發(fā)現(xiàn),AlphaGo Zero還獨(dú)立發(fā)現(xiàn)了游戲規(guī)則,并走出了新策略,為圍棋這項(xiàng)古老游戲帶來(lái)了新的見(jiàn)解。
對(duì)于DeepMind來(lái)說(shuō),圍棋并不是AlphaGo的終極奧義,他們的目標(biāo)始終是要利用AlphaGo打造通用的、探索宇宙的終極工具。
顯然,如果沒(méi)有意外,未來(lái)將出現(xiàn)一個(gè)探索宇宙的人工智能大軍!而對(duì)于人類來(lái)說(shuō),還有什么比探索宇宙更具根本性的事情呢?因?yàn)椋钪婢褪且磺小?/span>
阿爾法狗新進(jìn)化最殘酷的地方是,它已經(jīng)不再需要人類以往的圍棋經(jīng)驗(yàn)!
我們?cè)撛鯓永斫膺@個(gè)事實(shí)?
阿爾法狗的最新超級(jí)版稱之為AlphaGo Zero,也就是“阿爾法狗零號(hào)”,簡(jiǎn)稱“狗小零”。
顯然,狗小零比狗大師厲害太多。厲害在哪里呢?負(fù)責(zé)人說(shuō),他們搞出來(lái)了一個(gè)“自我學(xué)習(xí)算法”。它在自己跟自己下棋的過(guò)程中,不斷學(xué)習(xí)進(jìn)化。這聽(tīng)起來(lái)像是周伯通的雙手互博。打輸了的那只手,就要想辦法贏了另外一只手,于是,兩只手越來(lái)越厲害。如此下去,自然越來(lái)越容易打敗對(duì)手。
自我學(xué)習(xí)算法的實(shí)質(zhì)是什么?舉一個(gè)大家都知道的例子。
比如做數(shù)學(xué)題,有兩種思維套路。
一種做法是參考書(shū)做法。遇到一道題目,首先想自己曾經(jīng)做過(guò)的參考書(shū)上的類似題目。如果類型一致,一步步套上去,就能搞定。哪怕題目的具體數(shù)字不一樣,都沒(méi)關(guān)系。比如這套題是3個(gè)蘋果,參考書(shū)上的類似題目是4個(gè)橙子。
第二種做法是從基本概念、基本定義、基本運(yùn)算法則出發(fā),甚至是從歸納出來(lái)的解題套路(也是算法)出發(fā),無(wú)需別人的經(jīng)驗(yàn),直接解題!
顯然第二種比第一種更厲害,因?yàn)椴坏淙欢疫€知其所以然。第二種類型的人,更有深度,而且學(xué)習(xí)方法的可擴(kuò)展性強(qiáng),很容易把一門知識(shí)的成功移植到另外一門知識(shí)。
阿爾法零號(hào)就是第二種類型,也就是所謂的從“第一性原理”出發(fā)解決問(wèn)題。
那么這些原始的“自我學(xué)習(xí)算法”是誰(shuí)設(shè)計(jì)的呢?是知識(shí)工程師!
搞出“自我學(xué)習(xí)算法”是知識(shí)密集型的工作。阿爾法狗團(tuán)隊(duì)是全世界最聰明的大腦。他們抽象出學(xué)習(xí)策略,然后將它們轉(zhuǎn)化成算法。
事實(shí)上,人類的頂尖高手都有自己的學(xué)習(xí)策略、致勝策略,但是與計(jì)算機(jī)相比,個(gè)體的人進(jìn)化速度實(shí)在太慢了。
再舉個(gè)例子。
比如橋水基金是世界上規(guī)模最大的對(duì)沖基金,管理著好幾千億美元的資金。橋水的創(chuàng)始人雷.達(dá)里奧(Ray Dalio)總結(jié)出了他的解決問(wèn)題的套路。如下,分為5步。
第一,有明確的目標(biāo)。
第二,識(shí)別問(wèn)題,這些問(wèn)題不能容忍,因?yàn)樗鼈冏璧K你實(shí)現(xiàn)目標(biāo)。
第三,準(zhǔn)確診斷問(wèn)題,找到原因。
第四,制定計(jì)劃,圍繞你的問(wèn)題和目標(biāo)而明確地制定任務(wù)。
第五,執(zhí)行這些計(jì)劃,即完成這些任務(wù)。
達(dá)里奧說(shuō),“為了成功,你需要做好所有這些步驟”。他的意思是說(shuō),做不好這5步中的任何一步,你都很難成功,甚至根本不可能成功。如果成功意味著達(dá)成目標(biāo)的話。
如果你曾深度的思考過(guò)你切身經(jīng)歷過(guò)的事情,尤其是你曾經(jīng)取得成功的經(jīng)歷,你會(huì)發(fā)現(xiàn):
只要你持續(xù)認(rèn)真的做到如上5步,那么你就一定會(huì)把一件事情做的越來(lái)越好!
這就是所謂“自我學(xué)習(xí)的算法”。一個(gè)人如果這么去做,他就能從自己的經(jīng)驗(yàn)中學(xué)習(xí),把一件事情越做越好。
橋水基金之所以厲害,是因?yàn)樗膭?chuàng)始人Ray Dalio開(kāi)發(fā)出了“狗零號(hào)”的“自我學(xué)習(xí)算法”,他本人和他的公司都在運(yùn)行這個(gè)系統(tǒng)。
如果反思自己的經(jīng)歷,你會(huì)發(fā)現(xiàn),你思維清晰的按照這5個(gè)步驟做的經(jīng)歷其實(shí)并不多。
反思周圍人的經(jīng)歷,你會(huì)發(fā)現(xiàn),人們思維清晰的按照這個(gè)5個(gè)步驟做的人也不多。
這就是很少的人能夠高效達(dá)成目標(biāo)的原因。
但是,人們?yōu)槭裁春茈y實(shí)施上述5個(gè)步驟呢?
再舉一個(gè)例子。
例如我高考的時(shí)候所做的筆記,不是一般的筆記,而是稱之為進(jìn)步本。
這個(gè)技術(shù)有三個(gè)步驟:
第一, 針對(duì)當(dāng)天所學(xué),把做錯(cuò)之后改正的題目,不會(huì)做的弄懂的題目,當(dāng)天新學(xué)到的內(nèi)容,記錄到本子上;
第二, 隨時(shí)隨地的復(fù)習(xí)已經(jīng)記錄在本子上的內(nèi)容,如果是題目需要重做,如果是知識(shí)需要在大腦中復(fù)現(xiàn);
第三, 做測(cè)試題(模擬題),檢驗(yàn)自己的進(jìn)步,把做錯(cuò)的不會(huì)做的題目弄懂記錄在進(jìn)步本上。
我寫(xiě)了一系列的長(zhǎng)文介紹這個(gè)方法的來(lái)龍去脈,以及產(chǎn)生的效果。
事實(shí)上這個(gè)方法對(duì)于一切標(biāo)準(zhǔn)化考試都有效,是可以快速拿高分的。
有些人的成績(jī)突飛猛進(jìn),當(dāng)天就有效。
初三少年3周自學(xué)高中三年數(shù)學(xué),高考真題135
兩天學(xué)完1冊(cè)高中生物拿到90分是怎樣的體驗(yàn)
而有些人則沒(méi)有什么效果。
所有上述現(xiàn)象原因都是復(fù)雜的,但也可以歸結(jié)為一個(gè)原因:絕大多數(shù)人都不知道思維需要編程!
各行各業(yè)很厲害的人,都深知思維的法則。
例如剛剛提到的Ray Dalio。例如芒格稱巴菲特為“學(xué)習(xí)機(jī)器”,他自己意識(shí)一架超級(jí)“學(xué)習(xí)機(jī)器”。例如硅谷鋼鐵俠馬斯克自己成功的秘密在于善于從“第一性原理”思考。我可以說(shuō)說(shuō)的更具體一些。
比如,股神巴菲特在給格雷厄姆的《證券分析》(被成為投資圣經(jīng))寫(xiě)的序言中寫(xiě)到,他“讀遍了讀書(shū)館里每一本有關(guān)股票交易的書(shū)”。
這就是狗大師的秘訣!
巴菲特在給格雷厄姆的另外一本名著《聰明的投資者》寫(xiě)的序言中寫(xiě)道:
1950年年初,我閱讀了本書(shū)的第一版,那年我19歲。當(dāng)時(shí),我認(rèn)為它是有史以來(lái)投資論著中最杰出的一本。時(shí)至今日,我仍然認(rèn)為如此。
要想在一生中獲得投資成功,并不需要頂級(jí)的智商、超凡的商業(yè)頭腦或內(nèi)幕消息,而是需要一個(gè)穩(wěn)妥的知識(shí)體系作為決策基礎(chǔ),并且有能力控制自己的情緒,使其不會(huì)對(duì)這種體系造成侵蝕。
如果你遵從格雷厄姆所倡導(dǎo)的行為和商業(yè)準(zhǔn)則,那么,你將會(huì)獲得不錯(cuò)的投資結(jié)果。這種結(jié)果所反映出的更多成就,要超出你的想象。
巴菲特推崇、深究并遵從的格雷厄姆的“商業(yè)準(zhǔn)則”,本質(zhì)上就是算法,就是思維程序!
說(shuō)了半天,要成為任何領(lǐng)域的高手,既需要前人的經(jīng)驗(yàn)、又需要自己總結(jié)套路。這背后的關(guān)鍵是思維編程!
誰(shuí)都知道,人是有情緒、有情感的。
普遍的人生錯(cuò)位是該動(dòng)情的時(shí)候不動(dòng)情,不該動(dòng)情的時(shí)候亂動(dòng)情。
人生的高級(jí)的模式是,用情感提供動(dòng)力,用精準(zhǔn)無(wú)情的思維編程來(lái)實(shí)現(xiàn)自己的目標(biāo)。
無(wú)論阿爾法狗再厲害,人工智能再怎么厲害,人生永恒不變的主題是:勇猛精進(jìn)!
雷打不動(dòng)的勇猛精進(jìn)!
在一切的如意與不如意之中,勇猛精進(jìn)!
借阿爾法狗進(jìn)化事件,這里播一個(gè)廣告。
聯(lián)系客服