国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
快訊!柯潔人機(jī)大戰(zhàn)首戰(zhàn)惜敗 深度拆解AlphaGo套路

  智東西(公眾號(hào):zhidxcom)

  文 | Lina

  智東西5月23日下午,今天,世界圍棋第一人柯潔與DeepMind旗下的AlphaGo進(jìn)行了一場(chǎng)長(zhǎng)達(dá)4個(gè)半小時(shí)的圍棋對(duì)戰(zhàn),最終柯潔僅以1/4子的差距惜敗AlphaGo,這場(chǎng)從上午10點(diǎn)半開始的鏖戰(zhàn)終于告一段落。

  這是本次圍棋大賽中柯潔對(duì)戰(zhàn)AlphaGo三場(chǎng)比賽中的頭一場(chǎng),柯潔執(zhí)黑先行。與年初披著“Master”馬甲的連勝60場(chǎng)時(shí)不同,這次“柯Go大戰(zhàn)”下的是每方時(shí)長(zhǎng)3小時(shí)的慢棋,而不是每手30秒快棋,對(duì)人類有著一定優(yōu)勢(shì)。

  理論上本輪比賽將持續(xù)3+3=6小時(shí),但最終柯潔幾近耗盡3小時(shí),AlphaGo僅用了1個(gè)多小時(shí)。比賽后期柯潔頻頻有咬嘴唇、抓頭發(fā)等焦慮的小動(dòng)作,看得觀眾也不禁緊張起來。在最終只剩十幾分鐘、敗局已定時(shí),柯潔仍堅(jiān)持下完全局。

(賽事焦灼時(shí)的柯潔)

(觀棋室里人山人海,由專業(yè)圍棋家進(jìn)行講解)

  AlphaGo是由DeepMind團(tuán)隊(duì)的戴密斯·哈薩比斯、大衛(wèi)·席爾瓦、黃士杰等開發(fā)的一款人工智能程序。2016年3月,AlphaGo曾以5:3戰(zhàn)勝韓國棋手李世石,成為第一個(gè)擊敗人類職業(yè)圍棋選手的電腦程序。2016年12月底,AlphaGo身披“Master”馬甲,5天內(nèi)橫掃中日韓棋壇,最終以60場(chǎng)連勝紀(jì)錄告退。

  讀完本文,你可以知道以下問題的答案:

  1)年初不是PK過了嗎?怎么又來?

  2)為什么AI老盯著圍棋不放?

  3)AlphaGo到底是怎么下棋的?(最通俗易懂版本解釋)

  4)德?lián)?、圍棋、象棋,下一個(gè)被AI入侵的領(lǐng)域是啥?

  5)AlphaGo的技術(shù)有什么現(xiàn)實(shí)意義?

(10點(diǎn)半開場(chǎng)第一手)

一、說在前面

  其實(shí),柯潔與AlphaGo的這場(chǎng)比賽開始前,勝率并不被多少人看好。就連柯潔本人在四月初的發(fā)布會(huì)上,也用上了“懷有必死的信念,不會(huì)輕易言敗”這種情懷悲壯的詞語,昨夜11點(diǎn)半更是在微博發(fā)布了一條名為《最后的對(duì)決》的賽前感言。

  “無論輸贏,這都將是我與人工智能最后的三盤對(duì)局”

  “現(xiàn)在的AI進(jìn)步之快遠(yuǎn)超我們的想象。像國產(chǎn)的絕藝、日產(chǎn)的ZEN雖然和AIphago還有著較大差距,但已經(jīng)表現(xiàn)出超強(qiáng)的實(shí)力了…”

  “我相信未來是屬于人工智能的。可它始終都是冷冰冰的機(jī)器,與人類相比,我感覺不到它對(duì)圍棋的熱情和熱愛……”

  如此沉重,如此傷懷,很難想象這是曾經(jīng)意氣風(fēng)發(fā)的天才少年。去年3月9日李世石1:4落敗AlphaGo時(shí),年僅19歲的他曾在微博放出豪言——“就算阿法狗戰(zhàn)勝了李世石,但它贏不了我”,彼時(shí)尚不知柯潔是何方神圣的吃瓜群眾對(duì)其一頓群嘲,接著立刻被刷刷刷一溜世界冠軍的履歷反轉(zhuǎn)打臉的劇情看得人大呼過癮。國內(nèi)大眾向來是偏愛柯潔的,我們都愛聽傳奇故事,愛看任性的少年天才打破陳規(guī),揚(yáng)名立萬,如同起點(diǎn)網(wǎng)文一般的人生贏家。

  此役戰(zhàn)敗,著實(shí)讓人唏噓不已。

二、年初不是PK過了嗎?怎么又來?

  其實(shí),這并不是柯潔與AlphaGo的第一次交手。

  2016年12月底,一位身披Master馬甲的神秘棋手突然出現(xiàn),5天內(nèi)橫掃中日韓棋壇,包括當(dāng)時(shí)年僅19的三次世界大賽冠軍柯潔九段(今年20歲)、韓國等級(jí)分第一樸廷桓九段、中國名人戰(zhàn)冠軍連笑七段等,甚至激起了業(yè)內(nèi)64歲泰斗聶衛(wèi)平參戰(zhàn),最終在連勝60場(chǎng)后宣告揭曉真身——就是AlphaGo。

  既然已經(jīng)PK過了,為什么又要比一次呢?

  原來在年底時(shí),Master與各位棋手下的是30秒快棋,對(duì)于擁有強(qiáng)大計(jì)算能力的電腦來說,優(yōu)勢(shì)非常明顯。而本次柯潔 vs AlphaGo下的是慢棋,有3小時(shí)的思考時(shí)間,對(duì)于人類比較有利。

  此外,本次柯潔與AlphaGo下的是“三番棋”,無論輸贏都將下滿三局,下兩輪比賽將分別在本周四(25號(hào))與本周六(27號(hào))的同一時(shí)間進(jìn)行,大賽同時(shí)還設(shè)有150萬美元獎(jiǎng)金。

三、為什么AI老盯著圍棋不放?

  很多人其實(shí)都對(duì)AlphaGo下棋的套路存在誤會(huì),認(rèn)為它是程序嘛,那用最簡(jiǎn)單(最暴力)的方法——窮舉,自然是最有效的。

  也……不是不行。但我們先來算算窮舉一共會(huì)出現(xiàn)多少情況。

  普林斯頓研究人員曾經(jīng)做過這樣一個(gè)統(tǒng)計(jì)項(xiàng)目,對(duì)于一個(gè)標(biāo)準(zhǔn)的圍棋棋盤而言,一共有19×19=361個(gè)位置,每個(gè)位置存在黑子、白子、空,3種情況。因此一局棋面理論上有3^361種可能。但根據(jù)圍棋規(guī)則,不是所有位置都可合法落子,因此在排除掉所有不合法的棋局后,精確的合法棋局?jǐn)?shù)為——

  ……

  你真的想知道嗎?……

  深呼吸……

  ……

  208168199381979984699478633344862770286522453884530548425639456820927419612738015378525648451698519643907259916015628128546089888314427129715319317557736620397247064840935局。

  讓一臺(tái)計(jì)算機(jī)暴力算法窮舉……也不是不行,普林斯頓的研究人員這么試過一遍,使用15TB硬盤空間、8-16核處理器、192GB內(nèi)存的服務(wù)器將這約等于2.08×10^170局棋全部窮舉出來,大概需要幾個(gè)月的時(shí)間。按3個(gè)月來算的話,如果AlphaGo按照這個(gè)配置每下一步棋都將所有情況窮舉一遍,那么這盤棋下完的時(shí)候,今年20歲的柯潔已經(jīng)是六十多歲的老人家了……

四、AlphaGo到底是怎么下棋的?(最通俗易懂版本解釋)

  當(dāng)然啦,上文的這個(gè)比喻有些偷換概念,而且AlphaGo的配置比這要高出許多。當(dāng)年和李世石下棋時(shí),AlphaGo配備了1920個(gè)CPU加280個(gè)GPU,如今經(jīng)過一年多的軟硬件升級(jí),自然將計(jì)算能力武裝到了牙齒。

  不過,AlphaGo用的真的不是窮舉,而是一套結(jié)合了深度學(xué)習(xí)(Deep Learning)與增強(qiáng)學(xué)習(xí)(Reinforcement Learning)的系統(tǒng)。DeepMind團(tuán)隊(duì)在《自然》雜志上發(fā)表的《用深度神經(jīng)網(wǎng)絡(luò)和樹搜索掌握圍棋博弈(Mastering the Game of Go with Deep Neural Networks and Tree Search)》論文中詳細(xì)介紹了AlphaGo是怎么下棋的,此處不展開講了,只做一個(gè)粗淺的流程介紹:

  1)分析專業(yè)棋手棋譜,得到兩個(gè)結(jié)果,快速走棋策略(Rollout Policy)與策略網(wǎng)絡(luò)(SL Policy Network)。其中快速走棋策略類似于人觀察盤面獲得的“直覺”,使用線性模型訓(xùn)練;策略網(wǎng)絡(luò)則經(jīng)過深度學(xué)習(xí)模型訓(xùn)練進(jìn)行分析,類似于人類的“深思熟慮”。

  2)用新的策略網(wǎng)絡(luò)與先前訓(xùn)練好的策略網(wǎng)絡(luò)互相對(duì)弈,利用增強(qiáng)學(xué)習(xí)來修正參數(shù),最終得到增強(qiáng)的策略網(wǎng)絡(luò)(RL Policy Network),類似于人類左右互搏后得到一個(gè)“更加深思熟慮”的結(jié)果,對(duì)某一步棋的好壞進(jìn)行判斷。

  3)將所有結(jié)果組成一個(gè)價(jià)值網(wǎng)絡(luò)(Value Network),對(duì)整個(gè)盤面進(jìn)行“全局分析”判斷,圖中藍(lán)色越深的位置贏面越大,這樣可以讓程序有大局觀,不會(huì)因蠅頭小利而輸?shù)粽麍?chǎng)比賽。

  4)綜合“直覺”、“深思熟慮”、“全局分析”的結(jié)果進(jìn)行評(píng)價(jià),循環(huán)往復(fù),找出最優(yōu)落子點(diǎn)。

  微軟亞洲研究院主管研究員鄭宇與微軟亞洲研究院副研究員張鈞波在多次論文閱讀原文并收集了大量其他資料后,一起完成了一張更為詳細(xì)的AlphaGo原理流程圖,此處轉(zhuǎn)載作以解釋,版權(quán)歸兩位作者所有。

五、德?lián)?、圍棋、象棋,下一個(gè)被AI入侵的領(lǐng)域是啥?

  AlphaGo中的“Go”,在英語中就是“圍棋”的意思,AlphaGo顧名思義就是一款專門為圍棋打造的程序。不過,DeepMind團(tuán)隊(duì)曾經(jīng)透露下一階段會(huì)轉(zhuǎn)移目標(biāo),向暴雪的即時(shí)戰(zhàn)略游戲《星際爭(zhēng)霸》發(fā)起挑戰(zhàn),再次志得意滿之后,星際的高手們請(qǐng)作好心理準(zhǔn)備,下一個(gè)擂臺(tái)可能就是發(fā)生在人族、神族和蟲族的世界里了。

  其實(shí)早在2013年,DeepMind就在NIPS上發(fā)表《用深度增強(qiáng)學(xué)習(xí)玩Arari游戲(Playing Atari with Deep Reinforcement Learning)》這一論文讓機(jī)器像人類一樣玩Atari游戲,即只接收屏幕像素輸入,也只產(chǎn)生視頻游戲控制器上的按壓信號(hào),也算是個(gè)熱愛玩游戲的AI團(tuán)隊(duì)了。

  其實(shí)從第一臺(tái)計(jì)算機(jī)問世以來,人們就不停嘗試著編寫更加強(qiáng)大高效的計(jì)算機(jī)程序,以期電腦有朝一日能夠戰(zhàn)勝人類。在過去的二十多年里,有好次次人機(jī)大戰(zhàn)給人們留下深刻的印象。

  1997年5月,IBM公司的“深藍(lán)”超級(jí)計(jì)算機(jī)以2勝1負(fù)3平的戰(zhàn)績(jī)戰(zhàn)勝了當(dāng)時(shí)的世界國際象棋大師冠軍——卡斯帕羅夫(ГарриКимовичКаспаров)。其實(shí)從今天看來,“深藍(lán)”還算不上足夠智能,主要依靠強(qiáng)大的計(jì)算能力窮舉所有路數(shù)來選擇最佳策略。當(dāng)時(shí)的“深藍(lán)”每秒可運(yùn)算2億步,在全球超級(jí)計(jì)算機(jī)中排第259位。

  據(jù)說在比賽中,第二局的完敗讓卡斯帕羅夫深受打擊,他的斗志和體力在隨后3局被拖垮,在決勝局中僅19步就宣布放棄。IBM拒絕了卡斯帕羅夫的再戰(zhàn)請(qǐng)求,拆卸了“深藍(lán)”,因而卡斯帕羅夫后來雖多次與電腦戰(zhàn)平,卻無法再找深藍(lán)“復(fù)仇”。

  2011年,與“深藍(lán)”同樣出自IBM公司的人工智能程序“沃森”在美國老牌智力問答節(jié)目《危險(xiǎn)邊緣》中挑戰(zhàn)兩位人類冠軍。“沃森”存儲(chǔ)了2億頁的數(shù)據(jù),其中包括了各種百科全書、新聞、詞典、文學(xué)書籍等,還能根據(jù)比賽獎(jiǎng)金的數(shù)額、局面的領(lǐng)先或落后情況、自己是否擅長(zhǎng)該領(lǐng)域的問題來判斷自己是否要搶答某一個(gè)問題。最終,沃森輕松戰(zhàn)勝兩位人類冠軍。

  在今年1月20日《最強(qiáng)大腦》人機(jī)大戰(zhàn)第三場(chǎng)的比賽中,百度大腦2比0輕松戰(zhàn)勝人類選手王昱珩。在這場(chǎng)比賽中,百度大腦和“水哥”王昱珩比拼的仍然是圖像識(shí)別。通過三段在夜幕下分別從行車記錄儀、高位攝像頭、和手機(jī)中拍到的模糊動(dòng)態(tài)影像,雙方需要記住三名不同識(shí)別對(duì)象的面部特征,然后從節(jié)目現(xiàn)場(chǎng)的30人中將他們辨認(rèn)出來。

  此外,還有今年4月初由李開復(fù)發(fā)起,創(chuàng)新工場(chǎng)、海南生態(tài)軟件園聯(lián)合主辦的“冷撲大師”VS“龍之隊(duì)”德州撲克人機(jī)大戰(zhàn)。

  “冷撲大師”的前身來自于耐基梅隆大學(xué)(Carnegie Mellon University,以下簡(jiǎn)稱CMU)Tuomas Sandholm教授領(lǐng)導(dǎo)開發(fā)的打撲克的程序Libratus。在今年1月30日,Libratus曾一對(duì)一無限注德州撲克比賽中擊敗四名頂尖人類高手,在為期20天的賽程里面對(duì)玩12萬手,贏走接近總數(shù)的籌碼。人類團(tuán)隊(duì)由由六位華人頂尖撲克選手組建,隊(duì)長(zhǎng)杜悅曾在世界德州撲克大賽WSOP的無限注德州撲克賽事中獲得冠軍。

  最終,比賽以冷撲大師完勝人類結(jié)局。李開復(fù)在賽后也曾斷言,“人工智能已從完美信息的AlphaGo,延伸到了不完美信息的冷撲大師。人機(jī)對(duì)戰(zhàn)基本沒有懸念了,據(jù)聞AlphaGo近期即將來華和柯潔對(duì)戰(zhàn),其實(shí)已經(jīng)不再具有科學(xué)意義了。 ”

六、AlphaGo的技術(shù)有什么現(xiàn)實(shí)意義?

  其實(shí),AlphaGo并不是DeepMind唯一項(xiàng)目,也不是最大的項(xiàng)目。DeepMind的最終目標(biāo)是智能助手、醫(yī)療和機(jī)器人等。Scott Beaumont曾經(jīng)在4月初的發(fā)布會(huì)上表示,盡管AlphaGo只是針對(duì)圍棋開發(fā)的系統(tǒng),但其原理可以被應(yīng)用到現(xiàn)實(shí)問題中,比如醫(yī)療中的癌癥檢測(cè)、機(jī)器人訓(xùn)練等。

  與單純的深度學(xué)習(xí)應(yīng)用不同,AlphaGo在系統(tǒng)中加入了增強(qiáng)學(xué)習(xí)的部分。增強(qiáng)學(xué)習(xí)不一定為機(jī)器設(shè)定特殊明確的行為,機(jī)器試探性地做一個(gè)行動(dòng)后,觀察“世界”會(huì)有怎樣的反應(yīng)(獎(jiǎng)賞還是懲罰),最終逐步形成對(duì)刺激的預(yù)期,產(chǎn)生能獲得最大利益的習(xí)慣性行為。這個(gè)方法具有普適性,因此在其他許多領(lǐng)域都有研究,但比較集中在步驟可能性較少、任務(wù)行為較窄的領(lǐng)域(比如圍棋、簡(jiǎn)單物理運(yùn)動(dòng)等)。英偉達(dá)CEO黃仁勛在月初的GTC大會(huì)上就宣布了一款名為ISAAC的增強(qiáng)學(xué)習(xí)世界模擬器,創(chuàng)造出一個(gè)完全虛擬的、專為訓(xùn)練機(jī)器人而打造的世界,用來訓(xùn)練機(jī)器人執(zhí)行打冰球、打高爾夫等動(dòng)作。

結(jié)語、未來是屬于AI的,但人類還沒有完蛋

  無論最后兩局勝負(fù)如何,人工智能最終在圍棋上戰(zhàn)勝人類已然是可預(yù)見的將來。即便這場(chǎng)三番棋賽柯潔最終獲勝,也無法逆轉(zhuǎn)這種潮流,也許明年,也許后年,但總有一日終將到來——就如同當(dāng)年一匹世界最快的良駒寶馬,最終也無法跑贏汽車。

  正如柯潔所言,“我相信未來是屬于人工智能的?!?/p>

  但話說回來,AlphaGo的勝利意味人類要完蛋?別鬧了,圍棋可不是我們生活的全部,人工智能也只是一項(xiàng)用于改善人類生產(chǎn)效率的工具而已。對(duì)于許多科幻小說里提出的,最終能夠“推翻人類”、“統(tǒng)治人類”的“超級(jí)智能”,我們真的大可不必太擔(dān)心。

(Yann LeCun)

  “卷積神經(jīng)網(wǎng)絡(luò)之父”、深度學(xué)習(xí)三巨頭之一、Facebook人工智能研究院院長(zhǎng)Yann LeCun曾經(jīng)這樣解釋道,人類的占領(lǐng)、統(tǒng)治、斗爭(zhēng)等大部分行為,都是在一代代進(jìn)化的過程中,受到“希望獲得資源”這一目的所驅(qū)動(dòng)的。而如果我們想要機(jī)器做一件事情,則需要給它賦予這個(gè)能力,朝這個(gè)目的去打造機(jī)器。如今我們已經(jīng)做出了在特定領(lǐng)域比人類更智能的機(jī)器,但人工智能并不會(huì)真正統(tǒng)治世界,因?yàn)槲覀儾⒉粫?huì)朝這個(gè)目的去做。

  在火車剛剛發(fā)明的時(shí)候,美國某位權(quán)威人士曾經(jīng)預(yù)言:“如果美國建設(shè)鐵路,首先要建許多家精神病院,因?yàn)槿藗兛匆姾魢[而過的火車會(huì)被嚇破膽的。”

  而德國的專家們則說,“火車時(shí)速一旦超過15英里,鮮血就會(huì)從乘客的鼻腔里噴射出來,導(dǎo)致死亡?!?/p>

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
人類能懂棋藝之美,機(jī)器人很難 | 青年報(bào)
棋聞詳情
我們還沒準(zhǔn)備好和AI共生——寫在柯潔和AlphaGo大戰(zhàn)之后
直接沖擊重點(diǎn)本科!人工智能首次參加高考(全文)
柯潔說,去年AlphaGo還比較接近于人,現(xiàn)在它越來越像圍棋上帝!
AlphaGo設(shè)計(jì)師黃士杰:“最強(qiáng)的學(xué)習(xí)技能在人類的腦袋里”
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服