国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
AlphaGo 其實挺“笨”的



記得小時候,城里來了個機器人展,于是買了門票,興致勃勃的去看,有踢球的,有打球的,有玩游戲的,有講故事的,有談情說愛的,等等。我最感興趣的是一個能和我對話的機器人,她會問我問題,也會回答我的問題,好神奇呀。天真無暇的我,玩的很開心,心中有了追求科學的夢想。但是,后來有人告訴我,其實當時每個機器人里面都是藏著一個真人,于是心中咯噔一下,有些沮喪,幼小的心靈就這么受傷了。


現(xiàn)在,人工智能取得了飛速發(fā)展和進步,兒時的記憶的場景已經(jīng)完全反轉(zhuǎn)了??纯?AlphaGo 和李世石的圍棋比賽,其中最大的看點和吐槽應該是圖片中的石頭人黃博士,這時,機器人走到了后臺,充當了智能的核心,而人,也就是黃博士,只是起到了人機交互的媒介。


看來,這次和柯潔的比賽,依然沒有改變這種現(xiàn)狀,因為現(xiàn)狀太難改變了。還是黃博士,而不是黃博士化身的機器人,我是多么期待真正的機器和人下圍棋。


這么來說,有些異樣,為什么這么聰明的 AlphaGo,不真正做成一個機器人,能看棋盤,能下棋子,能思考,還能說笑,會不會更好玩。其實,有時看起來簡單的事情,讓機器來做不一定簡單,這是后話,不啰嗦了。

好了,段子講完了,該言歸正傳了。免得被唾沫淹死,首先申明一下,AlphaGo 確實很厲害的,也不簡單。但是,為什么又說,AlphaGo 挺“笨”的呢?

我們知道,圍棋的搜索空間很大,有3的19x19次方個狀態(tài),要在這么大的空間去找最優(yōu)算法,一個一個看是不可能的,所以被認為人類智能的一個高點,解決時需要優(yōu)化搜索。人是根據(jù)一些輸入空間和參數(shù)較少的模式識別來記憶和搜索,而機器采用的卻是大數(shù)據(jù),大記憶和大計算來實現(xiàn)的。說到 AlphaGo 后面的智能和算法,就不能不說深度學習(DL),強化學習(RL),和蒙特卡洛樹搜索(MCTS)。

深度學習,主要用來學習和建立兩個模型網(wǎng)絡(luò)。一個是評測現(xiàn)在的棋盤狀態(tài)如何,也就是說給當前的棋盤狀態(tài)打個分,評估一下贏的期望值,它就是價值網(wǎng)絡(luò)(Value Network)。輸入是棋盤19x19每個點的狀態(tài),有子或無子,輸出是贏的期望值。按理說,如果要是有一個聰明的數(shù)學家或是機器足夠聰明,說不準他馬上就能在黑板上寫一個高級的數(shù)學公式。很遺憾,現(xiàn)在還沒有,所以,只能用多層的神經(jīng)元網(wǎng)絡(luò)來近似表示這個高級的函數(shù)。這么來說,是不是有點“笨”。

二是根據(jù)現(xiàn)在的棋盤狀態(tài),決定下一個棋子該如何走才能有最大的贏的概率,它就是 AlphaGo 的策略網(wǎng)絡(luò)(Policy Network)。也就是說,給一個19x19的棋盤狀態(tài),在所有空的地方,哪個是最佳的選擇,會有最大的贏率。同樣,也可以用一個函數(shù)來描述,輸入是當前棋盤狀態(tài),輸出是每個空處和它期望的贏的期望值,但這個函數(shù)還沒有一個高級的數(shù)學公式,所以,最后也求助于多層神經(jīng)網(wǎng)絡(luò)。


但是,這兩個深度學習網(wǎng)絡(luò)模型,怎么訓練出來的呢?這時,不得不說隨機梯度下降(SGD),這個“笨”辦法。



為了求一個目標函數(shù)的最優(yōu)值,復雜一點的,不能像解一個二次方程一樣,用一個簡單的公式就能得到方程的解。


對于,圍棋這種深度學習要求的目標函數(shù),沒有一個簡單的求解公式,那怎么辦?只能求助于迭代,隨機梯度下降迭代(SGD),就像爬山,每往上走一步,都是接近山頂一點點,或者叫摸著石頭過河。畢竟機器的計算能力強,這種數(shù)值計算,是它的強項,就讓它拼命的算,直到算到一個還算滿意的結(jié)果。這回知道了吧,為什么 GPU 這種東西來做這種重復簡單的計算。這么說來,是不是有點“笨”。就像我們一個公式不會解時,就從1開始帶入計算,看看是不是滿足條件?;蚴?,做選擇題有四個選項,每個選項代入公式算一下。


這些玩意兒,都是線下用大量數(shù)據(jù),做大量的辛苦計算得到的,賺的是不是辛苦錢呀。那么,在真正下棋的時候,用它們就能減少或是已經(jīng)預算了很大的搜索空間,不好的狀態(tài),不好的棋子,就不用花時間去看了。在平時不比賽的時候,機器也不會閑著,畢竟還有很多狀態(tài)沒有嘗試過,畢竟那些暫時認為不好的棋子不一定最后不好,那怎么辦?


AlphaGo 有自己的想法,它求助于強化學習,也就是self-play,或是左右手互搏,來提前嘗試更多的搜索空間,減少未知空間,同時通過深度學習的網(wǎng)絡(luò)模型記錄下來,提高前面兩個模型網(wǎng)絡(luò)的效果,那么真正下棋的時候就能用上。這就是平時多努力,老大不白頭。這種勞模的精神,在現(xiàn)實生活中,有時會不會被認為時有點“笨”,只會死干。


在強化學習的算法中,也需要大量的迭代計算,以求得到最優(yōu)的期望值,也就是達到收斂。這種“笨”辦法,效果還不錯。



有了這些,機器就能玩的可以了,但是,畢竟還有很多的空間沒有嘗試過,也不能保證當前的模型預測的每一步都是最優(yōu),因而,AlphaGo 心里不是特別有底氣。那怎么辦?這時,機器需要求助于蒙特卡洛了,就是在下棋的過程中,以當前的狀態(tài)為起點,在有限的時間內(nèi),盡量多的再探索一些搜索空間。這個探索的辦法,就是暴力采樣,一個一個的試,這么看來,是不是有點“笨”。

具體來說,“蒙特卡洛樹搜索”是一種啟發(fā)式的搜索策略,能夠基于對搜索空間的隨機抽樣來擴大搜索樹,從而分析圍棋這類游戲中每一步棋應該怎么走才能夠創(chuàng)造最好機會。來個通俗的解釋,假如筐里有100個蘋果,讓你每次閉眼拿1個,挑出最大的。

于是你隨機拿1個,再隨機拿1個跟它比,留下大的,再隨機拿1個……你每拿一次,留下的蘋果都至少不比上次的小。拿的次數(shù)越多,挑出的蘋果就越大,但你除非拿100次,否則無法肯定挑出了最大的。

這個挑蘋果的算法,就屬于蒙特卡羅算法,盡量找好的,但不保證是最好的。想像這個拿蘋果的場景,是不是就感覺累,而且有點“笨”,然而,對于機器來說,它可是要做巨多的這種嘗試。確實是勞模。

好了,好了,AlphaGo 如果你不“笨”,能和人類一樣,觸類旁通就牛逼,能不能玩一些人類很容易適應的新玩法,還是圍棋,比如,將棋盤改成一個比19大的,或是改變下棋時的一個小小規(guī)則,這樣,也許能更好得證明不“笨”。這個場景,涉及到另外的一個機器學習領(lǐng)域,就是遷移學習。人類,好像特別擅長。

這么看來,你是不是也感覺 AlphaGo 其實挺“笨”的,這個“笨”,其實是人類把自己能解決此類問題,用的最聰明的“笨”辦法教給機器了。至少到現(xiàn)在為止,AlphaGo,在還沒有像愛因斯坦的E=MC2的美妙數(shù)學公式發(fā)明前,也是最聰明的了。


期待不久的將來,AlphaGo 能“拋棄”人類教他的“笨”辦法,和愛因斯坦一比高下。那時,讓人類真正體驗到你的自有的智慧和聰明。









「工作讓我快樂」是真是假?

來「虎Cares職場物欲清單」里找找辦法

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
今日頭條
AI可以在游戲里稱霸,但是解決現(xiàn)實問題太難了
機“智”過人,人類莫慌
當機器會學習能成長 人類下個被擊敗的領(lǐng)域會在哪?
頭條文章
如果讓AlphaGo去開車……
更多類似文章 >>
生活服務(wù)
分享 收藏 導長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服