国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
王川:深度學(xué)習(xí)有多深?(二十四) 喬布斯和 Deepmind 的突圍

本文是

王川:深度學(xué)習(xí)有多深?(二十三) 經(jīng)歷的回放

的續(xù)篇。

    (1)

游戲公司 Atari 在1977年推出的 Breakout (突圍)電腦游戲,主要開發(fā)者是蘋果公司的創(chuàng)始人之一, Steve Wozniak. 喬布斯的角色是 Atari 和 Wozniak 中間的掮客.

Atari 起先告訴喬布斯,游戲如果四天內(nèi)開發(fā)出來(lái),將支付 700 美元的報(bào)酬。喬布斯許諾和 Wozniak 平分這筆錢。但Wozniak 不知道的是, Atari 還承諾如果此游戲在邏輯芯片的需求上低于某個(gè)指標(biāo),將給予更多的獎(jiǎng)勵(lì).

最終Wozniak 連續(xù)四天挑燈夜戰(zhàn)只拿到了 350 美元 的報(bào)酬, 而喬布斯則獨(dú)吞了從  Atari 那里獲得的五千美元的額外獎(jiǎng)勵(lì)。等Wozniak 知道真相時(shí),已經(jīng)是1984年,蘋果上市四年了.

(下圖為 Wozniak 和 Jobs)


'突圍' 游戲的規(guī)則很簡(jiǎn)單:顯示屏上八層磚頭,每?jī)蓪邮峭环N顏色, 總共分黃,綠,桔,紅四色。玩家用板子擊球,球碰倒磚頭后就得分。不同顏色的磚頭得分各不相同。如果來(lái)球沒(méi)有被接到,就丟掉一個(gè)回合。球的速度隨著擊打次數(shù)的增加也不斷增加。最終目的是在三個(gè)回合內(nèi)獲得最高分.

有興趣的讀者建議親自去玩一下這個(gè)游戲。要想成為高手,著實(shí)不易。

    (2)

2013年12月,總部在倫敦的 Deepmind 公司的團(tuán)隊(duì)發(fā)表論文:Playing Atari with Deep Reinforcement Learning ('使用深度增強(qiáng)學(xué)習(xí)玩Atari 電腦游戲'), 詳細(xì)地解釋了他們使用改進(jìn)的神經(jīng)網(wǎng)絡(luò)算法在包括 Atari Breakout 在內(nèi)的電腦游戲的成果.

Deepmind 算法設(shè)計(jì)時(shí),把電腦游戲的最新的四幀屏幕,作為神經(jīng)網(wǎng)絡(luò)的輸入。每幀屏幕用 84 x 84 的像素表征.

除了獲得的分?jǐn)?shù)以外,沒(méi)有任何人為輸入的游戲規(guī)則的信息。全靠長(zhǎng)期培訓(xùn),讓機(jī)器自己悟出,什么是最佳的策略.

這頗有點(diǎn)像某哲人曾經(jīng)對(duì)培養(yǎng)華爾街交易員的評(píng)論, '我們把他們?nèi)拥接泻芏圊忯~的水箱里,能自己野蠻生長(zhǎng)的,就留下來(lái) '. 

神經(jīng)網(wǎng)絡(luò)有三個(gè)隱層,其中有兩個(gè)卷積層 (convolution layer), 用于過(guò)濾和提取像素中的局部特征。第三層是一個(gè)全連接層 (Fully connected layer), 針對(duì)游戲中每一個(gè)瞬間玩家可能采取的行動(dòng)選擇 (大約有 4-18個(gè)行動(dòng)選擇),輸出相應(yīng)的價(jià)值函數(shù)的估算。  

不同行動(dòng)選擇的回報(bào)值,就是所謂的 Q-value. 神經(jīng)網(wǎng)絡(luò)的培訓(xùn),就是要擬合 Q-value,用于計(jì)算如何選擇利益最大化的行動(dòng). 這個(gè)用三層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)打游戲的模型,就叫 Deep-Q-Network (深度-Q-網(wǎng)絡(luò), 簡(jiǎn)稱 DQN).

DQN 的參數(shù)初始值,完全隨機(jī)化,就像一個(gè)新入行,兩眼一抹黑的小白。但開始不懂沒(méi)關(guān)系,最重要的,是自我學(xué)習(xí)新技能的速度.

    (3)

在增強(qiáng)學(xué)習(xí)和運(yùn)籌學(xué)里一個(gè)經(jīng)典問(wèn)題是選擇”勘探還是開發(fā)“ (exploration or exploitation) . 換言之,是僅僅根據(jù)現(xiàn)有的信息把利益最大化,還是花一部分時(shí)間去探索外面的世界是否更精彩.

解決這個(gè)問(wèn)題的通行做法,是所謂的 epsilon-greedy strategy, 這里翻譯為 '有時(shí)不貪婪的策略'.   這個(gè)策略,就是大部分時(shí)間貪婪 (根據(jù)現(xiàn)有信息尋求利益最大化),但是還有 epsilon 的幾率去做一些完全隨機(jī)的探索 (有時(shí)不貪婪).

埋頭讀書工作,固步自封的人,epsilon = 0, 這是傳統(tǒng)的貪婪策略.

天天到處亂晃,東一榔頭西一棒子的人, epsilon = 1.

這兩個(gè)極端都不好.

有時(shí)不貪婪,做一些短期的犧牲,是為了長(zhǎng)期的貪婪和利益最大化。如何把握 epsilon 這個(gè)度,是個(gè)挑戰(zhàn).

DQN 的 epsilon 的初始值為 1,以隨機(jī)探索為主, 經(jīng)過(guò)一百萬(wàn)幀的培訓(xùn)后慢慢降到 0.1 不變, 也就是始終保持 10%的時(shí)間隨機(jī)探索.

對(duì)于一個(gè) 60 赫茲的顯示屏而言,一秒鐘是 60幀,一百萬(wàn)幀就相當(dāng)于約四個(gè)多小時(shí)的游戲時(shí)間.

DQN 在擬合神經(jīng)網(wǎng)絡(luò)參數(shù)的計(jì)算時(shí),使用了上篇文章提到的 “經(jīng)歷回放”的技巧,用于存儲(chǔ)經(jīng)歷的空間達(dá)到一百萬(wàn)幀.

DQN 的算法,用大白話來(lái)說(shuō),是這樣的:

=====================

神經(jīng)網(wǎng)絡(luò)參數(shù)隨機(jī)初始化 (剛出道,什么都不懂,無(wú)知者無(wú)畏)

把下面的循環(huán)重復(fù) N 遍:

從 1 到 T 時(shí)間

       以 epsilon 的幾率隨機(jī)探索

       否則, 選擇現(xiàn)有認(rèn)知下, 利益最大化的行動(dòng) a(t)

       干 a(t), 完事后記下回報(bào) r(t), 和新狀態(tài) s(t 1)

       把剛才的經(jīng)歷寫入記憶,用于以后回放

       從記憶中隨機(jī)提取部分經(jīng)歷,

            通過(guò)隨機(jī)梯度下降的計(jì)算方法,優(yōu)化擬合神經(jīng)網(wǎng)絡(luò)的參數(shù),

            (這個(gè)參數(shù)優(yōu)化就好比: 昨天股票抄底虧大了, 下次少抄底;前天買的房子又漲了, 下次就多放點(diǎn)錢買房。)

===================

經(jīng)過(guò)長(zhǎng)期培訓(xùn)后的 DQN, 打電腦游戲時(shí)的表現(xiàn),讓程序設(shè)計(jì)者也大吃一驚.

(未完待續(xù))

==============================

作者簡(jiǎn)介:王川,投資人,中科大少年班校友,現(xiàn)居加州硅谷。新浪微博“硅谷王川',知乎專欄 '兵無(wú)常勢(shì)'. 文章表達(dá)個(gè)人觀點(diǎn)僅供參考,不構(gòu)成對(duì)所述資產(chǎn)投資建議,投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎.

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
【深度】專業(yè)解讀“深度強(qiáng)化學(xué)習(xí)“:從AlphaGo到AlphaGoZero
你該知道的深度強(qiáng)化學(xué)習(xí)相關(guān)知識(shí)
深度強(qiáng)化學(xué)習(xí)入門,這一篇就夠了!
變革尚未成功:深度強(qiáng)化學(xué)習(xí)研究的短期悲觀與長(zhǎng)期樂(lè)觀
為什么喬布斯可能給了我們一個(gè)很糟糕的忠告
學(xué)霸的課程筆記,我們都替你整理好了
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服