深度學(xué)習(xí)都需要了解什么？無(wú)從下手的話，看看這份深度學(xué)習(xí)速查表

2018.01.20

關(guān)注

摘要：本文介紹了一些深度學(xué)習(xí)中的常見(jiàn)概念，如梯度、后向傳播、ReLU、Dropout、交叉熵與softmax等，以幫助大家快速了解深度學(xué)習(xí)。

初次接觸深度學(xué)習(xí)時(shí)，大家可能會(huì)感到無(wú)從下手。這里有一些有關(guān)深度學(xué)習(xí)的技巧和要點(diǎn)可供大家參考。

這些都是什么？

在本篇文章，我們將介紹一些深度學(xué)習(xí)中的常見(jiàn)概念，以幫助大家快速了解這個(gè)神奇的領(lǐng)域。

梯度? (Nabla)

梯度是一個(gè)函數(shù)的偏導(dǎo)數(shù)，以多個(gè)向量作為輸入，并輸出一個(gè)單一的數(shù)值（即神經(jīng)網(wǎng)絡(luò)中的代價(jià)函數(shù)）。當(dāng)我們需要使函數(shù)輸出增加時(shí)，梯度能夠告訴我們輸入變量在圖中的應(yīng)變化的方向。我們?cè)谏疃葘W(xué)習(xí)中應(yīng)用梯度，并使用梯度的反方向來(lái)降低我們算法的損失。

后向傳播

也稱為反向傳播，是指在網(wǎng)絡(luò)中正向傳播輸入數(shù)據(jù)之后，反向傳播誤差并根據(jù)誤差調(diào)整網(wǎng)絡(luò)權(quán)重的過(guò)程。這種方法在實(shí)際應(yīng)用時(shí)使用了微積分中的鏈?zhǔn)椒▌t。

Sigmoid σ

用于將網(wǎng)絡(luò)權(quán)重映射至[0, 1]區(qū)間的激活函數(shù)。該函數(shù)在圖中的曲線類似一個(gè)字母'S'，函數(shù)因此得名，在希臘語(yǔ)中sigma表示字母S。該函數(shù)也被稱為logistic函數(shù)。

校正線性單元或ReLU

sigmoid函數(shù)的值域限制在[0, 1]區(qū)間內(nèi)，而ReLU的值域?yàn)?到正無(wú)窮。這意味著，sigmoid更適合logistic回歸，而ReLU能夠更好地表示正數(shù)輸出。ReLU不會(huì)產(chǎn)生梯度消失問(wèn)題。

Tanh

Tanh函數(shù)是一個(gè)可將你的網(wǎng)絡(luò)權(quán)重初始化為[-1, 1]區(qū)間內(nèi)實(shí)數(shù)的函數(shù)。假設(shè)你的數(shù)據(jù)已經(jīng)規(guī)范化，那么我們會(huì)得到一個(gè)更大的梯度：因?yàn)閿?shù)據(jù)以0為中心分布，函數(shù)的導(dǎo)數(shù)更高。為了驗(yàn)證這點(diǎn)，我們計(jì)算tanh函數(shù)的導(dǎo)數(shù)，并觀察函數(shù)在[0, 1]區(qū)間內(nèi)的輸入。tanh函數(shù)的值域?yàn)閇-1, 1]區(qū)間，而sigmoid函數(shù)的值域?yàn)閇0, 1]區(qū)間。這也避免了在梯度中的偏差。

LSTM/GRU

通常應(yīng)用于遞歸神經(jīng)網(wǎng)絡(luò)，也可擴(kuò)展至其他場(chǎng)景使用，其充當(dāng)小型'記憶單元'，能夠保持輸入數(shù)據(jù)間的狀態(tài)，用于模型訓(xùn)練，同時(shí)，也可解決梯度消失問(wèn)題，梯度消失問(wèn)題會(huì)導(dǎo)致遞歸神經(jīng)網(wǎng)絡(luò)在進(jìn)行大約7次迭代后失去先前輸入數(shù)據(jù)的上下文。

Softmax

Softmax函數(shù)通常在神經(jīng)網(wǎng)絡(luò)的最后用于模型結(jié)果的分類。該函數(shù)采用多元logistic回歸，通常用于多類別的分類任務(wù)。Softmax函數(shù)通常與交叉熵共同構(gòu)成模型的損失函數(shù)。

L1范式與L2范式

這些正則化方法通過(guò)對(duì)系數(shù)施加懲罰以避免過(guò)擬合。L1范式可產(chǎn)生稀疏模型，而L2范式則不會(huì)。范式用于指定模型的復(fù)雜度。這至關(guān)重要，因?yàn)樗軌蛱岣吣Ｐ偷姆夯芰?，防止模型?duì)訓(xùn)練數(shù)據(jù)過(guò)擬合。

Dropout

[1]'它防止模型過(guò)擬合，并提供了一種有效的方式，來(lái)聯(lián)合不同的數(shù)量接近指數(shù)級(jí)的神經(jīng)網(wǎng)絡(luò)架構(gòu)'(Hinton)。這種方法在網(wǎng)絡(luò)中隨機(jī)選擇并剔除顯式和隱含的神經(jīng)元。選擇的神經(jīng)元數(shù)量取決于該層設(shè)置的dropout百分比。

批規(guī)范化

[1]當(dāng)模型網(wǎng)絡(luò)層數(shù)很深時(shí)，會(huì)出現(xiàn)內(nèi)部協(xié)變量偏移的問(wèn)題。這種偏移是指'訓(xùn)練期間網(wǎng)絡(luò)參數(shù)變化所導(dǎo)致的網(wǎng)絡(luò)輸出分布的變化' (Szegedy)。如果我們可以減少內(nèi)部協(xié)變量偏移，那么我們就可以更好更快地訓(xùn)練模型。批規(guī)范化通過(guò)使用均值與方差對(duì)傳入網(wǎng)絡(luò)的各批數(shù)據(jù)進(jìn)行規(guī)范化處理，進(jìn)而解決此類問(wèn)題。