摘要: 本文介紹了一些深度學(xué)習(xí)中的常見(jiàn)概念,如梯度、后向傳播、ReLU、Dropout、交叉熵與softmax等,以幫助大家快速了解深度學(xué)習(xí)。
初次接觸深度學(xué)習(xí)時(shí),大家可能會(huì)感到無(wú)從下手。這里有一些有關(guān)深度學(xué)習(xí)的技巧和要點(diǎn)可供大家參考。
在本篇文章,我們將介紹一些深度學(xué)習(xí)中的常見(jiàn)概念,以幫助大家快速了解這個(gè)神奇的領(lǐng)域。
梯度是一個(gè)函數(shù)的偏導(dǎo)數(shù),以多個(gè)向量作為輸入,并輸出一個(gè)單一的數(shù)值(即神經(jīng)網(wǎng)絡(luò)中的代價(jià)函數(shù))。當(dāng)我們需要使函數(shù)輸出增加時(shí),梯度能夠告訴我們輸入變量在圖中的應(yīng)變化的方向。我們?cè)谏疃葘W(xué)習(xí)中應(yīng)用梯度,并使用梯度的反方向來(lái)降低我們算法的損失。
也稱為反向傳播,是指在網(wǎng)絡(luò)中正向傳播輸入數(shù)據(jù)之后,反向傳播誤差并根據(jù)誤差調(diào)整網(wǎng)絡(luò)權(quán)重的過(guò)程。這種方法在實(shí)際應(yīng)用時(shí)使用了微積分中的鏈?zhǔn)椒▌t。
用于將網(wǎng)絡(luò)權(quán)重映射至[0, 1]區(qū)間的激活函數(shù)。該函數(shù)在圖中的曲線類似一個(gè)字母'S',函數(shù)因此得名,在希臘語(yǔ)中sigma表示字母S。該函數(shù)也被稱為logistic函數(shù)。
sigmoid函數(shù)的值域限制在[0, 1]區(qū)間內(nèi),而ReLU的值域?yàn)?到正無(wú)窮。這意味著,sigmoid更適合logistic回歸,而ReLU能夠更好地表示正數(shù)輸出。ReLU不會(huì)產(chǎn)生梯度消失問(wèn)題。
Tanh函數(shù)是一個(gè)可將你的網(wǎng)絡(luò)權(quán)重初始化為[-1, 1]區(qū)間內(nèi)實(shí)數(shù)的函數(shù)。假設(shè)你的數(shù)據(jù)已經(jīng)規(guī)范化,那么我們會(huì)得到一個(gè)更大的梯度:因?yàn)閿?shù)據(jù)以0為中心分布,函數(shù)的導(dǎo)數(shù)更高。為了驗(yàn)證這點(diǎn),我們計(jì)算tanh函數(shù)的導(dǎo)數(shù),并觀察函數(shù)在[0, 1]區(qū)間內(nèi)的輸入。tanh函數(shù)的值域?yàn)閇-1, 1]區(qū)間,而sigmoid函數(shù)的值域?yàn)閇0, 1]區(qū)間。這也避免了在梯度中的偏差。
通常應(yīng)用于遞歸神經(jīng)網(wǎng)絡(luò),也可擴(kuò)展至其他場(chǎng)景使用,其充當(dāng)小型'記憶單元',能夠保持輸入數(shù)據(jù)間的狀態(tài),用于模型訓(xùn)練,同時(shí),也可解決梯度消失問(wèn)題,梯度消失問(wèn)題會(huì)導(dǎo)致遞歸神經(jīng)網(wǎng)絡(luò)在進(jìn)行大約7次迭代后失去先前輸入數(shù)據(jù)的上下文。
Softmax函數(shù)通常在神經(jīng)網(wǎng)絡(luò)的最后用于模型結(jié)果的分類。該函數(shù)采用多元logistic回歸,通常用于多類別的分類任務(wù)。Softmax函數(shù)通常與交叉熵共同構(gòu)成模型的損失函數(shù)。
這些正則化方法通過(guò)對(duì)系數(shù)施加懲罰以避免過(guò)擬合。L1范式可產(chǎn)生稀疏模型,而L2范式則不會(huì)。范式用于指定模型的復(fù)雜度。這至關(guān)重要,因?yàn)樗軌蛱岣吣P偷姆夯芰?,防止模型?duì)訓(xùn)練數(shù)據(jù)過(guò)擬合。
[1]'它防止模型過(guò)擬合,并提供了一種有效的方式,來(lái)聯(lián)合不同的數(shù)量接近指數(shù)級(jí)的神經(jīng)網(wǎng)絡(luò)架構(gòu)'(Hinton)。這種方法在網(wǎng)絡(luò)中隨機(jī)選擇并剔除顯式和隱含的神經(jīng)元。選擇的神經(jīng)元數(shù)量取決于該層設(shè)置的dropout百分比。
[1]當(dāng)模型網(wǎng)絡(luò)層數(shù)很深時(shí),會(huì)出現(xiàn)內(nèi)部協(xié)變量偏移的問(wèn)題。這種偏移是指'訓(xùn)練期間網(wǎng)絡(luò)參數(shù)變化所導(dǎo)致的網(wǎng)絡(luò)輸出分布的變化' (Szegedy)。如果我們可以減少內(nèi)部協(xié)變量偏移,那么我們就可以更好更快地訓(xùn)練模型。批規(guī)范化通過(guò)使用均值與方差對(duì)傳入網(wǎng)絡(luò)的各批數(shù)據(jù)進(jìn)行規(guī)范化處理,進(jìn)而解決此類問(wèn)題。
也稱為損失函數(shù)或評(píng)價(jià)優(yōu)化函數(shù)。網(wǎng)絡(luò)訓(xùn)練的目的在于最小化損失以最大化網(wǎng)絡(luò)精度。
F1/F分?jǐn)?shù)是一種根據(jù)準(zhǔn)確率與召回率來(lái)評(píng)估模型預(yù)測(cè)精度的評(píng)價(jià)指標(biāo),計(jì)算公式如下:
F1 = 2 (準(zhǔn)確率 召回率) / (準(zhǔn)確率 + 召回率)
準(zhǔn)確率:在所有預(yù)測(cè)結(jié)果中,預(yù)測(cè)正確的結(jié)果比例為多少?
準(zhǔn)確率 = 真陽(yáng)性結(jié)果數(shù) / (真陽(yáng)性結(jié)果數(shù) + 假陽(yáng)性結(jié)果數(shù))
召回率:在所有實(shí)際正確的結(jié)果中,預(yù)測(cè)出來(lái)的正確結(jié)果的比例為多少?
召回率 = 真陽(yáng)性結(jié)果數(shù) / (真陽(yáng)性結(jié)果數(shù) + 假陰性結(jié)果數(shù))
交叉熵用于計(jì)算預(yù)測(cè)標(biāo)簽與實(shí)際情況的偏差。有時(shí)簡(jiǎn)稱為CE。
https://yq.aliyun.com/articles/68232?spm=5176.100239.blogcont221662.33.udtKC9
聯(lián)系客服