一、神經(jīng)網(wǎng)絡(luò)類別

一般的，神經(jīng)網(wǎng)絡(luò)模型基本結(jié)構(gòu)按信息輸入是否反饋，可以分為兩種：前饋神經(jīng)網(wǎng)絡(luò)和反饋神經(jīng)網(wǎng)絡(luò)。

1.1 前饋神經(jīng)網(wǎng)絡(luò)

前饋神經(jīng)網(wǎng)絡(luò)（Feedforward Neural Network）中，信息從輸入層開始輸入，每層的神經(jīng)元接收前一級(jí)輸入，并輸出到下一級(jí)，直至輸出層。整個(gè)網(wǎng)絡(luò)信息輸入傳輸中無反饋（循環(huán)）。即任何層的輸出都不會(huì)影響同級(jí)層，可用一個(gè)有向無環(huán)圖表示。

常見的前饋神經(jīng)網(wǎng)絡(luò)包括卷積神經(jīng)網(wǎng)絡(luò)（CNN）、全連接神經(jīng)網(wǎng)絡(luò)（FCN)、生成對(duì)抗網(wǎng)絡(luò)(GAN)等。

1.2 反饋神經(jīng)網(wǎng)絡(luò)

反饋神經(jīng)網(wǎng)絡(luò)（Feedback Neural Network）中，神經(jīng)元不但可以接收其他神經(jīng)元的信號(hào)，而且可以接收自己的反饋信號(hào)。和前饋神經(jīng)網(wǎng)絡(luò)相比，反饋神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元具有記憶功能，在不同時(shí)刻具有不同的狀態(tài)。反饋神經(jīng)網(wǎng)絡(luò)中的信息傳播可以是單向也可以是雙向傳播，因此可以用一個(gè)有向循環(huán)圖或者無向圖來表示。

常見的反饋神經(jīng)網(wǎng)絡(luò)包括循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短期記憶網(wǎng)絡(luò)(LSTM)、Hopfield網(wǎng)絡(luò)和玻爾茲曼機(jī)。

二、經(jīng)典神經(jīng)網(wǎng)絡(luò)模型介紹

全連接神經(jīng)網(wǎng)絡(luò)（FCN）

全連接神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)最常見的網(wǎng)絡(luò)結(jié)構(gòu)，有三種基本類型的層: 輸入層、隱藏層和輸出層。當(dāng)前層的每個(gè)神經(jīng)元都會(huì)接入前一層每個(gè)神經(jīng)元的輸入信號(hào)。在每個(gè)連接過程中，來自前一層的信號(hào)被乘以一個(gè)權(quán)重，增加一個(gè)偏置，然后通過一個(gè)非線性激活函數(shù)，通過簡單非線性函數(shù)的多次復(fù)合，實(shí)現(xiàn)輸入空間到輸出空間的復(fù)雜映射。

卷積神經(jīng)網(wǎng)絡(luò)（CNN）

圖像具有非常高的維數(shù)，因此訓(xùn)練一個(gè)標(biāo)準(zhǔn)的前饋網(wǎng)絡(luò)來識(shí)別圖像將需要成千上萬的輸入神經(jīng)元，除了顯而易見的高計(jì)算量，還可能導(dǎo)致許多與神經(jīng)網(wǎng)絡(luò)中的維數(shù)災(zāi)難相關(guān)的問題。卷積神經(jīng)網(wǎng)絡(luò)提供了一個(gè)解決方案，利用卷積和池化層，來降低圖像的維度。由于卷積層是可訓(xùn)練的，但參數(shù)明顯少于標(biāo)準(zhǔn)的隱藏層，它能夠突出圖像的重要部分，并向前傳播每個(gè)重要部分。傳統(tǒng)的CNNs中，最后幾層是隱藏層，用來處理“壓縮的圖像信息”。

殘差網(wǎng)絡(luò)(ResNet)

深層前饋神經(jīng)網(wǎng)絡(luò)有一個(gè)問題，隨著網(wǎng)絡(luò)層數(shù)的增加，網(wǎng)絡(luò)會(huì)發(fā)生了退化（degradation）現(xiàn)象：隨著網(wǎng)絡(luò)層數(shù)的增多，訓(xùn)練集loss逐漸下降，然后趨于飽和，當(dāng)再增加網(wǎng)絡(luò)深度的話，訓(xùn)練集loss反而會(huì)增大。為了解決這個(gè)問題，殘差網(wǎng)絡(luò)使用跳躍連接實(shí)現(xiàn)信號(hào)跨層傳播。

生成對(duì)抗網(wǎng)絡(luò)(GAN)

生成對(duì)抗網(wǎng)絡(luò)是一種專門設(shè)計(jì)用于生成圖像的網(wǎng)絡(luò)，由兩個(gè)網(wǎng)絡(luò)組成: 一個(gè)鑒別器和一個(gè)生成器。鑒別器的任務(wù)是區(qū)分圖像是從數(shù)據(jù)集中提取的還是由生成器生成的，生成器的任務(wù)是生成足夠逼真的圖像，以至于鑒別器無法區(qū)分圖像是否真實(shí)。隨著時(shí)間的推移，在謹(jǐn)慎的監(jiān)督下，這兩個(gè)對(duì)手相互競爭，彼此都想成功地改進(jìn)對(duì)方。最終的結(jié)果是一個(gè)訓(xùn)練有素的生成器，可以生成逼真的圖像。鑒別器是一個(gè)卷積神經(jīng)網(wǎng)絡(luò)，其目標(biāo)是最大限度地提高識(shí)別真假圖像的準(zhǔn)確率，而生成器是一個(gè)反卷積神經(jīng)網(wǎng)絡(luò)，其目標(biāo)是最小化鑒別器的性能。

變分自動(dòng)編碼器(VAE)

自動(dòng)編碼器學(xué)習(xí)一個(gè)輸入（可以是圖像或文本序列）的壓縮表示，例如，壓縮輸入，然后解壓縮回來匹配原始輸入，而變分自動(dòng)編碼器學(xué)習(xí)表示的數(shù)據(jù)的概率分布的參數(shù)。不僅僅是學(xué)習(xí)一個(gè)代表數(shù)據(jù)的函數(shù)，它還獲得了更詳細(xì)和細(xì)致的數(shù)據(jù)視圖，從分布中抽樣并生成新的輸入數(shù)據(jù)樣本。

Transformer

Transformer是Google Brain提出的經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu)，由經(jīng)典的Encoder-Decoder模型組成。在上圖中，整個(gè)Encoder層由6個(gè)左邊Nx部分的結(jié)構(gòu)組成。整個(gè)Decoder由6個(gè)右邊Nx部分的框架組成，Decoder輸出的結(jié)果經(jīng)過一個(gè)線性層變換后，經(jīng)過softmax層計(jì)算，輸出最終的預(yù)測結(jié)果。

循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN)

循環(huán)神經(jīng)網(wǎng)絡(luò)是一種特殊類型的網(wǎng)絡(luò)，它包含環(huán)和自重復(fù)，因此被稱為“循環(huán)”。由于允許信息存儲(chǔ)在網(wǎng)絡(luò)中，RNNs 使用以前訓(xùn)練中的推理來對(duì)即將到來的事件做出更好、更明智的決定。為了做到這一點(diǎn)，它使用以前的預(yù)測作為“上下文信號(hào)”。由于其性質(zhì)，RNNs 通常用于處理順序任務(wù)，如逐字生成文本或預(yù)測時(shí)間序列數(shù)據(jù)(例如股票價(jià)格)。它們還可以處理任意大小的輸入。

長短期記憶網(wǎng)絡(luò)(LSTM)

LSTM結(jié)構(gòu)是專門為解決RNN在學(xué)習(xí)長的的上下文信息出現(xiàn)的梯度消失、爆炸問題而設(shè)計(jì)的，結(jié)構(gòu)中加入了內(nèi)存塊。這些模塊可以看作是計(jì)算機(jī)中的內(nèi)存芯片——每個(gè)模塊包含幾個(gè)循環(huán)連接的內(nèi)存單元和三個(gè)門(輸入、輸出和遺忘，相當(dāng)于寫入、讀取和重置)。信息的輸入只能通過每個(gè)門與神經(jīng)元進(jìn)行互動(dòng)，因此這些門學(xué)會(huì)智能地打開和關(guān)閉，以防止梯度爆炸或消失。

Hopfield網(wǎng)絡(luò)

Hopfield神經(jīng)網(wǎng)絡(luò)是一種單層互相全連接的反饋型神經(jīng)網(wǎng)絡(luò)。每個(gè)神經(jīng)元既是輸入也是輸出，網(wǎng)絡(luò)中的每一個(gè)神經(jīng)元都將自己的輸出通過連接權(quán)傳送給所有其它神經(jīng)元，同時(shí)又都接收所有其它神經(jīng)元傳遞過來的信息。

三、網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的思考

實(shí)踐中，我們除了結(jié)合任務(wù)直接選用一些經(jīng)典神經(jīng)模型做驗(yàn)證，有時(shí)也需要對(duì)網(wǎng)絡(luò)結(jié)構(gòu)做設(shè)計(jì)優(yōu)化。網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)需要考慮的2個(gè)實(shí)質(zhì)問題是：

神經(jīng)單元應(yīng)該如何連接？
需要有多少神經(jīng)元？

3.1 神經(jīng)單元應(yīng)該如何連接？

也就是神經(jīng)網(wǎng)絡(luò)基本的架構(gòu)如何設(shè)計(jì)，有兩種設(shè)計(jì)思路：

將人類先驗(yàn)嵌入到模型結(jié)構(gòu)設(shè)計(jì) 例如，基于圖像任務(wù)的平移不變性的卷積假設(shè)設(shè)計(jì)的CNN，或者基于語言的遞歸性質(zhì)的遞歸假設(shè)設(shè)計(jì)的RNN。對(duì)于先驗(yàn)知識(shí)，可以憑借經(jīng)驗(yàn)做網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)無疑是相對(duì)高效的，但太多復(fù)雜經(jīng)驗(yàn)的注入，一來不夠“優(yōu)雅”，二來如果經(jīng)驗(yàn)有誤，設(shè)計(jì)的結(jié)構(gòu)可能就失效了。
通過機(jī)器動(dòng)態(tài)學(xué)習(xí)和計(jì)算出的結(jié)構(gòu) 如神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索（NAS），常見的搜索方法包括：隨機(jī)搜索、貝葉斯優(yōu)化、進(jìn)化算法、強(qiáng)化學(xué)習(xí)、基于梯度的算法。

3.2、需要有多少神經(jīng)元？

神經(jīng)網(wǎng)絡(luò)由輸入層、隱藏層與輸出層構(gòu)成：

輸入層：為數(shù)據(jù)特征輸入層，輸入數(shù)據(jù)特征維數(shù)就對(duì)應(yīng)著網(wǎng)絡(luò)的神經(jīng)元數(shù)。
隱藏層：即網(wǎng)絡(luò)的中間層，其作用接受前一層網(wǎng)絡(luò)輸出作為當(dāng)前的輸入值，并計(jì)算輸出當(dāng)前結(jié)果到下一層。隱藏網(wǎng)絡(luò)神經(jīng)元個(gè)數(shù)直接影響模型的擬合能力。-輸出層：為最終結(jié)果輸出的網(wǎng)絡(luò)層。輸出層的神經(jīng)元個(gè)數(shù)代表了分類類別的個(gè)數(shù)（注：在做二分類時(shí)，如果輸出層的激活函數(shù)采用sigmoid，輸出層的神經(jīng)元個(gè)數(shù)為1個(gè)；如果采用softmax分類器，輸出層神經(jīng)元個(gè)數(shù)為2個(gè)是與分類類別個(gè)數(shù)對(duì)應(yīng)的；）

對(duì)于網(wǎng)絡(luò)的輸入層、輸出層的神經(jīng)元通常是確定的，主要需要考慮的是隱藏層的深度及寬度，在忽略網(wǎng)絡(luò)退化問題的前提下，通常隱藏層的神經(jīng)元（計(jì)算單元）的越多，模型有更多的容量（capcity）去達(dá)到更好的擬合效果。

搜索合適的網(wǎng)絡(luò)深度及寬度，常用有人工調(diào)參、隨機(jī)搜索、貝葉斯優(yōu)化等方法。這里有個(gè)引申問題：

增加神經(jīng)網(wǎng)絡(luò)寬度vs深度的效果有什么差異呢？

1、擬合效果上，增加深度遠(yuǎn)比寬度高效同等效果上，要增加的寬度遠(yuǎn)大于增加的深度。在Delalleau和Bengio等人的論文《Shallow vs. Deep sum-product networks》中提出，對(duì)于一些特意構(gòu)造的多項(xiàng)式函數(shù)，淺層網(wǎng)絡(luò)需要指數(shù)增長的神經(jīng)元個(gè)數(shù)，其擬合效果才能匹配上多項(xiàng)式增長的深層網(wǎng)絡(luò)。
2、參數(shù)規(guī)模上，增加深度遠(yuǎn)比寬度需要的參數(shù)少

以上圖神經(jīng)網(wǎng)絡(luò)為例，將單層寬度增加3個(gè)神經(jīng)元，會(huì)新增6個(gè)與之相連前后層的權(quán)重參數(shù)。而直接新增一個(gè)3個(gè)神經(jīng)元的網(wǎng)絡(luò)層，只會(huì)新增3個(gè)的權(quán)重參數(shù)。