卷積神經(jīng)網(wǎng)絡(luò) – CNN 最擅長的就是圖片的處理。它受到人類視覺神經(jīng)系統(tǒng)的啟發(fā)。
CNN 有2大特點：
能夠有效的將大數(shù)據(jù)量的圖片降維成小數(shù)據(jù)量
能夠有效的保留圖片特征，符合圖片處理的原則
目前 CNN 已經(jīng)得到了廣泛的應(yīng)用，比如：人臉識別、自動駕駛、美圖秀秀、安防等很多領(lǐng)域。

CNN 解決了什么問題？

在 CNN 出現(xiàn)之前，圖像對于人工智能來說是一個難題，有2個原因：

圖像需要處理的數(shù)據(jù)量太大，導(dǎo)致成本很高，效率很低

圖像在數(shù)字化的過程中很難保留原有的特征，導(dǎo)致圖像處理的準(zhǔn)確率不高

下面就詳細(xì)說明一下這2個問題：

需要處理的數(shù)據(jù)量太大

圖像是由像素構(gòu)成的，每個像素又是由顏色構(gòu)成的。

現(xiàn)在隨隨便便一張圖片都是 1000×1000 像素以上的，每個像素都有RGB 3個參數(shù)來表示顏色信息。

假如我們處理一張 1000×1000 像素的圖片，我們就需要處理3百萬個參數(shù)！

1000×1000×3=3,000,000

這么大量的數(shù)據(jù)處理起來是非常消耗資源的，而且這只是一張不算太大的圖片！

卷積神經(jīng)網(wǎng)絡(luò) – CNN 解決的第一個問題就是「將復(fù)雜問題簡化」，把大量參數(shù)降維成少量參數(shù)，再做處理。

更重要的是：我們在大部分場景下，降維并不會影響結(jié)果。比如1000像素的圖片縮小成200像素，并不影響肉眼認(rèn)出來圖片中是一只貓還是一只狗，機器也是如此。

保留圖像特征

圖片數(shù)字化的傳統(tǒng)方式我們簡化一下，就類似下圖的過程：

圖像簡單數(shù)字化無法保留圖像特征

假如有圓形是1，沒有圓形是0，那么圓形的位置不同就會產(chǎn)生完全不同的數(shù)據(jù)表達(dá)。但是從視覺的角度來看，圖像的內(nèi)容（本質(zhì)）并沒有發(fā)生變化，只是位置發(fā)生了變化。

所以當(dāng)我們移動圖像中的物體，用傳統(tǒng)的方式的得出來的參數(shù)會差異很大！這是不符合圖像處理的要求的。

而 CNN 解決了這個問題，他用類似視覺的方式保留了圖像的特征，當(dāng)圖像做翻轉(zhuǎn)，旋轉(zhuǎn)或者變換位置時，它也能有效的識別出來是類似的圖像。

那么卷積神經(jīng)網(wǎng)絡(luò)是如何實現(xiàn)的呢？在我們了解 CNN 原理之前，先來看看人類的視覺原理是什么？

人類的視覺原理

深度學(xué)習(xí)的許多研究成果，離不開對大腦認(rèn)知原理的研究，尤其是視覺原理的研究。

1981 年的諾貝爾醫(yī)學(xué)獎，頒發(fā)給了 David Hubel（出生于加拿大的美國神經(jīng)生物學(xué)家）和TorstenWiesel，以及 Roger Sperry。前兩位的主要貢獻(xiàn)，是“發(fā)現(xiàn)了視覺系統(tǒng)的信息處理”，可視皮層是分級的。

人類的視覺原理如下：從原始信號攝入開始（瞳孔攝入像素 Pixels），接著做初步處理（大腦皮層某些細(xì)胞發(fā)現(xiàn)邊緣和方向），然后抽象（大腦判定，眼前的物體的形狀，是圓形的），然后進一步抽象（大腦進一步判定該物體是只氣球）。下面是人腦進行人臉識別的一個示例：

人類視覺原理1

對于不同的物體，人類視覺也是通過這樣逐層分級，來進行認(rèn)知的：

人類視覺原理2

我們可以看到，在最底層特征基本上是類似的，就是各種邊緣，越往上，越能提取出此類物體的一些特征（輪子、眼睛、軀干等），到最上層，不同的高級特征最終組合成相應(yīng)的圖像，從而能夠讓人類準(zhǔn)確的區(qū)分不同的物體。

那么我們可以很自然的想到：可以不可以模仿人類大腦的這個特點，構(gòu)造多層的神經(jīng)網(wǎng)絡(luò)，較低層的識別初級的圖像特征，若干底層特征組成更上一層特征，最終通過多個層級的組合，最終在頂層做出分類呢？

答案是肯定的，這也是許多深度學(xué)習(xí)算法（包括CNN）的靈感來源。

卷積神經(jīng)網(wǎng)絡(luò)-CNN 的基本原理

典型的 CNN 由3個部分構(gòu)成：

卷積層

池化層

全連接層

如果簡單來描述的話：

卷積層負(fù)責(zé)提取圖像中的局部特征；池化層用來大幅降低參數(shù)量級(降維)；全連接層類似傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的部分，用來輸出想要的結(jié)果。

典型的 CNN 由3個部分構(gòu)成

下面的原理解釋為了通俗易懂，忽略了很多技術(shù)細(xì)節(jié)，如果大家對詳細(xì)的原理感興趣，可以看這個視頻《卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)》。

卷積——提取特征

卷積層的運算過程如下圖，用一個卷積核掃完整張圖片：

卷積層運算過程

這個過程我們可以理解為我們使用一個過濾器（卷積核）來過濾圖像的各個小區(qū)域，從而得到這些小區(qū)域的特征值。

在具體應(yīng)用中，往往有多個卷積核，可以認(rèn)為，每個卷積核代表了一種圖像模式，如果某個圖像塊與此卷積核卷積出的值大，則認(rèn)為此圖像塊十分接近于此卷積核。如果我們設(shè)計了6個卷積核，可以理解：我們認(rèn)為這個圖像上有6種底層紋理模式，也就是我們用6中基礎(chǔ)模式就能描繪出一副圖像。以下就是25種不同的卷積核的示例：

25種不同的卷積核

總結(jié)：卷積層的通過卷積核的過濾提取出圖片中局部的特征，跟上面提到的人類視覺的特征提取類似。

池化層（下采樣）——數(shù)據(jù)降維，避免過擬合

池化層簡單說就是下采樣，他可以大大降低數(shù)據(jù)的維度。其過程如下：

池化層過程

上圖中，我們可以看到，原始圖片是20×20的，我們對其進行下采樣，采樣窗口為10×10，最終將其下采樣成為一個2×2大小的特征圖。

之所以這么做的原因，是因為即使做完了卷積，圖像仍然很大（因為卷積核比較?。?，所以為了降低數(shù)據(jù)維度，就進行下采樣。

總結(jié)：池化層相比卷積層可以更有效的降低數(shù)據(jù)維度，這么做不但可以大大減少運算量，還可以有效的避免過擬合。

全連接層——輸出結(jié)果

這個部分就是最后一步了，經(jīng)過卷積層和池化層處理過的數(shù)據(jù)輸入到全連接層，得到最終想要的結(jié)果。

經(jīng)過卷積層和池化層降維過的數(shù)據(jù)，全連接層才能”跑得動”，不然數(shù)據(jù)量太大，計算成本高，效率低下。

全連接層

典型的 CNN 并非只是上面提到的3層結(jié)構(gòu)，而是多層結(jié)構(gòu)，例如 LeNet-5 的結(jié)構(gòu)就如下圖所示：

卷積層 – 池化層- 卷積層 – 池化層 – 卷積層 – 全連接層

在了解了 CNN 的基本原理后，我們重點說一下 CNN 的實際應(yīng)用有哪些。

CNN 有哪些實際應(yīng)用？

卷積神經(jīng)網(wǎng)絡(luò) – CNN 很擅長處理圖像。而視頻是圖像的疊加，所以同樣擅長處理視頻內(nèi)容。下面給大家列一些比較成熟的應(yīng)用：

圖像分類、檢索

圖像分類是比較基礎(chǔ)的應(yīng)用，他可以節(jié)省大量的人工成本，將圖像進行有效的分類。對于一些特定領(lǐng)域的圖片，分類的準(zhǔn)確率可以達(dá)到 95%+，已經(jīng)算是一個可用性很高的應(yīng)用了。

典型場景：圖像搜索…

CNN應(yīng)用-圖像分類、檢索

目標(biāo)定位檢測

可以在圖像中定位目標(biāo)，并確定目標(biāo)的位置及大小。

典型場景：自動駕駛、安防、醫(yī)療…

CNN應(yīng)用-目標(biāo)定位檢測

目標(biāo)分割

簡單理解就是一個像素級的分類。

他可以對前景和背景進行像素級的區(qū)分、再高級一點還可以識別出目標(biāo)并且對目標(biāo)進行分類。

典型場景：美圖秀秀、視頻后期加工、圖像生成…

CNN應(yīng)用-目標(biāo)分割

人臉識別

人臉識別已經(jīng)是一個非常普及的應(yīng)用了，在很多領(lǐng)域都有廣泛的應(yīng)用。

典型場景：安防、金融、生活…

CNN應(yīng)用-人臉識別

骨骼識別

骨骼識別是可以識別身體的關(guān)鍵骨骼，以及追蹤骨骼的動作。

典型場景：安防、電影、圖像視頻生成、游戲…

CNN應(yīng)用-骨骼識別

總結(jié)

今天我們介紹了 CNN 的價值、基本原理和應(yīng)用場景，簡單總結(jié)如下：

CNN 的價值：

能夠?qū)⒋髷?shù)據(jù)量的圖片有效的降維成小數(shù)據(jù)量(并不影響結(jié)果)

能夠保留圖片的特征，類似人類的視覺原理

CNN 的基本原理：

卷積層 – 主要作用是保留圖片的特征

池化層 – 主要作用是把數(shù)據(jù)降維，可以有效的避免過擬合

全連接層 – 根據(jù)不同任務(wù)輸出我們想要的結(jié)果

CNN 的實際應(yīng)用：

圖片分類、檢索

目標(biāo)定位檢測

目標(biāo)分割

人臉識別

骨骼識別

本文首發(fā)在 easyAI - 人工智能知識庫

《一文看懂卷積神經(jīng)網(wǎng)絡(luò)-CNN（基本原理+獨特價值+實際應(yīng)用）》

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

CNN 解決了什么問題？

人類的視覺原理

卷積神經(jīng)網(wǎng)絡(luò)-CNN 的基本原理

CNN 有哪些實際應(yīng)用？

總結(jié)

CNN 解決了什么問題？

CNN 有哪些實際應(yīng)用？