美女视频直播软件 app免费下载,欧洲亚洲美女视频

改變你對(duì)世界看法的五大計(jì)算機(jī)視覺(jué)技術(shù)！

2018.04.15

計(jì)算機(jī)視覺(jué)是當(dāng)前最熱門的研究之一，是一門多學(xué)科交叉的研究，涵蓋計(jì)算機(jī)科學(xué)（圖形學(xué)、算法、理論研究等）、數(shù)學(xué)（信息檢索、機(jī)器學(xué)習(xí)）、工程（機(jī)器人、NLP等）、生物學(xué)（神經(jīng)系統(tǒng)科學(xué)）和心理學(xué)（認(rèn)知科學(xué)）。由于計(jì)算機(jī)視覺(jué)表示對(duì)視覺(jué)環(huán)境及背景的相對(duì)理解，很多科學(xué)家相信，這一領(lǐng)域的研究將為人工智能行業(yè)的發(fā)展奠定基礎(chǔ)。

　　那么，什么是計(jì)算機(jī)視覺(jué)呢？下面是一些公認(rèn)的定義：

　　從圖像中清晰地、有意義地描述物理對(duì)象的結(jié)構(gòu)（Ballard & Brown，1982）；

　　由一個(gè)或多個(gè)數(shù)字圖像計(jì)算立體世界的性質(zhì)（Trucco & Verri，1998）；

　　基于遙感圖像對(duì)真實(shí)物體和場(chǎng)景做出有用的決定（Sockman & Shapiro，2001）；

　　那么，為什么研究計(jì)算機(jī)視覺(jué)呢？答案很明顯，從該領(lǐng)域可以衍生出一系列的應(yīng)用程序，比如：

　　人臉識(shí)別：人臉檢測(cè)算法，能夠從照片中認(rèn)出某人的身份；

　　圖像檢索：類似于谷歌圖像使用基于內(nèi)容的查詢來(lái)搜索相關(guān)圖像，算法返回與3.查詢內(nèi)容最佳匹配的圖像。

　　游戲和控制：體感游戲；

　　監(jiān)控：公共場(chǎng)所隨處可見(jiàn)的監(jiān)控?cái)z像機(jī)，用來(lái)監(jiān)視可疑行為；

　　生物識(shí)別技術(shù)：指紋、虹膜和人臉匹配是生物特征識(shí)別中常用的方法；

　　智能汽車：視覺(jué)仍然是觀察交通標(biāo)志、信號(hào)燈及其它視覺(jué)特征的主要信息來(lái)源；

　　正如斯坦福大學(xué)公開(kāi)課CS231所言，計(jì)算機(jī)視覺(jué)任務(wù)大多是基于卷積神經(jīng)網(wǎng)絡(luò)完成。比如圖像分類、定位和檢測(cè)等。那么，對(duì)于計(jì)算機(jī)視覺(jué)而言，有哪些任務(wù)是占據(jù)主要地位并對(duì)世界有所影響的呢？本篇文章將分享給讀者5種重要的計(jì)算機(jī)視覺(jué)技術(shù)，以及其相關(guān)的深度學(xué)習(xí)模型和應(yīng)用程序。相信這5種技術(shù)能夠改變你對(duì)世界的看法。

　　1.圖像分類

　　圖像分類這一任務(wù)在我們的日常生活中經(jīng)常發(fā)生，我們習(xí)慣了于此便不以為然。每天早上洗漱刷牙需要拿牙刷、毛巾等生活用品，如何準(zhǔn)確的拿到這些用品便是一個(gè)圖像分類任務(wù)。官方定義為：給定一組圖像集，其中每張圖像都被標(biāo)記了對(duì)應(yīng)的類別。之后為一組新的測(cè)試圖像集預(yù)測(cè)其標(biāo)簽類別，并測(cè)量預(yù)測(cè)準(zhǔn)確性。

　　如何編寫一個(gè)可以將圖像分類的算法呢？計(jì)算機(jī)視覺(jué)研究人員已經(jīng)提出了一種數(shù)據(jù)驅(qū)動(dòng)的方法來(lái)解決這個(gè)問(wèn)題。研究人員在代碼中不再關(guān)心圖像如何表達(dá)，而是為計(jì)算機(jī)提供許多很多圖像（包含每個(gè)類別），之后開(kāi)發(fā)學(xué)習(xí)算法，讓計(jì)算機(jī)自己學(xué)習(xí)這些圖像的特征，之后根據(jù)學(xué)到的特征對(duì)圖像進(jìn)行分類。

　　鑒于此，完整的圖像分類步驟一般形式如下：

　　首先，輸入一組訓(xùn)練圖像數(shù)據(jù)集；

　　然后，使用該訓(xùn)練集訓(xùn)練一個(gè)分類器，該分類器能夠?qū)W習(xí)每個(gè)類別的特征；

　　最后，使用測(cè)試集來(lái)評(píng)估分類器的性能，即將預(yù)測(cè)出的結(jié)果與真實(shí)類別標(biāo)記進(jìn)行比較；

　　對(duì)于圖像分類而言，最受歡迎的方法是卷積神經(jīng)網(wǎng)絡(luò)（CNN）。CNN是深度學(xué)習(xí)中的一種常用方法，其性能遠(yuǎn)超一般的機(jī)器學(xué)習(xí)算法。CNN網(wǎng)絡(luò)結(jié)構(gòu)基本是由卷積層、池化層以及全連接層組成，其中，卷積層被認(rèn)為是提取圖像特征的主要部件，它類似于一個(gè)“掃描儀”，通過(guò)卷積核與圖像像素矩陣進(jìn)行卷積運(yùn)算，每次只“掃描”卷積核大小的尺寸，之后滑動(dòng)到下一個(gè)區(qū)域進(jìn)行相關(guān)的運(yùn)算，這種計(jì)算叫作滑動(dòng)窗口。

　　從圖中可以看到，輸入圖像送入卷積神經(jīng)網(wǎng)絡(luò)中，通過(guò)卷積層進(jìn)行特征提取，之后通過(guò)池化層過(guò)濾細(xì)節(jié)（一般采用最大值池化、平均池化），最后在全連接層進(jìn)行特征展開(kāi)，送入相應(yīng)的分類器得到其分類結(jié)果。

　　大多數(shù)圖像分類算法都是在ImageNet數(shù)據(jù)集上訓(xùn)練的，該數(shù)據(jù)集由120萬(wàn)張的圖像組成，涵蓋1000個(gè)類別，該數(shù)據(jù)集也可以稱作改變?nèi)斯ぶ悄芎褪澜绲臄?shù)據(jù)集。ImagNet 數(shù)據(jù)集讓人們意識(shí)到，構(gòu)建優(yōu)良數(shù)據(jù)集的工作是 AI 研究的核心，數(shù)據(jù)和算法一樣至關(guān)重要。為此，世界組織也舉辦了針對(duì)該數(shù)據(jù)集的挑戰(zhàn)賽——ImageNet挑戰(zhàn)賽。

　　第一屆ImageNet挑戰(zhàn)賽的第一名是由Alex Krizhevsky（NIPS 2012）獲得，采用的方法是深層卷積神經(jīng)網(wǎng)絡(luò)，網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。在該模型中，采用了一些技巧，比如最大值池化、線性修正單元激活函數(shù)ReLU以及使用GPU仿真計(jì)算等，AlexNet模型拉開(kāi)了深度學(xué)習(xí)研究的序幕。自從AlexNet網(wǎng)絡(luò)模型贏得比賽之后，有很多基于CNN的算法也在ImageNet上取得了特別好的成績(jī)，比如ZFNet（2013）、GoogleNet（2014）、VGGNet（2014）、ResNet（2015）以及DenseNet（2016）等。

　　2.目標(biāo)檢測(cè)

　　目標(biāo)檢測(cè)通常是從圖像中輸出單個(gè)目標(biāo)的Bounding Box（邊框）以及標(biāo)簽。比如，在汽車檢測(cè)中，必須使用邊框檢測(cè)出給定圖像中的所有車輛。

　　之前在圖像分類任務(wù)中大放光彩的CNN同樣也可以應(yīng)用于此。第一個(gè)高效模型是R-CNN（基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)），如下圖所示。在該網(wǎng)絡(luò)中，首先掃描圖像并使用搜索算法生成可能區(qū)域，之后對(duì)每個(gè)可能區(qū)域運(yùn)行CNN，最后將每個(gè)CNN網(wǎng)絡(luò)的輸出送入SVM分類器中來(lái)對(duì)區(qū)域進(jìn)行分類和線性回歸，并用邊框標(biāo)注目標(biāo)。

　　本質(zhì)上，是將物體檢測(cè)轉(zhuǎn)換成圖像分類問(wèn)題。但該方法存在一些問(wèn)題，比如訓(xùn)練速度慢，耗費(fèi)內(nèi)存、預(yù)測(cè)時(shí)間長(zhǎng)等。

　　為了解決上述這些問(wèn)題，Ross Girshickyou提出Fast R-CNN算法，從兩個(gè)方面提升了檢測(cè)速度：1）在給出建議區(qū)域之前執(zhí)行特征提取，從而只需在整幅圖像上運(yùn)行一次CNN；2）使用Softmax分類器代替SVM分類器；

　　雖然Fast R-CNN在速度方面有所提升，然而，選擇搜索算法仍然需要大量的時(shí)間來(lái)生成建議區(qū)域。為此又提出了Faster R-CNN算法，該模型提出了候選區(qū)域生成網(wǎng)絡(luò)（RPN），用來(lái)代替選擇搜索算法，將所有內(nèi)容整合在一個(gè)網(wǎng)絡(luò)中，大大提高了檢測(cè)速度和精度。

　　近年來(lái)，目標(biāo)檢測(cè)研究趨勢(shì)主要向更快、更有效的檢測(cè)系統(tǒng)發(fā)展。目前已經(jīng)有一些其它的方法可供使用，比如YOLO、SSD以及R-FCN等。

　　3.目標(biāo)跟蹤

　　目標(biāo)跟蹤是指在給定場(chǎng)景中跟蹤感興趣的具體對(duì)象或多個(gè)對(duì)象的過(guò)程。簡(jiǎn)單來(lái)說(shuō)，給出目標(biāo)在跟蹤視頻第一幀中的初始狀態(tài)（如位置、尺寸），自動(dòng)估計(jì)目標(biāo)物體在后續(xù)幀中的狀態(tài)。該技術(shù)對(duì)自動(dòng)駕駛汽車等領(lǐng)域顯得至關(guān)重要。

　　根據(jù)觀察模型，目標(biāo)跟蹤可以分為兩類：產(chǎn)生式（generative method）和判別式（discriminative method）。其中，產(chǎn)生式方法主要運(yùn)用生成模型描述目標(biāo)的表觀特征，之后通過(guò)搜索候選目標(biāo)來(lái)最小化重構(gòu)誤差。常用的算法有稀疏編碼（sparse coding）、主成分分析（PCA）等。與之相對(duì)的，判別式方法通過(guò)訓(xùn)練分類器來(lái)區(qū)分目標(biāo)和背景，其性能更為穩(wěn)定，逐漸成為目標(biāo)跟蹤這一領(lǐng)域的主要研究方法。常用的算法有堆棧自動(dòng)編碼器（SAE）、卷積神經(jīng)網(wǎng)絡(luò)（CNN）等。

　　使用SAE方法進(jìn)行目標(biāo)跟蹤的最經(jīng)典深層網(wǎng)絡(luò)是Deep Learning Tracker（DLT），提出了離線預(yù)訓(xùn)練和在線微調(diào)。該方法的主要步驟如下：

　　先使用棧式自動(dòng)編碼器（SDAE）在大規(guī)模自然圖像數(shù)據(jù)集上進(jìn)行無(wú)監(jiān)督離線預(yù)訓(xùn)練來(lái)獲得通用的物體表征能力。

　　將預(yù)訓(xùn)練網(wǎng)絡(luò)的編碼部分與分類器相結(jié)合組成分類網(wǎng)絡(luò)，然后利用從初始幀獲得的正、負(fù)樣本對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào)，使其可以區(qū)分當(dāng)前對(duì)象和背景。在跟蹤過(guò)程中，選擇分類網(wǎng)絡(luò)輸出得分最大的patch作為最終預(yù)測(cè)目標(biāo)。

　　模型更新策略采用限定閾值的方法。

　　基于CNN完成目標(biāo)跟蹤的典型算法是FCNT和MD Net。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開(kāi)APP，閱讀全文并永久保存查看更多類似文章

計(jì)算機(jī)視覺(jué)（和卷積神經(jīng)網(wǎng)絡(luò)）簡(jiǎn)史

5種計(jì)算機(jī)視覺(jué)技術(shù)將改變你如何看待世界

深度學(xué)習(xí)時(shí)代的目標(biāo)檢測(cè)算法綜述

這5種計(jì)算機(jī)視覺(jué)技術(shù)，刷新你的世界觀

計(jì)算機(jī)視覺(jué)（及卷積神經(jīng)網(wǎng)絡(luò)）簡(jiǎn)史

新手初入人工智能（圖像處理方向），我該向什么方向發(fā)展？

更多類似文章 >>

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看