本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :
The 5 Computer Vision Techniques That Will Change How You See The World
作者 |James Le
翻譯 | jinlilei
校對 | 醬番梨 整理 | 菠蘿妹
https://heartbeat.fritz.ai/the-5-computer-vision-techniques-that-will-change-how-you-see-the-world-1ee19334354b
計(jì)算機(jī)視覺是目前深度學(xué)習(xí)領(lǐng)域最熱門的研究領(lǐng)域之一。它位于許多學(xué)術(shù)科目的交匯點(diǎn),如計(jì)算機(jī)科學(xué)(圖形學(xué),算法,理論,系統(tǒng),建筑),數(shù)學(xué)(信息檢索,機(jī)器學(xué)習(xí)),工程學(xué)(機(jī)器人學(xué),語音,自然語言處理,圖像處理),物理學(xué)(光學(xué)) ,生物學(xué)(神經(jīng)科學(xué))和心理學(xué)(認(rèn)知科學(xué))。由于計(jì)算機(jī)視覺代表了對視覺環(huán)境及其背景的相對理解,許多科學(xué)家認(rèn)為,該領(lǐng)域由于其跨域掌握為人工智能鋪平了道路。
那么什么是計(jì)算機(jī)視覺?以下是一些正式的教科書定義:
“從圖像中構(gòu)建明確,有意義的物理對象描述”(Ballard&Brown,1982)
“從一個(gè)或多個(gè)數(shù)字圖像計(jì)算3D世界的屬性”(Trucco&Verri,1998)
“根據(jù)感知的圖像做出有關(guān)真實(shí)物體和場景的有用決策”(Sockman&Shapiro,2001)
為何學(xué)習(xí)計(jì)算機(jī)視覺?最明顯的答案是,從這一研究領(lǐng)域衍生出的快速增長的有用的應(yīng)用集合。以下是其中的一小部分:
人臉識別:Snapchat和Facebook使用 面部檢測 算法應(yīng)用卷積核并在圖片中識別出你。
圖像檢索:Google圖像使用基于內(nèi)容的查詢來搜索相關(guān)圖像。算法分析查詢圖像中的內(nèi)容,并根據(jù)最匹配的內(nèi)容返回結(jié)果。
游戲和控制:Microsoft Kinect是使用立體視覺的游戲中的一個(gè)很好的商業(yè)產(chǎn)品。
監(jiān)視:監(jiān)控?cái)z像機(jī)在公共場所無處不在,它用于檢測可疑行為。
生物識別:指紋,虹膜和面部匹配仍然是生物識別中的一些常用方法。
智能汽車:視覺仍然是檢測交通標(biāo)志和信號燈以及其他視覺特征的主要信息來源。
我最近完成了斯坦福大學(xué)關(guān)于使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行視覺識別的精彩CS231n課程。視覺識別任務(wù),如圖像分類,定位和檢測,是計(jì)算機(jī)視覺的關(guān)鍵組成部分。神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)方法的最新發(fā)展極大地提高了這些最先進(jìn)的視覺識別系統(tǒng)的性能。該課程是一個(gè)非凡的資源,它教會了我在頂端計(jì)算機(jī)視覺研究中使用深度學(xué)習(xí)架構(gòu)的細(xì)節(jié)。在本文中,我想分享我學(xué)到的5種主要計(jì)算機(jī)視覺技術(shù),以及使用每種技術(shù)主要的深度學(xué)習(xí)模型和應(yīng)用。
1--圖像分類
圖像分類的問題是這樣的:給定一組單一類別標(biāo)注的圖像,要求我們對一組新的測試集預(yù)測這些類別并且測試預(yù)測的準(zhǔn)確率。關(guān)于這個(gè)任務(wù)有很多挑戰(zhàn),包括視點(diǎn)變化,尺度變換,類內(nèi)變化,圖像變形,圖像遮擋,條件,以及雜亂的背景。
我們?nèi)绾蝸砭帉懸粋€(gè)能將圖像分成不同類別的算法?計(jì)算機(jī)視覺研究人員已經(jīng)提出一種數(shù)據(jù)驅(qū)動(dòng)的方法來解決這個(gè)問題。 他們不是試圖直接在代碼中指定每個(gè)感興趣的圖像類別,而是為計(jì)算機(jī)提供每張圖像類的許多樣本,然后開發(fā)學(xué)習(xí)算法,查看這些樣本并了解每個(gè)類的視覺外觀。換句話說,他們首先收集一個(gè)帶標(biāo)注圖像的訓(xùn)練集,然后將它傳給計(jì)算機(jī)去處理這個(gè)數(shù)據(jù)。
鑒于這一事實(shí),整個(gè)圖像分類的過程可形式化如下:
我們的輸入是一個(gè)訓(xùn)練集,包括N 個(gè)圖像,用K 個(gè)不同的類別給每個(gè)圖像進(jìn)行標(biāo)注。
然后,我們用這個(gè)訓(xùn)練集來訓(xùn)練分類器以了解每個(gè)類別像什么。
最后,我們通過讓這個(gè)分類器預(yù)測一組它之前沒見過的新的圖像集來評估分類器的效果。然后我們將這些圖像的真實(shí)標(biāo)簽與分類器預(yù)測的標(biāo)簽進(jìn)行比較。
卷積神經(jīng)網(wǎng)絡(luò)(CNNs)是用于圖像分類最流行的架構(gòu)。CNNs一個(gè)典型的用例是你傳給這個(gè)網(wǎng)絡(luò)圖像,然后網(wǎng)絡(luò)對這些數(shù)據(jù)分類。CNNs往往從輸入”掃描器“ 開始,它不打算一次解析所有的訓(xùn)練數(shù)據(jù)。比如,輸入一張100×100像素的圖像,你不需要具有10,000節(jié)點(diǎn)的圖層。相反,你會創(chuàng)建一個(gè)10×10大小的掃描輸入層,你可以為圖像的前10×10像素提供圖像。通過該輸入后,通過將掃描器向右移動(dòng)一個(gè)像素,可以輸入下一個(gè)10×10像素。這個(gè)技術(shù)稱為滑動(dòng)窗口。
然后,通過卷積層而不是正常層饋送輸入數(shù)據(jù)。每個(gè)節(jié)點(diǎn)僅僅關(guān)注與自身相鄰的部分。這些卷積層隨著網(wǎng)絡(luò)的變深也趨于收縮,主要是通過輸入的易分解因素。除了卷積層,它們通常還具有特征池化層。 池化是一個(gè)過濾細(xì)節(jié)的方法:常見的池化技術(shù)是最大池化,我們采用2×2像素,并傳遞具有最大量特定屬性的像素。
目前大多數(shù)圖像分類技術(shù)都是在ImageNet上面訓(xùn)練的,它是一個(gè)約120萬個(gè)高分辨率的訓(xùn)練圖像的數(shù)據(jù)集。測試圖像不顯示初始注釋(沒有分割或者標(biāo)簽),并且算法必須生成指定圖像中存在的對象的標(biāo)簽。Oxford、INRIA、XRCE 等機(jī)構(gòu)的領(lǐng)先計(jì)算機(jī)視覺小組用已有的最好計(jì)算機(jī)視覺方法應(yīng)用于這個(gè)數(shù)據(jù)集。通常,計(jì)算機(jī)視覺系統(tǒng)是復(fù)雜的多級系統(tǒng),往往需要在早期階段通過手動(dòng)調(diào)試優(yōu)化參數(shù)。
第一屆ImageNet 競賽的冠軍 Alex Krizhevsky (NIPS 2012) 由 Yann LeCun 開創(chuàng)的深度卷積神經(jīng)網(wǎng)絡(luò)。其結(jié)構(gòu)包括7個(gè)隱藏層,不包括一些最大池化層。前5層是卷積層,最后2層是全連接層。每個(gè)隱藏層的激活函數(shù)是ReLU。這些訓(xùn)練比邏輯單元更快更有表達(dá)力。除此之外,當(dāng)相近的單元有更強(qiáng)的激活值,它還用競爭的歸一化來抑制隱藏的活動(dòng)。這有助于強(qiáng)度的變化。
在硬件要求方面,Alex在2個(gè)Nvidia GTX 580 GPU(超過1000個(gè)快速小內(nèi)核)上使用了非常有效的卷積網(wǎng)絡(luò)實(shí)現(xiàn)。 GPU非常適合矩陣矩陣乘法,并且具有非常高的存儲器帶寬。 這使他能夠在一周內(nèi)訓(xùn)練網(wǎng)絡(luò),并在測試時(shí)快速組合10個(gè)補(bǔ)丁的結(jié)果。 如果我們能夠足夠快地傳達(dá)狀態(tài),我們可以在多個(gè)核心上傳播網(wǎng)絡(luò)。 隨著核心變得越來越便宜而數(shù)據(jù)集越來越大,大型神經(jīng)網(wǎng)絡(luò)的改進(jìn)速度將超過老式的計(jì)算機(jī)視覺系統(tǒng)。 自AlexNet以來,已有多種新型號使用CNN作為其骨干架構(gòu),并在ImageNet中取得了出色的成果:ZFNet(2013),GoogLeNet(2014),VGGNet(2014),ResNet(2015),DenseNet(2016)等。
2--目標(biāo)檢測
在圖像中定義目標(biāo)的任務(wù)通常涉及單個(gè)目標(biāo)的邊界框和標(biāo)簽的輸出。這與分類/定位任務(wù)的不同之處在于,它將分類和定位應(yīng)用于許多目標(biāo),而不僅僅是一個(gè)主導(dǎo)目標(biāo)。你只有2類目標(biāo)分類,即目標(biāo)邊界框和非目標(biāo)邊界框。例如,在汽車檢測中,您必須使用其邊界框檢測給定圖像中的所有汽車。
如果我們就像對圖像進(jìn)行分類和定位的方式使用滑動(dòng)窗口技術(shù),我們需要將CNN應(yīng)用于圖像的許多不同位置。因?yàn)镃NN將每個(gè)位置分類為目標(biāo)或背景,我們需要在CNN中應(yīng)用許多的位置和不同比例,計(jì)算上是非常昂貴的!
為了處理這種情況,神經(jīng)網(wǎng)絡(luò)研究人員已經(jīng)提出使用區(qū)域來代替,在那里我們找到可能包含目標(biāo)的“blobby”圖像區(qū)域。這個(gè)區(qū)域運(yùn)行起來相對較快。第一個(gè)引人注目的模型是 R-CNN(基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò))。在R-CNN中,我們首先使用稱為選擇性搜索的算法掃描輸入圖像以尋找可能的目標(biāo),生成約2,000個(gè)候選區(qū)域。然后我們在每個(gè)區(qū)域框的基礎(chǔ)上運(yùn)行CNN。最后,我們獲取每個(gè)CNN的輸出并將其輸入到SVM以對區(qū)域進(jìn)行分類,并使用線性回歸來收緊目標(biāo)的邊界框。
基本上,我們將目標(biāo)檢測轉(zhuǎn)變成了圖像分類問題。但是,存在一些問題 - 訓(xùn)練緩慢,需要大量磁盤空間,推理也很慢。
R-CNN的直接后代是快速R-CNN,它通過2次增強(qiáng)提高了檢測速度:1)在侯選區(qū)域之前執(zhí)行特征提取,因此在整個(gè)圖像上僅運(yùn)行一個(gè)CNN,以及2)用softmax層替換SVM ,從而擴(kuò)展神經(jīng)網(wǎng)絡(luò)的預(yù)測,而不是創(chuàng)建一個(gè)新的模型。
快速R-CNN在速度方面表現(xiàn)得更好,因?yàn)樗粸檎麄€(gè)圖像訓(xùn)練一個(gè)CNN。但是,選擇性搜索算法仍然需要花費(fèi)大量時(shí)間來生成候選區(qū)域。
因此,發(fā)現(xiàn)了更快的R-CNN,它現(xiàn)在是用于基于深度學(xué)習(xí)的目標(biāo)檢測的規(guī)范模型。通過插入?yún)^(qū)域生成網(wǎng)絡(luò)(RPN)來預(yù)測來自特征的區(qū)域,它用快速神經(jīng)網(wǎng)絡(luò)取代慢的選擇性搜索算法。RPN用于決定“在哪里”以減少整個(gè)推理過程的計(jì)算要求。RPN快速有效地掃描每個(gè)位置,以評估是否需要在給定區(qū)域中進(jìn)行進(jìn)一步處理。它通過輸出k個(gè)邊界框區(qū)域來做到這一點(diǎn), 每個(gè)區(qū)域具有2個(gè)分?jǐn)?shù),表示每個(gè)位置處目標(biāo)的概率。
一旦我們獲得了我們的候選區(qū)域,我們就會直接將它們提供給基本上是快速R-CNN的內(nèi)容。我們添加了一個(gè)池化層,一些全連接層,最后是一個(gè)softmax分類層和邊界框回歸器。
總而言之,更快的R-CNN實(shí)現(xiàn)了更好的速度和更高的精度。值得注意的是,盡管未來的模型在提高檢測速度方面做了很多工作,但很少有模型能夠以更高的優(yōu)勢超越更快的R-CNN。換句話說,更快的R-CNN可能不是最簡單或最快的目標(biāo)檢測方法,但它仍然是表現(xiàn)最好的方法之一。
近年來的主要目標(biāo)檢測趨勢已轉(zhuǎn)向更快,更有效的檢測系統(tǒng)。這在諸如You Only Look Once(YOLO),Single Shot MultiBox Detector(SSD)和基于區(qū)域的完全卷積網(wǎng)絡(luò)(R-FCN)等方法中可見,作為在整個(gè)圖像上共享計(jì)算的一種方法。因此,這些方法將自己與3種R-CNN技術(shù)相關(guān)聯(lián)的昂貴子網(wǎng)區(qū)分開來。這些趨勢背后的主要原因是避免讓單獨(dú)的算法孤立地關(guān)注各自的子問題,因?yàn)檫@通常會增加訓(xùn)練時(shí)間并降低網(wǎng)絡(luò)準(zhǔn)確性。
3--目標(biāo)跟蹤
目標(biāo)跟蹤指的是在給定場景下跟蹤特定感興趣的一個(gè)或者多個(gè)目標(biāo) 。傳統(tǒng)上,它應(yīng)用在視頻和現(xiàn)實(shí)世界的交互中,它們在初始目標(biāo)檢測之后進(jìn)行觀察?,F(xiàn)在,它對自動(dòng)駕駛系統(tǒng)至關(guān)重要,例如優(yōu)步和特斯拉等公司的自動(dòng)駕駛車輛。
目標(biāo)跟蹤方法可以根據(jù)觀察模型分為兩類:生成方法和判別方法。生成方法使用生成模型來描述表觀特征并最小化重建誤差以搜索目標(biāo),例如PCA。判別方法可用于區(qū)分目標(biāo)和背景,其性能更加魯棒,它逐漸成為跟蹤的主要方法。判別方法也稱為檢測跟蹤,深度學(xué)習(xí)屬于這一類。為了通過檢測實(shí)現(xiàn)跟蹤,我們檢測所有幀的候選目標(biāo),并使用深度學(xué)習(xí)從候選者中識別所需目標(biāo)。可以使用兩種基本網(wǎng)絡(luò)模型:棧式自動(dòng)編碼器(SAE)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)。
使用SAE跟蹤任務(wù)的最流行的深度網(wǎng)絡(luò)是深度學(xué)習(xí)跟蹤器,它提出了離線預(yù)訓(xùn)練和在線微調(diào)網(wǎng)絡(luò)。這個(gè)過程是這樣的:
離線無監(jiān)督預(yù)訓(xùn)練使用大規(guī)模自然圖像數(shù)據(jù)集的棧式去噪自動(dòng)編碼器以獲得一般目標(biāo)表示。通過在輸入圖像中添加噪聲并重建原始圖像,棧式 去噪自動(dòng)編碼器可以獲得更魯棒的特征表達(dá)能力。
將預(yù)訓(xùn)練網(wǎng)絡(luò)的編碼部分與分類器組合以獲得分類網(wǎng)絡(luò),然后使用從初始幀獲得的正樣本和負(fù)樣本來微調(diào)網(wǎng)絡(luò),這可以區(qū)分當(dāng)前目標(biāo)和背景。DLT使用粒子濾波器作為運(yùn)動(dòng)模型來產(chǎn)生當(dāng)前幀的候選補(bǔ)丁。分類網(wǎng)絡(luò)輸出這些補(bǔ)丁的概率分?jǐn)?shù),表示其分類的置信度,然后選擇這些補(bǔ)丁中最高的補(bǔ)丁作為目標(biāo)。
在模型更新中,DLT使用限制閾值的方式。
由于其在圖像分類和目標(biāo)檢測方面的優(yōu)越性,CNN已成為計(jì)算機(jī)視覺和視覺跟蹤的主流深度模型。一般而言,大規(guī)模CNN既可以作為分類器也可以作為跟蹤器進(jìn)行訓(xùn)練。2個(gè)代表性的基于CNN的跟蹤算法是 完全卷積網(wǎng)絡(luò)跟蹤器(FCNT)和多域CNN (MD Net)。
FCNT成功分析并利用VGG模型的特征圖,這是一個(gè)經(jīng)過預(yù)先訓(xùn)練的ImageNet,并產(chǎn)生以下觀察結(jié)果:
CNN特征圖可用于定位和跟蹤。
許多CNN特征圖區(qū)分特定目標(biāo)與其背景的任務(wù)是嘈雜的或不相關(guān)的。
較高層捕獲對象類別的語義概念,而較低層編碼更多的判別特征以捕獲類內(nèi)變異。
由于這些觀察,F(xiàn)CNT設(shè)計(jì)了特征選擇網(wǎng)絡(luò),以在VGG網(wǎng)絡(luò)的conv4-3和conv5-3層上選擇最相關(guān)的特征圖。然后,為了避免在噪聲上過擬合,它還分別為兩個(gè)層的選定特征圖設(shè)計(jì)了額外的兩個(gè)通道(稱為SNet和GNet)。GNet捕獲目標(biāo)的類別信息,而SNet將目標(biāo)位置為中心的感興趣區(qū)域(ROI)。最后,通過SNet和GNet,分類器獲得兩個(gè)預(yù)測熱圖,并且跟蹤器根據(jù)是否存在干擾者來決定將使用哪個(gè)熱圖來生成最終跟蹤結(jié)果。FCNT的流程如下所示。
與FCNT的想法不同,MD Net使用視頻的所有序列來跟蹤其中的移動(dòng)物體。上述網(wǎng)絡(luò)使用不相關(guān)的圖像數(shù)據(jù)來減少跟蹤數(shù)據(jù)的訓(xùn)練需求,這種想法與跟蹤有一些偏差。此視頻中一個(gè)類的目標(biāo)可以是另一個(gè)視頻中的背景,因此MD Net提出了多域的概念,以獨(dú)立區(qū)分每個(gè)域中的目標(biāo)和背景。域表示包含相同類型目標(biāo)的一組視頻。
如下所示,MD Net分為兩部分:共享層和特定域?qū)拥腒分支。每個(gè)分支包含一個(gè)具有softmax損失的二進(jìn)制分類層,用于區(qū)分每個(gè)域中的目標(biāo)和背景,以及共享層與所有域共享以確保一般性表示。
近年來,深度學(xué)習(xí)研究人員嘗試了不同的方法來適應(yīng)視覺跟蹤任務(wù)的特征。他們已經(jīng)探索了許多方向:應(yīng)用其他網(wǎng)絡(luò)模型,如遞歸神經(jīng)網(wǎng)絡(luò)和深度置信網(wǎng)絡(luò),設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)以適應(yīng)視頻處理和端到端學(xué)習(xí),優(yōu)化過程,結(jié)構(gòu)和參數(shù),或者甚至將深度學(xué)習(xí)與傳統(tǒng)的計(jì)算機(jī)視覺方法或語言處理和語音識別等其他領(lǐng)域的方法相結(jié)合。
4--語義分割
計(jì)算機(jī)視覺的核心是分割過程 ,它將整個(gè)圖像分成像素組,然后可以對其進(jìn)行標(biāo)記和分類。特別是,語義分割試圖在語義上理解圖像中每個(gè)像素的作用(例如,它是汽車,摩托車還是其它類型的類?)。例如,在上圖中,除了識別人,道路,汽車,樹木等之外,我們還必須描繪每個(gè)物體的邊界。因此,與分類不同,我們需要從模型中進(jìn)行密集的逐像素預(yù)測。
與其他計(jì)算機(jī)視覺任務(wù)一樣,CNN在分割問題上取得了巨大成功。其中一種流行的初始方法是通過滑動(dòng)窗口進(jìn)行補(bǔ)丁分類,其中每個(gè)像素使用其周圍的圖像分別分為類。然而,這在計(jì)算上是非常低效的,因?yàn)槲覀儾恢赜弥丿B補(bǔ)丁之間的共享特征。
相反,解決方案是加州大學(xué)伯克利分校的全卷積網(wǎng)絡(luò)(FCN),它推廣了端到端的CNN架構(gòu),用于密集預(yù)測而無需任何全連接層。這允許為任何大小的圖像生成分割圖,并且與補(bǔ)丁分類方法相比也快得多。幾乎所有后續(xù)的語義分割方法都采用了這種范式。
然而,仍然存在一個(gè)問題:原始圖像分辨率下的卷積將非常昂貴。為了解決這個(gè)問題,F(xiàn)CN在網(wǎng)絡(luò)內(nèi)部使用下采樣和上采樣。下采樣層稱為條紋卷積,而上采樣層稱為反卷積。
盡管采用了上采樣/下采樣層,但由于在池化期間信息丟失,F(xiàn)CN會生成粗分割圖。 SegNet 是一種比使用最大池化和編碼 - 解碼器框架的FCN更高效的內(nèi)存架構(gòu)。在SegNet中,從更高分辨率的特征映射引入快捷/跳躍連接,以改善上采樣/下采樣的粗糙度。
最近的語義分割研究在很大程度上依賴于全卷積網(wǎng)絡(luò),例如擴(kuò)張卷積,DeepLab和RefineNet。
5--實(shí)例分割
除了語義分割之外,實(shí)例分割將不同類的實(shí)例分段,例如用5種不同顏色標(biāo)記5輛汽車。在分類中,通常有一個(gè)圖像,其中一個(gè)目標(biāo)作為焦點(diǎn),任務(wù)是說這個(gè)圖像是什么。但是為了分割實(shí)例,我們需要執(zhí)行更復(fù)雜的任務(wù)。我們看到復(fù)雜的景點(diǎn)有多個(gè)重疊的物體和不同的背景,我們不僅要對這些不同的物體進(jìn)行分類,還要確定它們之間的界限,差異和關(guān)系!
到目前為止,我們已經(jīng)看到了如何以許多有趣的方式使用CNN特征來有效地定位帶有邊界框的圖像中的不同目標(biāo)。我們可以擴(kuò)展這些技術(shù)來定位每個(gè)目標(biāo)的精確像素而不僅僅是邊界框嗎?使用稱為Mask R-CNN的架構(gòu)在Facebook AI上探索該實(shí)例分割問題。
就像Fast R-CNN和Faster R-CNN一樣,Mask R-CNN的潛在原理很簡單。鑒于 Faster R-CNN在目標(biāo)檢測中運(yùn)行得非常好,我們是否可以擴(kuò)展它以進(jìn)行像素級分割?
Mask R-CNN通過向 Faster R-CNN添加分支來完成此操作,該分支輸出二進(jìn)制掩碼,該掩碼表示給定像素是否是目標(biāo)的一部分。該分支是基于CNN的特征圖之上的全卷積網(wǎng)絡(luò)。給定CNN特征圖作為輸入,網(wǎng)絡(luò)在像素屬于目標(biāo)的用1s在所有位置輸出矩陣,在其他地方輸出0(這稱為二進(jìn)制掩碼)。
另外,當(dāng)在原始Faster R-CNN架構(gòu)上運(yùn)行而沒有修改時(shí),由RoIPool(感興趣區(qū)域池化)選擇的特征圖的區(qū)域與原始圖像的區(qū)域略微不對準(zhǔn)。由于圖像分割需要像素級特異性,與邊界框不同,這自然會導(dǎo)致不準(zhǔn)確。Mask R-CNN通過使用稱為RoIAlign(感興趣區(qū)域?qū)R)的方法調(diào)整RoIPool以更精確地對齊來解決此問題。從本質(zhì)上講,RoIAlign使用雙線性插值來避免舍入誤差,從而導(dǎo)致檢測和分割不準(zhǔn)確。
一旦生成了這些掩模,Mask R-CNN將它們與來自Faster R-CNN的分類和邊界框組合在一起,以生成如此精確的分割:
結(jié)論
這5種主要的計(jì)算機(jī)視覺技術(shù)可以幫助計(jì)算機(jī)從一個(gè)或一系列圖像中提取,分析和理解有用的信息。我還沒有談到許多其他先進(jìn)技術(shù),包括樣式轉(zhuǎn)移,著色,動(dòng)作識別,3D對象,人體姿勢估計(jì)等。事實(shí)上,計(jì)算機(jī)視覺領(lǐng)域的成本太高而無法深入探討,我鼓勵(lì)您進(jìn)一步探索,無論是通過在線課程,博客教程還是正式文檔。對于初學(xué)者,我強(qiáng)烈推薦CS231n課程,因?yàn)槟鷮W(xué)習(xí)如何實(shí)現(xiàn),訓(xùn)練和調(diào)試自己的神經(jīng)網(wǎng)絡(luò)。作為獎(jiǎng)勵(lì),您可以從我的GitHub存儲庫獲取所有演講幻燈片和作業(yè)指南。我希望它能指導(dǎo)你改變對世界的看法!