你想了解的有關(guān)計(jì)算機(jī)視覺(jué)的所有信息。
計(jì)算機(jī)視覺(jué)是最強(qiáng)大和引人注目的AI之一,你幾乎肯定會(huì)以各種方式體驗(yàn)過(guò)它,當(dāng)時(shí)卻不知道。 今天我們來(lái)好好研究一下它,包括它的工作原理以及它如此出色的原因(而且只會(huì)變得越來(lái)越好)。
計(jì)算機(jī)視覺(jué)屬于計(jì)算機(jī)科學(xué)領(lǐng)域,其重點(diǎn)是復(fù)制一部分人類(lèi)視覺(jué)系統(tǒng)的復(fù)雜性,并使計(jì)算機(jī)能夠以與人類(lèi)相同的方式識(shí)別和處理圖像和視頻中的對(duì)象。 直到目前,計(jì)算機(jī)視覺(jué)仍然以有限的能力發(fā)揮著作用。得益于人工智能的進(jìn)步以及深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的創(chuàng)新,該領(lǐng)域近年來(lái)取得了長(zhǎng)足的飛躍,并且在與檢測(cè)和標(biāo)記物體有關(guān)的某些任務(wù)中已經(jīng)超越人類(lèi)。
計(jì)算機(jī)視覺(jué)增長(zhǎng)背后的驅(qū)動(dòng)因素之一是我們今天生成的數(shù)據(jù)量,這些數(shù)據(jù)隨后被用來(lái)訓(xùn)練和改善計(jì)算機(jī)視覺(jué)。伴隨著大量的可視數(shù)據(jù)(每天在線共享30億張圖像),現(xiàn)在可以訪問(wèn)分析數(shù)據(jù)所需的計(jì)算能力。 隨著計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展、新硬件和算法的進(jìn)步,物體識(shí)別的準(zhǔn)確率也隨之提高。 在不到十年的時(shí)間里,當(dāng)今的系統(tǒng)已從50%的精度達(dá)到了99%的精度,使它們?cè)趯?duì)視覺(jué)輸入做出快速反應(yīng)時(shí)比人類(lèi)更準(zhǔn)確。
早期的計(jì)算機(jī)視覺(jué)實(shí)驗(yàn)始于1950年代,到1970年代首次在商業(yè)上用于區(qū)分打字文本和手寫(xiě)文本,如今計(jì)算機(jī)視覺(jué)的應(yīng)用呈指數(shù)增長(zhǎng)。到2022年,計(jì)算機(jī)視覺(jué)和硬件市場(chǎng)預(yù)計(jì)將達(dá)到486億美元。
一、計(jì)算機(jī)視覺(jué)如何工作?
神經(jīng)科學(xué)和機(jī)器學(xué)習(xí)中的主要開(kāi)放問(wèn)題之一是:我們的大腦究竟如何工作,如何用我們自己的算法更加接近它? 現(xiàn)實(shí)情況是,目前缺少全面有效的大腦計(jì)算理論。 因此,盡管事實(shí)上神經(jīng)網(wǎng)絡(luò)應(yīng)該“模仿大腦的運(yùn)作方式”,但沒(méi)人能確定這是否真的成立。同樣的悖論在計(jì)算機(jī)視覺(jué)中也適用。由于我們尚未決定大腦和眼睛如何處理圖像,因此很難說(shuō)生產(chǎn)中使用的算法能很好地逼近我們內(nèi)部的心理過(guò)程。
在某種程度上,計(jì)算機(jī)視覺(jué)與模式識(shí)別有關(guān)。因此,訓(xùn)練計(jì)算機(jī)如何理解視覺(jué)數(shù)據(jù)的一種方法是,將大量的圖像-成千上萬(wàn)個(gè)圖像(如果可能的話)、已標(biāo)記的圖像饋送給它,然后使它們經(jīng)受各種允許計(jì)算機(jī)追蹤的軟件技術(shù)或算法,找到與這些標(biāo)簽相關(guān)的所有元素中的圖案。
因此,如果你向計(jì)算機(jī)喂入一百萬(wàn)張貓的圖像,它將使它們?nèi)渴芩惴ㄓ绊?,從而使它們能夠分析照片中的顏色,形狀,形狀之間的距離,物體彼此相鄰的位置等等,以便可以識(shí)別“貓”的含義。完成后,如果再投放其他未標(biāo)記的圖像來(lái)查找屬于貓的圖像,則計(jì)算機(jī)(理論上)將能夠利用其經(jīng)驗(yàn)。
一幅圖像需要大量?jī)?nèi)存,而算法要迭代需要很多像素。但是,要以有意義的精度訓(xùn)練模型,尤其是在你談?wù)撋疃葘W(xué)習(xí)時(shí),通常需要成千上萬(wàn)張圖像,并且更多。
二、計(jì)算機(jī)視覺(jué)的演變
在深度學(xué)習(xí)出現(xiàn)之前,計(jì)算機(jī)視覺(jué)可以執(zhí)行的任務(wù)非常有限,并且需要開(kāi)發(fā)人員和人工操作人員進(jìn)行大量的手工編碼和工作。例如,如果要執(zhí)行面部識(shí)別,則必須執(zhí)行以下步驟:
創(chuàng)建數(shù)據(jù)庫(kù):你必須以特定格式捕獲要跟蹤的所有主題的單個(gè)圖像。
注釋圖像:然后,對(duì)于每個(gè)單獨(dú)的圖像,你都必須輸入幾個(gè)關(guān)鍵數(shù)據(jù)點(diǎn),例如眼睛之間的距離,鼻梁的寬度,上唇和鼻子之間的距離以及數(shù)十種定義獨(dú)特特征的其他度量每個(gè)人。
捕獲新圖像:接下來(lái),你必須捕獲新圖像,無(wú)論是照片還是視頻內(nèi)容。然后,你必須再次執(zhí)行測(cè)量過(guò)程,在圖像上標(biāo)記關(guān)鍵點(diǎn)。你還必須考慮拍攝圖像的角度。
經(jīng)過(guò)所有這些手動(dòng)工作,應(yīng)用程序最終將能夠?qū)⑿聢D像中的測(cè)量結(jié)果與數(shù)據(jù)庫(kù)中存儲(chǔ)的測(cè)量結(jié)果進(jìn)行比較,并告訴你它是否與它正在跟蹤的任何配置文件相對(duì)應(yīng)。實(shí)際上,涉及的自動(dòng)化很少,大部分工作都是手動(dòng)完成的。而且誤差幅度仍然很大。
機(jī)器學(xué)習(xí)提供了解決計(jì)算機(jī)視覺(jué)問(wèn)題的另一種方法。通過(guò)機(jī)器學(xué)習(xí),開(kāi)發(fā)人員不再需要將每個(gè)規(guī)則手動(dòng)編碼到他們的視覺(jué)應(yīng)用程序中。相反,他們編寫(xiě)了“功能”,這些較小的應(yīng)用程序可以檢測(cè)圖像中的特定圖案。然后,他們使用統(tǒng)計(jì)學(xué)習(xí)算法(例如線性回歸,邏輯回歸,決策樹(shù)或支持向量機(jī)(SVM))來(lái)檢測(cè)模式,對(duì)圖像進(jìn)行分類(lèi)并檢測(cè)其中的對(duì)象。
機(jī)器學(xué)習(xí)幫助解決了許多傳統(tǒng)軟件開(kāi)發(fā)工具和方法歷來(lái)具有挑戰(zhàn)性的問(wèn)題。例如,幾年前,機(jī)器學(xué)習(xí)工程師能夠創(chuàng)建一種可以比人類(lèi)專(zhuān)家更好地預(yù)測(cè)乳腺癌生存期的軟件。但是,構(gòu)建軟件的功能需要數(shù)十名工程師和乳腺癌專(zhuān)家的努力,并且花費(fèi)了大量的時(shí)間進(jìn)行開(kāi)發(fā)。
深度學(xué)習(xí)為進(jìn)行機(jī)器學(xué)習(xí)提供了根本不同的方法。深度學(xué)習(xí)依賴(lài)于神經(jīng)網(wǎng)絡(luò),這是一種通用功能,可以解決通過(guò)示例表示的任何問(wèn)題。當(dāng)你為神經(jīng)網(wǎng)絡(luò)提供特定類(lèi)型數(shù)據(jù)的許多帶標(biāo)簽的示例時(shí),它將能夠提取這些示例之間的常見(jiàn)模式并將其轉(zhuǎn)換為數(shù)學(xué)方程式,從而有助于對(duì)將來(lái)的信息進(jìn)行分類(lèi)。
例如,使用深度學(xué)習(xí)創(chuàng)建面部識(shí)別應(yīng)用程序只需要你開(kāi)發(fā)或選擇一種預(yù)先構(gòu)建的算法,然后使用必須檢測(cè)的人臉示例對(duì)其進(jìn)行訓(xùn)練。給定足夠的示例(大量示例),神經(jīng)網(wǎng)絡(luò)將能夠檢測(cè)面部,而無(wú)需進(jìn)一步說(shuō)明特征或測(cè)量。
深度學(xué)習(xí)是進(jìn)行計(jì)算機(jī)視覺(jué)的一種非常有效的方法。在大多數(shù)情況下,創(chuàng)建良好的深度學(xué)習(xí)算法歸結(jié)為收集大量帶標(biāo)簽的訓(xùn)練數(shù)據(jù)并調(diào)整參數(shù),例如神經(jīng)網(wǎng)絡(luò)和訓(xùn)練時(shí)期的類(lèi)型和層數(shù)。與以前的機(jī)器學(xué)習(xí)類(lèi)型相比,深度學(xué)習(xí)的開(kāi)發(fā)和部署既簡(jiǎn)單又快速。
當(dāng)前大多數(shù)計(jì)算機(jī)視覺(jué)應(yīng)用程序(例如癌癥檢測(cè),自動(dòng)駕駛汽車(chē)和面部識(shí)別)都利用深度學(xué)習(xí)。由于可用性以及硬件和云計(jì)算資源的進(jìn)步,深度學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)已從概念領(lǐng)域轉(zhuǎn)變?yōu)閷?shí)際應(yīng)用。
三、解密圖像需要多長(zhǎng)時(shí)間
總之,耗費(fèi)的時(shí)間不多。這就是為什么計(jì)算機(jī)視覺(jué)如此令人興奮的關(guān)鍵:在過(guò)去,即使是超級(jí)計(jì)算機(jī)也可能需要數(shù)天、數(shù)周甚至數(shù)月的時(shí)間才能完成所有所需的計(jì)算,而當(dāng)今的超高速芯片和相關(guān)硬件以及快速可靠的互聯(lián)網(wǎng)和云網(wǎng)絡(luò),使計(jì)算過(guò)程如閃電般快速。許多從事AI研究的大公司愿意共享他們的工作,比如Google,IBM和Microsoft,特別是通過(guò)開(kāi)源一些他們的機(jī)器學(xué)習(xí)。
這樣一來(lái),其他人就可以繼續(xù)工作,而不是從頭開(kāi)始。因此人工智能行業(yè)正在不斷發(fā)展,不久前進(jìn)行的實(shí)驗(yàn)需要花費(fèi)數(shù)周的時(shí)間才能運(yùn)行,而今天的實(shí)驗(yàn)可能需要15分鐘。對(duì)于計(jì)算機(jī)視覺(jué)的許多實(shí)際應(yīng)用,此過(guò)程都在幾微秒內(nèi)連續(xù)發(fā)生,因此當(dāng)今的計(jì)算機(jī)能夠成為科學(xué)家所謂的“情境感知”。
四、計(jì)算機(jī)視覺(jué)的應(yīng)用
計(jì)算機(jī)視覺(jué)是機(jī)器學(xué)習(xí)的領(lǐng)域之一,核心概念已被集成到我們每天使用的主要產(chǎn)品中。
1)無(wú)人駕駛汽車(chē)
并非只有科技公司在圖像應(yīng)用中利用機(jī)器學(xué)習(xí)。計(jì)算機(jī)視覺(jué)使無(wú)人駕駛汽車(chē)能夠感知周?chē)h(huán)境。攝像頭從汽車(chē)周?chē)牟煌嵌炔东@視頻,并將其提供給計(jì)算機(jī)視覺(jué)軟件,然后該軟件會(huì)實(shí)時(shí)處理圖像,以查找道路的末端,讀取交通標(biāo)志,檢測(cè)其他汽車(chē),物體和行人。然后,自動(dòng)駕駛汽車(chē)可以在街道和高速公路上駕駛,避免撞到障礙物,并(希望)安全地將其乘客送至目的地。
2)面部識(shí)別
計(jì)算機(jī)視覺(jué)在面部識(shí)別應(yīng)用程序中也起著重要作用,該技術(shù)使計(jì)算機(jī)能夠?qū)⑷藗兊拿娌繄D像與他們的身份進(jìn)行匹配。計(jì)算機(jī)視覺(jué)算法檢測(cè)圖像中的面部特征并將其與面部輪廓數(shù)據(jù)庫(kù)進(jìn)行比較。消費(fèi)類(lèi)設(shè)備使用面部識(shí)別來(lái)驗(yàn)證其所有者的身份。社交媒體應(yīng)用程序使用面部識(shí)別來(lái)檢測(cè)和標(biāo)記用戶(hù)。執(zhí)法機(jī)構(gòu)還依靠面部識(shí)別技術(shù)來(lái)識(shí)別視頻源中的罪犯。
3)增強(qiáng)現(xiàn)實(shí)和混合現(xiàn)實(shí)
計(jì)算機(jī)視覺(jué)在增強(qiáng)和混合現(xiàn)實(shí)中也起著重要作用,該技術(shù)使智能手機(jī),平板電腦和智能眼鏡等計(jì)算設(shè)備能夠?qū)⑻摂M對(duì)象疊加并嵌入到現(xiàn)實(shí)世界的圖像中。利用計(jì)算機(jī)視覺(jué),AR設(shè)備可以檢測(cè)現(xiàn)實(shí)世界中的物體,從而確定設(shè)備顯示屏上放置虛擬物體的位置。例如,計(jì)算機(jī)視覺(jué)算法可以幫助AR應(yīng)用程序檢測(cè)諸如桌面,墻壁和地板之類(lèi)的平面,這是確定深度和尺寸并將虛擬對(duì)象放置在物理世界中的重要組成部分。
4)醫(yī)療健康
計(jì)算機(jī)視覺(jué)也是健康技術(shù)進(jìn)步的重要組成部分。計(jì)算機(jī)視覺(jué)算法可以幫助自動(dòng)化任務(wù),例如檢測(cè)皮膚圖像中的癌痣或在X射線和MRI掃描中發(fā)現(xiàn)癥狀。
五、計(jì)算機(jī)視覺(jué)的挑戰(zhàn)
幫助計(jì)算機(jī)去“看”非常困難。發(fā)明一臺(tái)看起來(lái)像我們一樣的機(jī)器是一項(xiàng)看似困難的任務(wù),這不僅是因?yàn)楹茈y使計(jì)算機(jī)做到這一點(diǎn),而且還因?yàn)槲覀儾荒芡耆_定人類(lèi)視覺(jué)的工作原理。
研究生物視覺(jué)需要理解諸如眼睛的感知器官,以及對(duì)大腦內(nèi)部感知的解釋。在繪制流程圖和發(fā)現(xiàn)系統(tǒng)使用的技巧和捷徑方面都取得了很大的進(jìn)步,盡管與涉及大腦的任何研究一樣,還有很長(zhǎng)的路要走。
六、計(jì)算機(jī)視覺(jué)的一些專(zhuān)業(yè)術(shù)語(yǔ)。例如:
Object Classification 物體分類(lèi) :這張照片中物體的大致類(lèi)別是什么?
Object Identification 物體辨別 :照片中給定物體的類(lèi)型是什么?
Object Verification 物體驗(yàn)證 :照片中是否有物體?
Object Detection 物體檢測(cè) :照片中的物體在哪里?
Object Landmark Detection 物體位置檢測(cè) :照片中物體的關(guān)鍵點(diǎn)是什么?
Object Segmentation 對(duì)象分割 :圖像中的對(duì)象屬于哪些像素?
Object Recognition 物體識(shí)別 :這張照片中有哪些物體,它們?cè)谀睦铮?/p>
除了公正的認(rèn)識(shí)之外,其他分析方法還包括:
視頻運(yùn)動(dòng)分析使用計(jì)算機(jī)視覺(jué)來(lái)估計(jì)視頻中對(duì)象或攝像機(jī)本身的速度。
在圖像分割中,算法將圖像劃分為多組視圖。
場(chǎng)景重建可創(chuàng)建通過(guò)圖像或視頻輸入的場(chǎng)景的3D模型。
在圖像還原中,使用基于機(jī)器學(xué)習(xí)的濾鏡從照片中消除了諸如模糊之類(lèi)的噪點(diǎn)。
任何其他通過(guò)軟件了解像素的應(yīng)用程序都可以安全地標(biāo)記為計(jì)算機(jī)視覺(jué)。
小結(jié)
盡管最近取得了令人印象深刻的進(jìn)步,但我們甚至還沒(méi)有解決計(jì)算機(jī)視覺(jué)問(wèn)題。
在人工智能愈發(fā)熱門(mén)的大背景下,學(xué)習(xí)、體驗(yàn)新技術(shù)的需求也日漸增多。學(xué)以致用才能真正掌握一門(mén)技術(shù)。化繁為簡(jiǎn),簡(jiǎn)單3步,只需5分鐘。
說(shuō)到計(jì)算機(jī)視覺(jué),鈦靈 AIX是一款集計(jì)算機(jī)視覺(jué)與智能語(yǔ)音交互兩大核心功能為一體的人工智能“超級(jí)大腦”,搭載 Intel 專(zhuān)業(yè)級(jí) AI 加速運(yùn)算芯片與多種傳感技術(shù)。它支持邊緣深度學(xué)習(xí),搭配 Model Play 人工智能模型共享平臺(tái),開(kāi)發(fā)者可以輕松將 AI 模型移植到程序中開(kāi)發(fā)應(yīng)用。
聯(lián)系客服