騰訊云高級研究員講述,從成像到圖像分析如何入門
文︱冀永楠
“AI來了”邀請到我們騰訊云的高級研究員冀永楠講述圖像分析的那些事兒。
從2012年開始,深度學(xué)習(xí)席卷了圖像識別領(lǐng)域,在圖像分類、目標(biāo)檢測、語義分割等領(lǐng)域秒殺了傳統(tǒng)的方法。之前也有人寫過如何20分鐘內(nèi)得到貓狗分類大賽第二名的卷積神經(jīng)網(wǎng)絡(luò)。盡管識別和檢測問題是圖像分析中難度最高的一部分,在實(shí)際應(yīng)用中,圖像問題都是多個(gè)問題的組合,而并非單一的識別或者檢測問題。
冀永楠表示,本文是簡單介紹一下成像和圖像分析的基本內(nèi)容,希望對有興趣解決圖像類問題的同學(xué)有所幫助。
冀永楠,諾丁漢大學(xué)計(jì)算機(jī)系博士,歐盟Marie Curie Research Fellow。現(xiàn)為騰訊云大數(shù)據(jù)AI產(chǎn)品中心高級研究員。
理解圖像是如何產(chǎn)生的是解決圖像類問題的第一步。最常見的成像方式是單反相機(jī)——手機(jī)相機(jī)等相機(jī)的成像方式。下圖選自參考文獻(xiàn)1,直觀的展示了這種成像的原理?,F(xiàn)實(shí)生活中遇到的成像方式絕大多是屬于這類成像
除此之外,還有如下圖中的X-ray,紅外,顯微,遙感,結(jié)構(gòu)光等多種成像方式。在處理和分析這些圖像的時(shí)候,理解圖像的成像方式和其中的內(nèi)容表達(dá)方式對最后的處理效果會起到關(guān)鍵的基礎(chǔ)性作用。
以醫(yī)用CT圖像為例,CT圖像的像素值代表著位于改像素位置的物質(zhì)對X光的衰減程度。骨頭,金屬等可以造成較大衰減的,會呈現(xiàn)高像素值??諝鈳缀醪粫斐伤p的,會呈現(xiàn)低像素值。CT像素值有很大的動態(tài)范圍。普通圖像像素值一般是0~255。CT的像素值則是-1024~1024。檢查不同部位和不同疾病的時(shí)候,關(guān)注的像素值范圍有所不同。例如,在AI醫(yī)療的肺結(jié)節(jié)檢測應(yīng)用場景中,主要關(guān)注-1000~200的區(qū)域。
圖像處理問題可以大致的分為低、中、高三個(gè)層次。低層處理主要是圖像的增強(qiáng)、降低噪聲、邊緣等特征的提取、基本的壓縮等。中層的圖像處理方法一般解決的是圖像的分類,物體的檢測、定位、分割以及圖像的語義分割等。高層的處理是比較復(fù)雜的綜合應(yīng)該用。比如圖像的自動注釋,人臉和人臉姿態(tài)的識別,自動駕駛等等。
高級的圖像處理問題需要分解為多個(gè)中低級的問題。一些端到端的深度網(wǎng)絡(luò),也會將一個(gè)網(wǎng)絡(luò)分成幾個(gè)子網(wǎng)絡(luò),利用輔助輸入輸出進(jìn)行訓(xùn)練。其實(shí)本質(zhì)也是將復(fù)雜的高層問題分解為中級和低級的子問題來解決。比如常見的通過人臉比對進(jìn)行身份驗(yàn)證,一般都包括了人臉檢測定位,人臉關(guān)鍵點(diǎn)定位,特征計(jì)算和比對的過程。優(yōu)圖的OCR文字識別,也是由背景識別等三大引擎(定位引擎、字段識別引擎)支撐的。
傳統(tǒng)的圖像分析算法中,各種濾波器的設(shè)計(jì)占有很大的一部分比例。理解濾波器的原理和使用的場景是做圖像分析工作中很大的一塊,也是比較痛苦的一塊。因?yàn)闉V波器的種類繁多,原理不一。對于場景的適用性需要經(jīng)驗(yàn)來判斷。比較成功的計(jì)算特征的方法有,邊緣特征,Scale-invariant feature transform(SIFT),Histogram of Gradient (HOG)等
在特征計(jì)算之上,會設(shè)計(jì)出和問題相關(guān)的模型來描述和解決各種中層的圖像問題。比如,對于人體檢測和定位,Deformable Parts Model(DPM)在深度網(wǎng)絡(luò)普及之前是效果非常好的一種模型。這種模型在HOG的特征上,將一個(gè)整體目標(biāo)分成幾個(gè)小目標(biāo)進(jìn)行初級識別,之后綜合判斷小目標(biāo)之間的關(guān)系來定位整體目標(biāo)的方法。
傳統(tǒng)方法對于分割的問題基于兩點(diǎn),一是分割的邊界一般處于圖像梯度特征較大的地方;二是分割出來的區(qū)域的形狀一般都是比較規(guī)則的。Active Shape, level set 都是類似的方法。更為復(fù)雜一些的,可以預(yù)設(shè)分割出來的物體大概的樣子。這種預(yù)設(shè)稱為A Priori Information。
卷積神經(jīng)網(wǎng)絡(luò)的崛起可以說秒殺了很多傳統(tǒng)方法。在分割,分類,檢測等等幾乎所有的中層問題上,深度學(xué)習(xí)算法在性能上都超出了傳統(tǒng)方法。盡管卷積神經(jīng)網(wǎng)絡(luò)(CNN)本質(zhì)上可以認(rèn)為是局部的濾波器,但是好在至少數(shù)據(jù)充足,不需要對濾波器進(jìn)行過多的設(shè)計(jì)。深度學(xué)習(xí)框架可以很大程度上自動優(yōu)化好最后結(jié)果。不同的問題采用不同的網(wǎng)絡(luò)結(jié)構(gòu)。比如分割問題一般采用反卷積(FCN)網(wǎng)絡(luò)。目標(biāo)檢測問題采用Faster RCNN網(wǎng)絡(luò)。
深度網(wǎng)絡(luò)進(jìn)化朝著準(zhǔn)確度越來越高,應(yīng)用越來越廣的方向發(fā)展。一些原有的圖像分析的業(yè)界測量標(biāo)準(zhǔn),例如ImageNet圖像分類,已經(jīng)變得易如反掌而退出了舞臺。人臉識別也從小數(shù)據(jù)庫,簡單場景向千萬,甚至億級數(shù)據(jù)庫,全場景覆蓋發(fā)展。
騰訊云圖像識別能力已經(jīng)在圖像多標(biāo)簽分類、敏感圖片審核(色情/暴恐/政治人物等)、醫(yī)學(xué)影像識別、人/車/物結(jié)構(gòu)化識別及文字識別(OCR)等細(xì)分化場景中進(jìn)行應(yīng)用,并在多個(gè)領(lǐng)域?qū)崿F(xiàn)了落地。敏感圖片審核技術(shù)對色情、暴恐等的識別準(zhǔn)確率高達(dá)99%,成為網(wǎng)絡(luò)環(huán)境的凈化器。在醫(yī)學(xué)領(lǐng)域,騰訊已與超過100家醫(yī)院簽署戰(zhàn)略合作,已應(yīng)用到肺癌早篩、食管癌早篩等項(xiàng)目中,顯著提升看病水平和效率。OCR文字識別系統(tǒng)也廣泛應(yīng)用在金融,酒店,快運(yùn)等等單據(jù)和身份證的識別中,取得了良好的實(shí)用效果。
Tips:圖像技術(shù)入門資料
1 Rafael C. Gonzalez and Richard E. Woods. 2006. Digital Image Processing (3rd Edition). Prentice-Hall, Inc., Upper Saddle River, NJ, USA.
這本書是圖像處理的數(shù)目的經(jīng)典之作。對于希望理解成像和圖像分析基本原理以及方法的同學(xué),是必修之作。
CS231n: Convolutional Neural Networks for Visual Recognition
Li Feifei 開設(shè)的課程。課程主頁,Youtube, Github上有豐富的資料。對于理解CNN在圖像上的應(yīng)用和演變是最為有效的方法。課后作業(yè)也不要錯過。
這個(gè)不用多說了吧。誰沒Clone過幾個(gè)開源項(xiàng)目