国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
多模態(tài)人物識別技術及其在愛奇藝視頻場景中的應用 | 公開課筆記

嘉賓 | 愛奇藝

編輯 | Jane

出品 | AI科技大本營(ID:rgznai100)

在本期 CSDN 技術公開課Plus:《多模態(tài)人物識別技術及其在視頻場景中的應用》中,愛奇藝科學家路香菊博士將為大家介紹了多模態(tài)人物識別技術及在視頻場景中的應用。大家可以學習到愛奇藝在多模態(tài)技術領域的三項主要研究工作,并且在愛奇藝視頻中是如何應用這些技術的。

講師介紹:路香菊,愛奇藝科學家,身份識別(PersonAI)團隊負責人,專注于人物識別、AI等技術,負責愛奇藝多模態(tài)人物識別、智能創(chuàng)作等相關業(yè)務。組織創(chuàng)辦“愛奇藝多模態(tài)視頻人物識別賽”,開放全球首個影視視頻人物數庫iQIYI-VID,創(chuàng)建百萬人物庫及四萬卡通角色庫,相關技術應用到愛奇藝APP“掃一掃”及AI雷達等產品中。

一、多模態(tài)技術基礎介紹

首先,請大家思考一個問題:人物識別只是等同于人臉識別嗎?其實,人物識別我們現在的工作中不僅僅是人臉識別,為什么是這樣呢?因為在視頻中,特別是在一些綜藝節(jié)目、或者動作片中,完全通過個人的人臉是無法滿足所有情況的,知道一個人的身份還需要其他屬性,像下圖中右邊這個圖人物,大家一看就知道他是郭德綱,但是如我我們用人臉識別絕對是沒有辦法識別出來的,因為他的人臉沒有露出來,只有一個后腦勺,所以,我們現在基于人物識別的技術還涉及人體的識別,也就是我們監(jiān)控上的 RE-ID。除此之外,在視頻中,還需要識別服飾、發(fā)型、聲紋和指紋、虹膜等生物特征。所以,現在基于視頻場景中的人物識別已經成為一個綜合需求的識別。

第二,如何識別虛擬人物?我們之所以叫虛擬人物,是因為它不是真實的一個人物,它包括卡通人物、二次元、動漫以及與游戲人物等形象,現在這部分角色也越來越多,已經成為娛樂行業(yè)一個非常重要的需求。在這些現實需求下,我們的研究工作也基本上在實際中落地應用。基于這些實際應用,接下來就與大家分享我們在人物識別與虛擬人物識別工作中的主要算法。

二、多模態(tài)技術解讀(一):人物識別(IQFace)

這部分內容將主要為大家介紹真人人物識別的多模態(tài)基礎技術?;趷燮嫠囈曨l內容的需求,我們不僅要做人臉識別,在人臉信息不足或不清晰的情況下,還需要其他信息來輔助進行人物定位,在所有的信息中,我們首先想到的是聲音信息;其次,在無聲情境中,我們需要結合場景(如打斗、行走中、監(jiān)控)利用人物的一些動作信息、背影等姿態(tài)信息以及服飾等信息來進行人物身份判斷。如下圖所示,是我們在業(yè)務中需要處理的主要信息類別。

通過人臉檢測與五官定位進行人臉識別及年齡、性別、表情姿態(tài)等屬性分析,得到更好的認識;此外,根據實際業(yè)務需求,如視頻中一些藝人本身獨有的氣質,得到一些特殊的屬性,這部分的處理方法是我們根據實際業(yè)務場景進行“量身訂作”的。除了人臉信息外,還會用到人體信息,如人體姿態(tài)的估計(體型、服飾)、行為數據(手勢、動作)、人體RE-ID特征提取、從人物的聲音提取聲紋特征,這這些都有助于我們對人物進行屬性分析與人物身份判斷,我們也在實際工程中用到人臉,人體,聲紋這三種信息組成多模態(tài)信息識別。

有了多模態(tài)識別的基礎數據信息,接下來就是多模態(tài)技術的算法,如圖所呈現的是我們整體算法框架及工程邏輯。

目前,我們人臉別相關算法使用的人臉數據庫 ID數達到了550萬,可直接識別名字的名人數量達到30萬左右,為了支持這么大規(guī)模的人物數據訓練,我們自研一個定制化分布式框架,雖然也有一些開源的框架,不過更多情況下適合一些簡單任務,針對有定制化需求的任務難以滿足,所以我們自研的框架無論是整體訓練的精度還是訓練速度,都可以取得非常大的提升。

我們可以針對模型定型、數據定型,包括GPO、進程的通訊,都進做了優(yōu)化處理;在識別的精度方面,我們在自己的數據集上進行了評測:第一個數據集是中學生庫,數據分布主要集中在證件照或證件照相匹配的實際應用場景;二是愛奇藝員工數據庫,是我們內部員工的數據庫,里面包含了大量的人臉、姿態(tài)、表情等變化;三是愛奇藝在多模態(tài)人物識別競賽中發(fā)布的數據集,里面主要是針對明星的視頻數據進行身份識別。

實際業(yè)務場景中面臨非常多人臉屬性的相關需求,現在人臉屬性已支持到27個,包含常見屬性(表情、男女、年齡)和獨有的人臉屬性,比如說氣質、微表情屬性。(微表情指的是人臉基本活動單元的一個激活狀態(tài),也叫做一個A,目前微表情除了十一個常見的AU基本能源外,我們根據實際業(yè)務中有著強需求的類別,比如吐舌頭,翻白眼,嘟嘴,眉毛上升進行處理)微表情指的是人臉基本活動單元的一個激活狀態(tài),也叫做一個A,目前微表情除了十一個常見的AU基本能源外,我們根據實際業(yè)務中有著強需求的類別,比如吐舌頭,翻白眼,嘟嘴,眉毛上升進行處理;在這方面,我們提出了一個創(chuàng)新性工作:利用微表情和數據庫中的表情包來自動生成視頻中的微表情包數據,具體做法是將庫中微表情的一個表情包數據來分別提取人臉的微表情特征與表情包文案同時與長視頻中取到的人物微表情素材進行匹配,最后再進行文案遷移,來實現表情包的自動生成,這個方法不僅可用于人臉微表情生成,也已經實際用于卡通人物的微表情生成。

面對這么多人臉數據,如何處理噪聲是一項非常艱巨的一個任務。圖中是我們有一系列噪聲的處理流程,以算法為主,人工為輔,將人臉數據集的噪聲比例降到了非常低,使模型精度有較大提升。通過模型量化、剪枝、蒸餾等處理優(yōu)化模型速度,同時對CPU版本進行定制優(yōu)化,節(jié)省了大量資源。

另外,除了已知ID信息,還要充分利用愛奇藝站內視頻資來源獲取無標簽數據輔助人臉模型訓練,下面主要講一下我們如何利用這些無標簽數據進行訓練,這個相關工作的論文《利用無標簽數據優(yōu)化人臉識別模型》今年發(fā)表于被 ICCV 2019 Workshop大會收錄。

如果想要所有數據都是已知ID是比較困難的,需要大量人工標注工作,但是獲取無標簽數據是非常容易的,我們可以獲取海量的無標簽數據來輔助人臉識別模型訓練,主要的一個思路是利用無標簽數據填充有標簽數據分布的未知區(qū)域,使有標簽數據分布變得更緊,即有標簽數據的分類間隔更大,分類內間隔變緊致,最終獲得更好的分類效果,具體做法如下圖,令無標簽數據得到一個額外的Loss,疊加到之前訓練的Loss 中,輔助最終的模型訓練。

  • 具體模型與算法解讀:Unknown Identity Rejection(UIR)Loss

為了利用無標簽數據,我們設計了半監(jiān)督損失函數,Unknown Identity Rejection(UIR)Loss。人臉識別是open-set問題,將開放環(huán)境中的人物類別分為兩類:有標簽類

和無標簽類

,

。訓練過程中,對于有標簽類,每個樣本特征需要逼近分類層對應類別的類心向量;對于無標簽類,它不屬于分類層的任何一個類,模型需要“拒絕”它們,即特征與每個分類層類心距離都足夠遠。如下圖(a),

表示兩個分類層類心向量,圓點表示樣本特征。圖(b)中,加入無標簽類

后,為了

距離

足夠遠,會使得有標簽類別在特征空間上更稀疏,類間距離更大。

對于 CNN 分類模型,全連接分類層的輸出經過 softmax 后得到

,表示屬于各個類別的概率值。然而無標簽類別并不屬于任何一類,理想情況下

應該都足夠小,可以通過設置閾值將其過濾,提升庫外拒絕率?;谶@個想法,問題可以轉化成:

上式是多目標最小化問題,可以轉化成:

因此得到UIR loss,即:

模型總的loss是有標簽類別的loss加上無標簽類別的UIR loss:

模型框圖如下,無標簽數據和有標簽數據一起作為輸入,經過骨干網絡得到特征,全連接層得到輸出概率值,根據概率值分別計算

。

實驗結果

我們采用MS-Celeb-1M清洗過后的MS1MV2數據集作為有標簽數據,包括9萬人物類別的5百萬圖片數據。從網上爬取數據,經過清洗,基本保證與有標簽數據較低的重合率,得到約4.9百萬張無標簽數據。

分別在iQIYI-VID和Trillion-Pairs和IJB-C三個測試集上驗證了方法的有效性。測試了四種骨干網絡,實驗結果說明,加入無標簽數據的UIR loss后,模型性能有所提升。由于篇幅原因,IJB-C測試結果只貼了ResNet100部分,其他結果可參照論文。

二、多模態(tài)技術解讀(二):虛擬人物識別(iCartoonFace)

基于對真實人物識別的多模態(tài)技術的初步認識,接下來介紹在虛擬人物識別的技術與經驗。虛擬人物識別包含什么?概括來說虛擬人物識別包含卡通、動漫、游戲人物等所有創(chuàng)作出來的虛擬形象。

虛擬人物識別技術遇到的第一個挑戰(zhàn)就是數據源問題,無論是圖片數量還是人物身份信息數量,對應用到實際業(yè)務中來說都是遠遠不夠的,同時這些數據的標注信息質量也不高,需要我們在前期工作中花費大量的時間進行數據清洗與標注工作。目前我們已經積累了大約四萬多個角色,近50萬張訓練圖片,標注精度打98%,標注信息包括位置檢測框、姿態(tài)、性別、顏色等。

數據整理后進行模型訓練,訓練過程中有一類數據需要特別關注,如下圖所示,模型很難識別差異很小的不同人物與差異很大的同一人物,這種現象在實際的視頻中是很常見的一種情況,如何解決這一難點?在實際工程中,我們可以有針對性在模型本身或測試標準上進行特殊處理。

這里借鑒了上述真人識別方法中的一些損失函數,如 Softmax、SphereFace、CasFace、ARCFace等,不斷使類內分布更緊密,類間分布差異更大,提高實踐應用中判別的準確性。

此外,利用真人數據與卡通數據進行融合來彌補虛擬人物數據不足的現狀。如下圖中A表示融合之前,B表示與真人人臉融合之后使卡通人物的分布更緊密,同時拉開類間距離,實驗數據上也證明了方法的有效性。

相關論文暫未發(fā)表,請大家后續(xù)繼續(xù)關注我們的消息。

三、多模態(tài)數據庫與多模態(tài)算法

通過兩年的積累,目前愛奇藝基于真實場景中視頻任務的多模態(tài)數據庫已經成為業(yè)內首個多模態(tài)數據,并且標簽清晰,規(guī)模最大,致力于給大家的研究工作提供更多的幫助。

基于多模態(tài)數據庫,利用人臉、人頭、人體與聲紋四中特征,我們設計了一種多模態(tài)識別算法架構,在模型中提出多模型注意力模型,將這四種特種進行融合。

多模態(tài)人物識別數據集 iQIYI-VID 下載地址:

http://challenge.ai.iqiyi.com/detail?raceId=5c767dc41a6fa0ccf53922e7.

文章中主要是描述了數據集的收集與標注過程,暫時未涉及到具體的多模態(tài)算法,愛奇藝多模態(tài)算法的更多信息請持續(xù)關注我們的消息,發(fā)表后會為大家做詳細解讀。

有很多研究團隊基于此在數據增強、交叉驗證和使用無噪聲樣本進行訓練等方面進行了工作的改進。也有工作針對模型架構進行了改進,提出了開放性網絡架構,如下圖所示,模型主體為全連接層網絡,能接收深層次與淺層次間的信息,在兩個 dense 層之間加入跳躍連接,將不同層信息進行融合,同時根據 residual block 思路進行改進,加入dropout和batch norm防止過擬合。

四、多模態(tài)技術在視頻場景中的應用與實踐案例:只看TA與AI 雷達

大家在使用愛奇藝APP過程中可能已經體驗過「只看TA」功能了,其次還有 TV端的 AI 雷達功能等,這些大家日常使用的應用背后都離不開多模態(tài)數據庫與多模態(tài)技術算法的支撐。針對大家都很關注的多模態(tài)算法問題上, 主要和大家分享以下幾點:

1、大家都很關注算法中多模態(tài)是如何加權、聯合與統一的,而多模態(tài)算法是一個非常復雜的問題,而且數據噪聲很大,某一機器學習模型可能無法識別所有特征,也不是多有特征都能起到正面作用,因此我們不能只依靠調整權重解決,要從模型學習過程入手,用算法提煉在什么情況什么特征起到關鍵作用。

2、微表情特征的匹配一個環(huán)節(jié)是根據人臉的相似度和每個AU的相似度進行匹配;文案匹配是通過網上下載了很多帶有文案的表情包,再與視頻中提取的表情包進行匹配,如果匹配效果較好,再將文案遷移。

愛奇藝「只看TA 」功能展示

本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現有害或侵權內容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
愛奇藝背后的AI雷達密碼
【總結】超1000頁有三AI文檔資源領取方法匯總!
為什么這兩家娛樂公司都在不務正業(yè)搞AI競賽?
[首藏作品](2162)AI都能偽造指紋了,生物識別還安全嗎
竹間智能簡仁賢:基于情緒識別打造對話式AI,推進機器人融入商業(yè) | 鎂客請講
中科視拓 CTO 山世光:如何用 X 數據驅動 AI 成長
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服