哪怕在互聯網時代高速發(fā)展的今天,文檔依然是人們在日常生活、工作中產生的信息的重要載體。
學生的作業(yè)、開具的發(fā)票、醫(yī)生的醫(yī)囑、合同、簡歷、金融票據等都是通過文檔來呈現的,它在我們的生活中隨處可見。
現在我們?yōu)榱烁咝?、安全的開展業(yè)務,常常需要對文檔信息進行識別提取,比如:檢測傳遞的證件是否有效,通過識別身份證照自動錄入其對應的信息,以及提取手寫稿的文字等場景。因此,讓計算機具備閱讀、理解和解釋這些文檔圖像的能力在許多領域都具有廣闊的應用價值。
然而在現階段,文檔圖像的處理過程中還面臨著諸多挑戰(zhàn):文檔類型的多樣產生了繁雜的版式與結構;受拍攝器材、背景環(huán)境影響,圖像時常存在噪聲和質量問題等:
因為有這些問題的存在,導致在文檔處理上很容易“翻車”!
幸運的是,業(yè)界有很多大佬都在努力攻克這些難點,也取得了一些進展。在這次CCIG(中國圖象圖形大會)上,這些大咖也做了分享,讓我們來看看他們是如何面對這些問題的以及他們對文檔處理的看法是怎樣的。
來自中國科學院自動化研究所的副所長劉成林分享了在人工智能大模型時代下,他對文檔識別的理解。
他們團隊的主要研究內容是在版面分析(分割),文本定位、文本識別、表格識別,信息提取、公式、圖形、符號等:
劉成林所長在會上帶我們回顧了文檔識別的研究簡史,介紹了文檔的種類以及現存的問題:
還分享了他們的研究現狀:
一句話概括就是部分場景成功應用,大部分場景還不好用,在可靠性、可解釋性、自適應性方面還需要提升。
另外,也分享了大模型GPT-4在文檔處理中的應用:
他認為現階段的大模型仍有很多不足,大模型現在未進行大規(guī)模的驗證,識別精度可能不高,OCR模型的設計仍然很重要。但我們還是可以在文檔處理上充分利用大模型的特征表示及語言能力。
未來他們會以設計自動化,應用無人化為目標,通過深度學習+結構化模型,生成模型、領域知識,遷移學習,領域泛化(利用相關領域數據和知識)、弱監(jiān)督學習,跨模態(tài)學習、預訓練(自監(jiān)督學習)等方法來解決文檔中各種元素和內容,多語言,多場景,多類型文檔這類的廣度研究問題,和文檔語義理解,可解釋性,可信度,字符結構分析,小樣本學習,自適應之類的深度研究問題。
我很認同劉成林的觀點,雖然現階段文檔處理在大多場景的應用并不樂觀,但利用大模型的特征表示及語言能力會是一個不錯的改善方案。
隨著人工智能合成技術的發(fā)展,偽造多媒體信息在網絡上泛濫成災,干擾社會輿論和秩序,嚴重危害國家安全和社會穩(wěn)定:
目前圖像篡改生成與檢測的研究都集中在自然圖像,針對文本圖像篡改生成與檢測的相關研究較少。
篡改文本圖像生成指的是對場景圖像中的指定文本進行編輯,在保留原始字體風格和背景紋理的同時,使目標文本盡可能清晰、容易辨認:
中國科學技術大學教授謝洪濤指出生成檢測的任務難點是文字、字體、背景多樣性:
也總結了現階段幾種常見模型的優(yōu)缺點:
端到端場景文本擦除
1)EnsNet模型—通過條件對抗生成網絡構建文本擦除器
優(yōu)點:模型簡單,提出文本擦除基本解決思路;
缺點:對復雜文本圖像擦除效果較差;
2)EraseNet模型—引入文本感知分支,提升網絡對文本區(qū)域的捕捉能力
優(yōu)點:引入多級擦除策略,對擦除效果提升明顯;
缺點:網絡結構相較復雜,參數量較厚重;
3)CTRNet模型—以低維結構信息和高維上下文特征作為先驗知識指導文本擦除和背景重建過程
優(yōu)點:多維語義先驗引入指導文字擦除和背景重建,針對復雜背景效果好;
缺點:同樣依賴于GAN loss,訓練過程相對復雜;
端到端場景文本篡改
1)SRNet模型—將文本部分和背景部分的生成方法分開學習,然后通過融合算法生成篡改圖像
優(yōu)點:模型簡單,對簡單文本篡改效果不錯;
缺點:對復雜背景的文本圖像篡改效果較差,對復雜字型有較重篡改痕跡;
2)SwapText模型—對目標文本形狀先進行TPS變換,降低目標風格文本的合成難度
優(yōu)點:對于曲形文本的篡改效果較好;
缺點:網絡對整幅圖像塊進行編輯,存在對非文本區(qū)域的過度篡改;
3)TextStyleBrush模型—基于StyleGAN的篡改生成框架,能夠自監(jiān)督訓練
優(yōu)點:能夠在真實數據集上訓練;
缺點:網絡結構復雜,模型難以收斂;
他們認為在場景文本圖像擦除方面,之前的方法存在這些問題:沒有顯性解耦定位和重建操作,極大地增加了網絡的學習難度,導致背景過度擦除,所有多階段網絡都采用相同的標簽進行監(jiān)督,無法平衡每個階段的學習難度和網絡結構,導致文字擦除不徹底。
所以他們的方法是基于迭代局部擦除的場景文本擦除,構建顯性解耦的擦除網絡,提出基于局部編輯的擦除策略,提升背景紋理完整性,構建平衡的多階段擦除網絡,提升文字擦除徹底性。
在場景文本圖像篡改方面,存在需要文本風格圖的監(jiān)督,使其只能在合成數據集上訓練。合成數據集與真實數據集的差異,導致網絡在真實場景下篡改效果不佳;都是對圖像塊的所有像素點進行編輯,并未區(qū)分前景和背景區(qū)域,存在對非文本區(qū)域的過度篡改,所以他們以簡化篡改文本生成網絡,去掉不必要的監(jiān)督過程;針對性地篡改,僅對文字區(qū)域進行編輯操作給出了針對筆跡級修改的篡改文本圖像生成網絡的方法。
現階段他們還面臨一些問題:
篡改文檔檢測是檢測文本圖像中所有文本實例,并在此基礎上對文本真?zhèn)涡赃M行鑒別,包含文本定位和文本真?zhèn)涡澡b別兩個步驟。
篡改文檔檢測的應用場景是非常廣泛的且非常重要:
謝洪濤教授認為篡改文檔檢測的難點在于篡改文本和真實文本具有相同的語義(文本位置、幾何結構),僅在局部紋理中存在一定差異,高質量的篡改文檔圖像數據獲取困難,導致篡改文本檢測網絡很難在小規(guī)模樣本下學到具有區(qū)分力的篡改特征:
他也分析了主流的檢測方法優(yōu)缺點,分享了他們課題組的檢測方法——構建通用篡改文本檢測器,進行多分類目標檢測任務,繼承場景文本檢測其對文本檢測的有效性及低數據依賴。
現階段,同樣存在一些問題:
謝洪濤教授認為篡改文本的生成與檢測是矛與盾的良性互動的發(fā)展過程,還需要多領域的持續(xù)關注。
來自上海合合信息科技股份有限公司智能技術平臺事業(yè)部副總經理,高級工程師丁凱介紹了他們公司的一些產品服務和使命:致力于通過智能文字識別及商業(yè)大數據領域的核心技術、C端和B端產品以及行業(yè)解決方案為全球企業(yè)和個人用戶提供創(chuàng)新的數字化、智能化服務,以此來讓世界更高效!
丁凱工程師介紹了他們在預處理存在彎曲、陰影、摩爾紋、不清晰的圖像時的整體架構:
以及圖像彎曲矯正的方法從“只取頭尾”到坐標變化再到基于偏移場的方法,建立起彎曲矯正系統(tǒng)的pipeline:
在黑板、手寫板上進行拍攝時,無可避免的遇到反光的影響,他們團隊通過反光擦除技術,保留筆畫細節(jié),清晰還原反光板內容:
合合信息同樣在文檔圖像篡改檢測領域上有所建樹,丁凱工程師指出了傳統(tǒng)的基于文件標記篡改檢測方法并不能有效的判斷圖片是否有被篡改,因為第三方軟件可以抹除Exif信息:
之后他分享了他們檢測系統(tǒng)的架構和技術:
此外,他們的PS檢測和摩爾紋去除等服務我之前也使用過,效果都很不錯,特別是PS檢測方面,它也一直是很多行業(yè)迫切需要的,尤其是在保險、金融、銀行等領域,如果將虛假篡改過的信息資料審核通過可能會帶來巨大的影響甚至是經濟上的損失:
眾所周知,現在是數字化的時代,越來越多的企業(yè)都在走向數字化的轉型。然而,現實中80%的商業(yè)數據都是非結構化格式,比如郵件、圖片和各種企業(yè)文檔,其中非結構化文檔占據了絕大多數。這樣讓數字化轉型變得非常困難。因此,如果能實現讓企業(yè)實現文檔自動化處理、智能審核、自動錄入等文檔處理方面的功能,那一定是非常有商業(yè)前景和價值的事情。
而且隨著人工智能技術的飛速發(fā)展,文檔圖像智能處理在醫(yī)療、教育、金融等諸多領域都會被應用,為各行各業(yè)提供更加高效、智能的文檔管理和數據分析解決方案。
經過這次大會我認為,即便現在依然面臨著許多困難,但我相信在不久的將來都會迎刃而解!