国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
獨家|一文讀懂文字識別(OCR)

前言

文字識別是計算機視覺研究領域的分支之一,歸屬于模式識別和人工智能,是計算機科學的重要組成部分

本文將以上圖為主要線索,簡要闡述在文字識別領域中的各個組成部分。

一 ,文字識別簡介

計算機文字識別,俗稱光學字符識別,英文全稱是Optical Character Recognition(簡稱OCR),它是利用光學技術和計算機技術把印在或?qū)懺诩埳系奈淖肿x取出來,并轉(zhuǎn)換成一種計算機能夠接受、人又可以理解的格式。OCR技術是實現(xiàn)文字高速錄入的一項關鍵技術。

在OCR技術中,印刷體文字識別是開展最早,技術上最為成熟的一個。早在1929年德國科學家Taushek就取得了一項光學字符識別(Optical Character Recognition,簡稱OCR)的專利131。歐美國家為了將浩如煙海、與日俱增的大量報刊雜志、文件資料和單據(jù)報表等文字材料輸入計算機進行信息處理,從上世紀50年代就開始了西文OCR技術的研究,以便代替人工鍵盤輸入。經(jīng)過40多年的不斷發(fā)展和完善,并隨著計算機技術的飛速發(fā)展,西文OCR技術現(xiàn)已廣泛應用于各個領域,使得大量的文字資料能夠快速、方便、省時省力和及時地輸入到計算機中,實現(xiàn)了信息處理的“電子化”。

與印刷體西文OCR相比,印刷體漢文OCR技術的研究是在印刷體數(shù)字識別和印刷體英文識別的基礎上發(fā)展起來的,最早可以追溯到上世紀60年代。1966年,BIM公司的Casey和Nagy發(fā)表了第一篇關于印刷體漢字識別的論文,在這篇論文中他們利用簡單的模板匹配法,識別了1000個印刷體漢字。從上世紀70年代以來,日本學者在漢文OCR方面做了許多研究工作,其中有代表性的系統(tǒng)有1977年東芝綜合研究所研制的可以識別2000個單體印刷漢字的識別系統(tǒng);80年代初期,日本武藏野電氣研究所研制的可以識別2300個多體漢字的印刷體漢字識別系統(tǒng),代表了當時漢字識別的最高水平。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷體漢字識別系統(tǒng)。這些系統(tǒng)在方法上,大都采用基于K-L數(shù)字變換的匹配方案,使用了大量專用硬件,其設備有的相當于小型機甚至大型機,價格極其昂貴,所以并沒有得到廣泛應用。

與國外相比,我國的印刷體漢字識別研究是從上世紀70年代末起步的,至今己有近三十年的發(fā)展歷史,大致可以分成如下三個階段:

1)探索階段(1979一1985)

在對數(shù)字、英文、符號識別研究的基礎上,自上世紀70年代末,國內(nèi)就有少數(shù)單位的研究人員對漢字識別方法進行了探索,發(fā)表了一些論文,研制了少量模擬識別軟件和系統(tǒng)。這個階段漫長,成果不多,但是卻孕育了下一個階段的豐碩果實。

2)研制階段(1986~1988)

1986年初到1988年底,這三年是漢字識別技術研究的高潮期,也是印刷體漢字識別技術研究的豐收期??偣灿?1個單位進行了14次印刷體漢字識別的成果鑒定,這些系統(tǒng)對樣張識別能達到高指標:可以識別宋體、仿宋體、黑體、楷體,識別的字數(shù)最多可達6763個,字號從3號到5號,識別率高達99.5%以上,識別速度在286微機條件下能夠達到10~14字/秒,但對真實文本識別率大大下降,這是由于以上系統(tǒng)對印刷體文字形狀變化(如文字模糊、筆劃粘連、斷筆、黑白不均、紙質(zhì)質(zhì)量差、油墨反透等等)的適應性和抗干擾性比較差造成的。但是這三年研制的識別系統(tǒng)為印刷體漢字識別系統(tǒng)的實用化打下了基礎,是識別系統(tǒng)從研制到實用化必經(jīng)的過程。

3)實用階段(1989一至今)

印刷體漢字識別自1986年掀起高潮以來,清華大學電子工程系、中國科學院計算所智能中心、北京信息工程學院、沈陽自動化研究所等多家單位分別研制并開發(fā)出了實用化的印刷體漢字識別系統(tǒng)。尤其是由清華大學電子工程系研制的清華TH一OCR產(chǎn)品和由漢王集團開發(fā)的尚書OCR產(chǎn)品,它們始終都處于技術發(fā)展的最前沿,并占據(jù)著最大的市場份額,代表著印刷體漢字識別技術的發(fā)展潮流。目前,印刷體漢字識別技術的研究熱點已經(jīng)從單純的文字識別轉(zhuǎn)移到了表格的自動識別與錄入,圖文混排和多語種混排的版面分析、版面理解和版面恢復,名片識別,金融票據(jù)識別和古籍識別等內(nèi)容上。并且出現(xiàn)了許多相關的識別系統(tǒng),如:紫光文通推出的名片識別系統(tǒng)(e一card)、身份證識別系統(tǒng)(e驗通)和“慧視”屏幕文字圖像識別系統(tǒng)等等。這些新的識別系統(tǒng)的出現(xiàn),標志著印刷體漢字識別技術的應用領域得到了廣闊的擴展。

國家高技術研究發(fā)展“863”計劃、國家重點科技攻關計劃、國家自然科學基金和軍事基礎研究基金都對印刷體漢字識別這一研究課題予以極大的重視和大力的支持。目前,印刷體漢字識別和聯(lián)機手寫漢字識別走向?qū)嵱没?,其技術水平和當前世界最高水平并駕齊驅(qū)。

這篇文章將對OCR技術進行分類描述,并介紹一些在OCR領域中較常使用的算法,由于個人主要參與的項目實踐與印刷體識別較為相關,所以對于其他領域的描述若有不當之處,請大家指正,希望本文的介紹會讓大家對OCR的整個流程有一個簡要的概念。

二 ,印刷體文字識別

OCR技術的興起便是從印刷體識別開始的,印刷體識別的成功為后來手寫體的發(fā)展奠定了堅實的基礎。印刷體識別的主要流程大致分為以下幾個部分:圖像預處理;版面處理;圖像切分;特征提取、匹配及模型訓練、匹配;識別后處理。

2.1 圖像預處理

輸入文本經(jīng)過掃描儀進入計算機后,由于紙張的厚薄、光潔度和印刷質(zhì)量都會造成文字畸變,產(chǎn)生斷筆、粘連和污點等干擾,所以在進行文字識別之前,要對帶有噪聲的文字圖像進行處理。由于這種處理工作是在文字識別之前,所以被稱為預處理。預處理一般包括灰度化、二值化,傾斜檢測與校正,行、字切分,平滑,規(guī)范化等等。

2.1.1灰度化

通過外設采集的圖像通常為彩色圖像,彩色圖像會夾雜一些干擾信息,灰度化處理的主要目的就是濾除這些信息,灰度化的實質(zhì)其實就是將原本由三維描述的像素點,映射為一維描述的像素點。轉(zhuǎn)換的方式和規(guī)則有很多,在這里不詳細介紹。

2.1.2 二值化

經(jīng)過灰度處理的彩色圖像還需經(jīng)過二值化處理將文字與背景進一步分離開,所謂二值化,就是將灰度值(或者彩色值)圖像信號轉(zhuǎn)化成只有黑(l)和白(0)的二值圖像信號。二值化效果的好壞,會直接影響灰度文本圖像的識別率。二值化方法大致可以分為局部閾值二值化和整體閾值二值化。目前使用較多的日本學者大津提出的“大津法”

2.1.3傾斜校正

印刷體文本資料大多是由平行于頁面邊緣的水平(或者垂直)的文本行(或者列)組成的,即傾斜角度為零度。然而在文本頁面掃描過程中,不論是手工掃描還是機器掃描,都不可避免地會出現(xiàn)圖像傾斜現(xiàn)象。而傾斜的文檔圖像對后期的字符分割、識別和圖像壓縮等工作將產(chǎn)生很大影響。為了保證后續(xù)處理的正確性,對文本圖像進行傾斜檢測和校正是十分必要的。

文本圖像的傾斜校正分為手動校正和自動校正兩種。手動校正,是指識別系統(tǒng)提供某種人機交互手段,實現(xiàn)文本圖像的傾斜校正。自動校正,是指由計算機自動分析文本圖像的版面特征,估計圖像的傾斜角度,并根據(jù)傾斜角度對文本圖像進行校正。

目前,文本圖像的傾斜檢測方法有許多種,主要可以劃分為以下五類:基于投影圖的方法,基于Houhg變換的方法,基于交叉相關性的方法,基于Fourier變換的方法和基于最近鄰聚類方法。

最簡單的基于投影圖的方法是將文本圖像沿不同方向進行投影。當投影方向和文字行方向一致時,文字行在投影圖上的峰值最大,并且投影圖存在明顯的峰谷,此時的投影方向就是傾斜角度。

Huogh變換也是一種最常用的傾斜檢測方法,它是利用Hough變換的特性,將圖像中的前景像素映射到極坐標空間,通過統(tǒng)計極坐標空間各點的累加值得到文檔圖像的傾斜角度。

Fourier變換的方法是利用頁面傾角對應于使Fourier空間密度最大的方向角的特性,將文檔圖像的所有像素點進行Fourier變換。這種方法的計算量非常大,目前很少采用。

基于最近鄰聚類方法,取文本圖像的某個子區(qū)域中字符連通域的中心點作為特征點,利用基線上的點的連續(xù)性,計算出對應的文本行的方向

角,從而得到整個頁面的傾斜角。

2.1.4規(guī)范化

規(guī)范化操作就是將輸入的任意尺寸的文字都處理成統(tǒng)一尺寸的標準文字,以便與己經(jīng)預先存儲在字典中的參考模板相匹配。規(guī)范化操作包括1211:位置規(guī)范化、大小規(guī)范化以及筆劃粗細規(guī)范化。在本節(jié)只討論位置規(guī)范化和大小規(guī)范化。

為了消除文字點陣位置上的偏差,需要把整個文字點陣圖移動到規(guī)定的位置上,這個過程被稱為位置規(guī)范化。常用的位置規(guī)范化操作有兩種,一種是基于質(zhì)心的位置規(guī)范化,另一種是基于文字外邊框的位置規(guī)范化?;谖淖滞膺吙虻奈恢靡?guī)范化需要首先計算文字的外邊框,并找出中心,然后把文字中心移動到指定的位置上來。基于質(zhì)心的位置規(guī)范化方法抗干擾能力比基于文字外邊框的位置規(guī)范化方法要強。

使用基于文字外邊框的位置規(guī)范化方法對文字進行位置規(guī)范化的操作結(jié)果,如下圖所示。

對不同大小的文字做變換,使之成為同一尺寸大小,這個過程被稱為大小規(guī)范化。很多已有的多字號印刷體識別系統(tǒng)都是通過大小規(guī)范化來識別不同字號的文字。常用的大小規(guī)范化操作也有兩種,一種是將文字的外邊框按比例線性放大或縮小成規(guī)定尺寸的文字,另一種是根據(jù)水平和垂直兩個方向上文字黑像素的分布情況進行大小規(guī)范化。

使用根據(jù)水平和垂直兩個方向上文字黑像素的分布情況方法對文字進行大小規(guī)范化操作的效果,如下圖所示。

2.1.5圖像平滑

文本圖像經(jīng)過平滑處理之后,能夠去掉筆劃上的孤立白點和筆劃外部的孤立黑點,以及筆劃邊緣的凹凸點,使得筆劃邊緣變得平滑。一種簡單的平滑處理方法如下。采用NxN窗口(N一般為3,如圖2-1所示是一個3X3窗口),依次在二值文字點陣中進行掃描,根據(jù)窗口中黑白像素的分布情況,使處于窗口中心的被平滑像素X。,從“0”變成“1”或者從“l(fā)”變成“0”。

該方法是按以下規(guī)則對文字輪廓邊緣進行平滑的。

規(guī)則1如果滿足圖2-2中(a),(b),(c),(d)四種情況中的任何一種,則中心點應該由“0”變成“l(fā)”。

規(guī)則2如果滿足圖2-2中(e),(f),(g),(h)四種情況中的任何一種,則中心點應該由“1”變成“0”。

2.2版面處理

通常版面處理分為三個主要部分,版面分析、版面理解、版面重構(gòu)。

2.2.1版面分析

將文本圖像分割為不同部分,并標定各部分屬性,如:文本、圖像、表格。目前在版面分析方面的工作核心思想都是基于連通域分析法,后衍生出的基于神經(jīng)網(wǎng)絡的版面分析法等也都是以連通域為基礎進行的。連通域是指將圖像經(jīng)過二值化后轉(zhuǎn)為的二值矩陣中任選一個像素點,若包圍其的所有像素點中存在相同像素值的像素點則視為兩點連通,以此類推,這樣的像素點構(gòu)成的一個集合在圖像中所在的區(qū)域即一個連通域。根據(jù)連通域大小或像素點分布等特征可以將連通域的屬性標記出來,用作進一步處理的依據(jù)。

2.2.2版面理解

獲取文章邏輯結(jié)構(gòu),包括各區(qū)域的邏輯屬性、文章的層次關系和閱讀順序。根據(jù)版面分析時記載的連通域位置信息,確定連通域歸屬序列。

2.2.3版面重構(gòu)

根據(jù)版面分析和OCR的結(jié)果,重構(gòu)出包含文字信息和版面信息的電子文檔。

2.3 圖像切分

圖像切分大致可以分為兩個個主要類別,行(列)切分和字切分。經(jīng)過切分處理后,才能方便對單個文字進行識別處理。如下圖所示。

2.3.1 行列切分

由于印刷體文字圖像行列間距.、字間距大致相等,且?guī)缀醪淮嬖谡尺B現(xiàn)象,所以可以采用投影法對圖像進行切分,得到每列(行)在坐標軸的像素值投影曲線是一個不平滑的曲線,通過高斯平滑后的曲線在每個波谷位置間的區(qū)域即為要的一行(列)。

2.3.2 字切分

字切分對于不同的文種存在著比較明顯的差異,通常意義下,字切分是指將整行或整列文字切分成獨立的一個個文字,而實際上根據(jù)文種差異,可能還需需要將單個文字進行進一步切分。而因為文種不同,構(gòu)詞法或鉤字法也有所不同,所以切分方法的難度差別也是天壤之別。例如將漢字“屋”切分開的難度和將英文“house”切分開的難度差別就很大,因此在識別模式上,也會根據(jù)文種特性,設計不同的識別方法。

2.4 特征提取與模型訓練

在深度學習廣泛應用于圖像識別領域之前,模板匹配是較為常見的一種識別方式,之后由于神經(jīng)網(wǎng)絡的復蘇,基于反饋的神經(jīng)網(wǎng)絡給OCR領域帶來了又一春?,F(xiàn)在隨著計算機硬件算力的提升,利用大批數(shù)據(jù)訓練深度神經(jīng)網(wǎng)絡在圖像識別方面取得了傲人的成績。

2.4.1 特征提取及匹配

特征提取是從單個字符圖像上提取統(tǒng)計特征或結(jié)構(gòu)特征的過程。所提取的特征的穩(wěn)定性及有效性,決定了識別的性能。對于統(tǒng)計特征的提取,可利用統(tǒng)計模式識別中的特征提取方法,而對結(jié)構(gòu)特征的提取,應根據(jù)具體文字所確定的識別基元確定相應的特征提取方法。在相當長的文字識別的研究過程中,是利用人們的經(jīng)驗知識,指導文字特征的提取。例如邊緣特征、變換特征、穿透特征、網(wǎng)格特征、特征點特征、方向線素特征等等。

特征匹配是從已有的特征庫中找到與待識別文字相似度最高的文字的過程。當待識別文字提取完特征之后,不管使用的是統(tǒng)計特征,還是結(jié)構(gòu)特征,都需要有一個特征庫來進行比對,特征庫中應包含欲識別字符集中所有文字的特征。特征匹配的方法有很多,比較常用的有:歐式空間的比對法、松弛比對法、動態(tài)程序比對法以及HMM(HiddneMarkovModel)法等等。在神經(jīng)網(wǎng)絡出現(xiàn)之前以及之后很長一段時間,在漢字OCR領域,一直采用的就是這種模板匹配的方法。

2.4.2 模型訓練

人工神經(jīng)網(wǎng)絡經(jīng)過一段時間的發(fā)展在OCR中主要充當了分類器的作用,網(wǎng)絡的輸入為文字特征向量,輸出是類編碼,在識別類型較少且結(jié)構(gòu)區(qū)分較為明顯的文字識別中,特征向量通常為字符圖像像素點的矩陣,這樣特征提取相當于是一個黑盒的操作,對于原理的解釋有很多,這里不做詳細介紹。深度學習已經(jīng)成功應用于OCR領域,深度學習的發(fā)展替代了繁重的特征工程,從大量標記預料中自動學習出圖像的特征,其中CNN(卷積神經(jīng)網(wǎng)絡)尤為搶眼,除了省去人工特征提取的流程外,共享權值的方式也減少了權值數(shù)量,大幅減少了計算開銷,它的兩大優(yōu)勢使得CNN在OCR領域表現(xiàn)十分卓越。

2.4.3 識別方式

隨著用戶數(shù)量及需求的增加,識別效率也成為OCR工程化的一項重要指標。傳統(tǒng)方法,會對服務器性能要求較高,這樣使得投入成本較高且不易擴展;在Hadoop出現(xiàn)之后,該問題得到了較好的改善,通過MapReduce編程框架,使得企業(yè)需要為之投入的硬件成本大幅減少,對OCR的發(fā)展提供了有力的推動作用。

2.5 識別后處理

識別后處理主要應用于兩個方面分別是版面恢復及識別校正。版面恢復在版面處理章節(jié)已經(jīng)講過,這里不再贅述。識別校正,主要方式是在識別結(jié)果基礎上根據(jù)語種的語言模型進行,當然在單文種識別中相對容易一些,而在多語種則較為復雜。

三,手寫體文字識別

手寫體識別較印刷體識別難度較高,而在手寫體識別中脫機手寫體識別難度又比聯(lián)機手寫體識別高。這也是脫機手寫體識別還未成功應用的主要原因。

聯(lián)機手寫體文字識別(on-line handwritten character recognition)又被稱為實時(或者在線)手寫體識別,即:人在書寫文字的同時,機器根據(jù)所書寫文字的筆劃、筆順等特征進行識別。聯(lián)機手寫體文字識別是依靠電磁式或壓電式等手寫輸入板來完成的,當用戶使用光筆在輸入板上寫字的時候,光筆在板上的運動軌跡(板上的坐標)會被轉(zhuǎn)化為一系列的電信號,這些電信號能夠串行地輸入到計算機中,從這些電信號我們可以比較容易地抽取筆劃和筆順的信息,從而進行文字識別。從上世紀90年代以來,聯(lián)機手寫體文字識別正逐步走向?qū)嵱?。中國的科研工作者推出了多個聯(lián)機手寫體漢字識別系統(tǒng),國外的一些大公司也開始進入這一市場。這一技術也迎合了PDA(Personal Digital Assistant)的發(fā)展潮流。

脫機手寫體文字識別(off-line handwritten character recognition)又被稱為離線手寫體文字識別:由書寫者預先將文字寫在紙上,然后通過掃描儀轉(zhuǎn)換成文字圖像,再由計算機識別成相應文字。由于每個人書寫習慣的不同,所以脫機手寫體文字的類型是多種多樣的,而且既便同一個人在不同情況下寫出來的文字也會有變化,這些都給脫機手寫體文字識別帶來了巨大的困難。對于脫機手寫體文字識別而言,如果對文字的書寫不加以任何限制(即自由手寫體文字),則識別難度相當大。

對于脫機手寫體文字識別處理流程和技術手段大致和印刷體識別相似,但是由于手寫體隨意性較大,因此對文字圖像的行列切分、字切分帶來了較大的困難,根據(jù)文種不同,切分的方法也有所不同,例如:在手寫體蒙古文字中內(nèi)蒙古大學的研究學者采用了一種基于字符外接多邊形的尋找切分點的字切分算法,取得了不錯的切分效果。

對于聯(lián)機手寫體識別的處理流程,主要是利用筆劃順序作為序列模型,加上字符結(jié)構(gòu)特征、筆順方向特征、筆畫數(shù)量特征作為空間模型,的組合式模型,完成識別任務。

四,應用案例

4.1印刷體識別應用

印刷體識別引用擴展較多,且技術發(fā)展較為成熟,無論在識別準確率方面還是在識別效率方面,都達到了較高的標準。

4.1.1車牌識別

車牌識別系統(tǒng)是OCR工業(yè)化應用較早而且成功的典型案例,如今從停車場到小區(qū)門禁,車牌識別技術已走進生活的各個角落。車牌識別的成功,歸結(jié)為以下幾個原因;

1、識別內(nèi)容是封閉集合,且集合較小

2、文字字體、大小較為規(guī)范

3、文字間距均勻,噪音較少

4.1.2 Tesseract

Tesseract的OCR引擎最先由HP實驗室于1985年開始研發(fā),至1995年時已經(jīng)成為OCR業(yè)內(nèi)最準確的三款識別引擎之一。然而,HP不久便決定放棄OCR業(yè)務,Tesseract也從此塵封。

數(shù)年以后,HP意識到,與其將Tesseract束之高閣,不如貢獻給開源軟件業(yè),讓其重煥新生--2005年,Tesseract由美國內(nèi)華達州信息技術研究所獲得,并求諸于Google對Tesseract進行改進、消除Bug、優(yōu)化工作。

Tesseract目前已作為開源項目發(fā)布在Google Project,其最新版本3.0已經(jīng)支持中文OCR,并提供了一個命令行工具。

4.1.3驗證碼識別

驗證碼的主要目的是強制人機交互來抵御機器自動化攻擊的。驗證碼作為一種輔助安全手段在Web安全中有著特殊的地位,驗證碼安全和web應用中的眾多漏洞相比似乎微不足道,但是千里之堤毀于蟻穴,有些時候如果能繞過驗證碼,則可以把手動變?yōu)樽詣樱瑢τ赪eb安全檢測有很大的幫助。

全自動區(qū)分計算機和人類的圖靈測試(英語:Completely Automated Public Turing test to tell Computers and Humans Apart,簡稱CAPTCHA),俗稱驗證碼,是一種區(qū)分用戶是計算機和人的公共全自動程序。在CAPTCHA測試中,作為服務器的計算機會自動生成一個問題由用戶來解答。這個問題可以由計算機生成并評判,但是必須只有人類才能解答。由于計算機無法解答CAPTCHA的問題,所以回答出問題的用戶就可以被認為是人類。

對于文字識別技術只適用于字符型驗證碼識別工作,除此之外還需要對不同驗證碼設計相應的去噪算法等。

4.2手寫體識別應用

4.2.1文通筆(聯(lián)機手寫)

筆順和連筆是影響聯(lián)機手寫漢字識別系統(tǒng)識別率的兩個主要因素。前面講過,解決筆順問題的方法有二:一是對使用者提出嚴格的要求,希望他們按“標準”的筆順、一筆一畫地寫字。這種要求,實際上很難做到。這是因為,事實上我國還沒有統(tǒng)一的筆順標準或規(guī)定;即使有一種標準,每個人的受教育程度和習慣不盡相同,要求做到都按標準筆順寫字,實際上幾乎是不可能的。另一種辦法是:對于容易出現(xiàn)筆順不同的每一個漢字,設置若干標準模板。例如“女”字,有的人先寫“く”筆,有的人則先寫“一”筆,這個字就可能有兩種不同的筆順。在“字典”中可設置兩個模板,它們的筆畫相同,而筆順不一樣,但都代表“女”字。這樣做會使字典的容量大大增加。在集成電路規(guī)模還不夠大、速度也不夠高的年代,這種辦法不容易推廣應用。

連筆是一個更為困難的問題,實際上也很難解決。人們?yōu)榱颂岣邥鴮懰俣?,寫字時往往是一筆呵成。要求他們一筆一畫、按部就班地書寫,也幾乎是不可能的。這個問題比筆順問題更不易處理,這是目前市場上出售的筆式輸入裝置的識別率尚難進一步提高的主要原因。

近幾年投入市場的“文通筆”在解決上述筆順和連筆的兩個問題上做了一些努力,取得了一些成果,并在全國評測中獲得較好的評價。取得這些進展的原因,一方面是由于計算機技術的迅速發(fā)展,機器資源已經(jīng)不是制約識別算法的主要矛盾,設計者不必過分擔心計算機的容量和速度的問題,可以更大膽地設計一些具有較高的抗干擾能力的算法;另一方面,在識別算法上,文通筆的研制者提出了一種富有創(chuàng)造性的結(jié)構(gòu)法與統(tǒng)計法相結(jié)合的新技術,較好地解決了單純的結(jié)構(gòu)識別方法難以適應手寫漢字字形及筆順變化的問題。下面扼要介紹這種算法的要點。

上面講過,結(jié)構(gòu)模式識別比較充分地描述被識別對象的結(jié)構(gòu)信息。但是這種方法也有不少缺點:

①模式的描述是基于符號而不是基于數(shù)值,抗干擾能力差。

②描述基元關系的語法規(guī)則一般需由人工編寫,難以利用機器自學習方法獲得。

③句法分析較為復雜,運算量大。

針對上述問題,文通筆在漢字字形建模方面做了一些創(chuàng)新性工作,包括:

①在比較嚴格的概率基礎上建立了一種模式統(tǒng)計模型,可用于描述聯(lián)機手寫字形的空間信息,并易于用統(tǒng)計方法進行訓練,建立手寫漢字的二維模型。

②對隱馬可夫模型(HMM)做了改進,提出控制狀態(tài)轉(zhuǎn)移路徑的概念,使模型較適用于聯(lián)機手寫漢字的描述,較好地反映手寫漢字的時間信息,還給出了這種模型的路徑搜索算法及參數(shù)訓練方法。

③將上述兩種模型結(jié)合起來,用于聯(lián)機手寫漢字識別,在很大程度上解決了連筆和筆順變化對識別系統(tǒng)性能的影響,使系統(tǒng)具有較高的魯棒性。

采用上述方法研制成功的“文通筆”,在近年兩次“863計劃”智能機主題專家組組織的評測會上名列前茅。系統(tǒng)可識別6763個簡體漢字和5401個繁體漢字,對于書寫比較工整的字,識別率在95%~99%之間;書寫比較潦草的字也可達到87%~93%,前十位累加識別率仍達98%~99%;采用主流微機的識別速度大于3字/秒,能滿足實際應用要求。

4.2.2 古籍識別(脫機手寫體識別)

目前脫機手寫體識別的主要應用方向在于古籍識別,在印刷術發(fā)明之前,古人傳承書籍的方式主要依靠抄寫,在印刷術發(fā)明之后,使用人力抄寫的書籍數(shù)量減少,但信件、奏折類的包含大量手寫體文字的載體依然不少。而使用人力來完成這些書信的電子化轉(zhuǎn)儲工作十分費力,因此,針對古籍中文字進行識別的科研需求應運而生。

但是,由于古籍在保存中難免會遭到人為或非人為的損壞,導致字跡不清、殘損的情況屢見不鮮,加之,手寫體自身可能存在的較大差異性,使得古籍文字識別的工作難上加難。因此,對于脫機手寫體識別的應用尚未出現(xiàn)未成功的案例。

五 學習資料

5.1 博客推薦

5.1.1中文OCR博客

博主中文OCR系列博客,內(nèi)容講解比較直白,比較容易理解,可以比較清楚了解漢字識別整個流程。

http://blog.csdn.net/plfl520/article/details/8441478

5.1.2 卷積神經(jīng)網(wǎng)絡數(shù)學理解

再推薦一個系列博客,博主的一系列博客,都是對神經(jīng)網(wǎng)絡算法的從數(shù)學角度的深度境界,對于想要詳細了解算法原理的童鞋,比較適用。

http://colah.github.io/posts/2014-07-Understanding-Convolutions/

5.2 書籍推薦

5.2.1 《統(tǒng)計學習方法》—李航

本書可以說是機器學習領域的圣經(jīng)級書籍,書中主要介紹了一些基礎機器學習算法,其中數(shù)學演算也很詳盡,十分適合機器學習入門的一本書籍。

5.2.2 《數(shù)學之美》—吳軍

“數(shù)學之美”系列文章原刊載于谷歌黑板報,獲得上百萬次點擊,得到讀者高度評價。吳軍博士把高深的數(shù)學原理講得更加通俗易懂,讓非專業(yè)讀者也能領略數(shù)學的魅力。讀者通過具體的例子學到的是思考問題的方式 —— 如何化繁為簡,如何用數(shù)學去解決工程問題,如何跳出固有思維不斷去思考創(chuàng)新。這種思維模式在不僅機器學習領域十分重要,在其他的領域中也會受益匪淺。

5.2.3《數(shù)字圖像處理》—岡薩雷斯

想要理解圖像處理的理論可以把岡薩雷斯的《數(shù)字圖像處理》通讀一遍,這本書主要在講基礎原理,推薦大家閱讀原版,譯翻譯不太好,容易導致誤解。

5.3 視頻資料

https://www.coursera.org/learn/machine-learning/home/welcome

Andrew Ng的機器學習課程,配合小練習,收獲很大。

5.4 論文參考

url : http://pan.baidu.com/s/1bpH2dtX code : xjwl

5.5 OCR工具

1,識別率極高。

2,自由度高。

3,批量操作方便。

4,可以保持原有表格格式,省去二次編輯。

5,包括梯形校正,歪斜校正之類的許多圖片校正方式。

參考文獻

[1] 魏宏喜.印刷體蒙古文字識別中關鍵技術的研究[D].內(nèi)蒙古大學碩士學位論文,2006.

[2] 劉煜星.基于MapReduce的漢字識別的研究與實現(xiàn)[D].華南理工大學碩士學位論文,2011.

[3] Dan Ciresan, Ueli Meier. Multi-Column Deep Neural Networks for offline handwritten Chinese character classification[C]. In: Proceedings of the International Conference on Neural Networks (IJCNN) , 2015, pp. 1-6.

[4] Chunpeng Wu,Wei Fan, Yuan He, Jun Sun.Satoshi Naoi.Handwritten Character Recognition by Alternately Trained Relaxation Convolutional Neural Network[C]. In: Proceedings of the International Conference on Frontiers in Handwriting Recognition (ICFHR), 2014, pp.291-296.

本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
如何把掃描儀掃描到電腦里的文章(手寫的)轉(zhuǎn)換成word格式的?
人工智能時代的OCR識別技術
【OCR技術】字符識別技術總覽
orc是什么意思?怎么提取截圖內(nèi)容?
最好用的掃描儀文字識別軟件(ORC)是什么?
人工智能之OCR識別技術簡析
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服