用Pdg2Pic、TextForever實(shí)現(xiàn)批量OCR

作者：馬健
郵箱：stronghorse@tom.com
主頁：http://stronghorse.yeah.net
發(fā)布：2006.09.26

目錄
一、FAQ
二、開始轉(zhuǎn)換
    1、為在簡(jiǎn)體中文環(huán)境下OCR繁體中文所做的準(zhǔn)備
    2、OCR前的圖像準(zhǔn)備
    3、開始OCR
    4、OCR之后的麻煩事

Q：什么是OCR？
A：OCR是Optical Character Recognition（光學(xué)字符識(shí)別）的縮寫，簡(jiǎn)單點(diǎn)說，就是將掃描出來的書籍圖像文件，轉(zhuǎn)換成可以編輯、查找的文本文件。

Q：為什么要OCR？
A：理由如下（不是全集，您還可以想象其它的理由）：

以目前的技術(shù)，圖像文件還不能進(jìn)行全文檢索，但是轉(zhuǎn)換成文本后想怎么檢索都好說。
圖像文件上的文字很難被引用，但是復(fù)制、粘貼文本誰不會(huì)？
與文本文件的尺寸相比，圖像文件顯得大了點(diǎn)。
圖像文件的瀏覽比較受限制，看多了容易疲勞，文本文件相對(duì)好一點(diǎn)。當(dāng)然也有人對(duì)此持相反觀點(diǎn)。
不可否認(rèn)，目前網(wǎng)上文本格式的書源要比圖像格式的貧乏許多，在OCR的門檻降低到人人都能參予后，相信會(huì)有助于豐富文本格式的書源。

Q：OCR的好處已經(jīng)明白了，那么它有沒有什么短處？
A：世間不如意，常十之八九：

以目前的OCR技術(shù)，還不能保證準(zhǔn)確率達(dá)到100%，因此OCR出來的結(jié)果可能會(huì)包含大量的錯(cuò)字、別字，需要進(jìn)行校對(duì)。
以目前的技術(shù)，想完整再現(xiàn)原文版式是一件很有難度的工作，因此OCR出來的結(jié)果通常還需要重新排版。
OCR需要進(jìn)行復(fù)雜的內(nèi)部運(yùn)算，消耗大量的CPU時(shí)間。
最關(guān)鍵的一點(diǎn)：以目前能夠達(dá)到的技術(shù)，OCR用來識(shí)別以文字為主的文史類書籍還湊合，要想識(shí)別圖文混排、中英文混排、包含復(fù)雜表格、字體應(yīng)用比較豐富（尤其是斜體）的理工類書籍，識(shí)別出來的結(jié)果多半有點(diǎn)哭笑不得。

如果看了上面的說明后您已經(jīng)對(duì)OCR心灰意冷，可以不必浪費(fèi)時(shí)間往下看了。

Q：為什么要用Pdg2Pic、TextForever來做OCR？
A：目前市面上有很多成熟的OCR產(chǎn)品，包括清華、漢王、丹青等。從我使用的情況看，這些產(chǎn)品的識(shí)別率基本上已經(jīng)接近技術(shù)的極限，只是在使用方便性上還有一些不足，尤其是在批量識(shí)別方面。而Pdg2Pic、TextForever（以下簡(jiǎn)稱PT）則是專門為了批量OCR而設(shè)計(jì)的。如果您覺得批量識(shí)別用處不大，建議您還是選擇這些專業(yè)OCR軟件。

Q：PT在技術(shù)上有什么特點(diǎn)？
A：PT基于微軟Office 2003提供的Microsoft Office Document Imaging (MODI)所帶的OCR引擎。這個(gè)引擎的中文識(shí)別（包括簡(jiǎn)體和繁體）采用的是清華的技術(shù)，因此具有下列特點(diǎn)：

在簡(jiǎn)體中文環(huán)境下識(shí)別簡(jiǎn)體，或在繁體中文環(huán)境下識(shí)別繁體都沒有問題，但是想在簡(jiǎn)體環(huán)境下識(shí)別繁體，或在繁體下識(shí)別簡(jiǎn)體，則需要對(duì)軟件進(jìn)行配置或安裝，詳見后面的敘述。
識(shí)別率比上不足，比下有余，畢竟清華也不會(huì)傻到自斷財(cái)路。但是在所有商業(yè)級(jí)OCR軟件中，微軟MODI是唯一公開編程接口的，因此才能被PT所調(diào)用。如果您能夠提供識(shí)別率更高，并且沒有法律后患的其它OCR引擎的編程接口，我很愿意對(duì)PT進(jìn)行更改。
OCR引擎本身提供了對(duì)字符的識(shí)別，但是沒有提供版式恢復(fù)功能。MODI將識(shí)別結(jié)果發(fā)送到Word里的版式校正是微軟自己做的，我自認(rèn)做不到那個(gè)水平，所以O(shè)CR出來的結(jié)果在排版方面需要多花點(diǎn)功夫。

Q：為什么其它OCR軟件都很大，而MODI的尺寸這么?。ê?jiǎn)體中文版安裝包才5MB多一點(diǎn)）？
A：在歷史上，針對(duì)印刷體OCR的技術(shù)路線，國(guó)內(nèi)OCR界曾經(jīng)爆發(fā)過一場(chǎng)爭(zhēng)議，主要觀點(diǎn)分成兩派：

一派認(rèn)為為了提高識(shí)別率，應(yīng)該先識(shí)別出印刷（打?。r(shí)采用的字體，然后針對(duì)字體特征進(jìn)行識(shí)別。國(guó)外OCR界在識(shí)別字母文字時(shí)也有人持相同的觀點(diǎn)。這種路線的好處是顯而易見的：
1、在識(shí)別出字體后，字符特征相對(duì)固定，識(shí)別率能夠得到提高。
2、得到原文的字體后，便于恢復(fù)原文版式。
當(dāng)然缺點(diǎn)也是明擺著的：需要針對(duì)每一種可能遇到的字體建立特征庫，如果需要識(shí)別的字體不在事先建立的特征庫范圍內(nèi)，則識(shí)別率急劇下降。但是眾多的特征庫不僅占用存儲(chǔ)空間，對(duì)OCR的運(yùn)行效率也有影響。
另一派認(rèn)為事物是有區(qū)別的，但又是普遍聯(lián)系的，如果割裂這些聯(lián)系，就會(huì)……（以下省略高中《辨正唯物主義》教材中的若干著名論斷）。總之，在他們看來，字體會(huì)變，但是漢字的筆畫是不會(huì)變的，中文的“文”字那一橫在宋體中是平的，在楷書中是斜的，但是一橫就是一橫，絕對(duì)不會(huì)變成一豎。因此該派認(rèn)為沒有必要為所有字體建立特征庫，大家共用一個(gè)就可以了。這種路線的好處是：
1、特征庫比較單純，庫的體積相對(duì)較小，識(shí)別速度也相對(duì)較快。
2、即使需要識(shí)別的字體比較少見，識(shí)別率也不會(huì)差到離譜。
這種路線的缺點(diǎn)是：
1、需要針對(duì)大量字體進(jìn)行特征歸納，并在機(jī)器歸納基礎(chǔ)上手工調(diào)整，開發(fā)的時(shí)候比較累。
2、由于大量字體之間的平均效果，識(shí)別率會(huì)比采用第一種路線的差上那么一點(diǎn)點(diǎn)，不過做好了感覺就不是那么明顯了。
3、由于沒有字體信息，很難恢復(fù)原文版式。

在開始的時(shí)候，由于硬盤資源對(duì)于用戶來說是一種比較昂貴的資源，因此清華是第二條路線的堅(jiān)定支持者和倡導(dǎo)者。但是隨著OCR引擎的競(jìng)爭(zhēng)逐漸轉(zhuǎn)移到對(duì)原文版式的恢復(fù)上，而硬盤價(jià)格直線下降，清華開始全線轉(zhuǎn)移到第一條技術(shù)路線上。從MODI安裝的文件來看，微軟購(gòu)買的顯然是清華采用第二條技術(shù)路線時(shí)的產(chǎn)品，所有字體共用一個(gè)特征庫，尺寸當(dāng)然就下來了。

與此形成對(duì)照的是某些人喜歡用的CAJViewer。從文件上看，它采用的也是清華的OCR引擎，而且是按第一條路線實(shí)現(xiàn)的，附帶龐大的字體特征庫，安裝包幾乎是MODI的10倍大小，速度也比MODI慢。但是從應(yīng)用功能上看，CAJViewer僅僅識(shí)別出純文本，沒有字體信息，至少?zèng)]有將識(shí)別出來的字體信息展現(xiàn)出來。用一個(gè)形象但不一定恰當(dāng)?shù)谋扔?，相?dāng)于花錢買了一整只烤鴨，結(jié)果只吃了一個(gè)鴨PP就算了，總給人一點(diǎn)冤大頭的感覺。

Q：如果我對(duì)OCR出來的結(jié)果不滿意，怎么辦？
A：OCR效果和下列因素有關(guān)：

OCR引擎。這個(gè)不行就只能換一個(gè)。不過如前所述，我能用的就只有MODI一個(gè)。
圖像質(zhì)量。這個(gè)其實(shí)是決定OCR質(zhì)量最為關(guān)鍵的因素。好的圖像應(yīng)該黑白分明、頁面端正、字跡清楚，無筆畫間斷、粘連，或污跡干擾。如果原始圖像較差，可以先手工進(jìn)行修正，包括糾斜、去除污跡、調(diào)整圖像明暗等。處理時(shí)推薦使用專業(yè)圖像處理軟件，如果用不了也可以用簡(jiǎn)單點(diǎn)的ComicEnhancer Pro。
語言選擇。中文簡(jiǎn)體和繁體的識(shí)別是不同的，英文和中文的識(shí)別也不同，因此針對(duì)圖像中的文字，選擇合適的語言，有助于提高識(shí)別率。

二、開始轉(zhuǎn)換

1、為在簡(jiǎn)體中文環(huán)境下OCR繁體中文所做的準(zhǔn)備

如果您不需要在簡(jiǎn)體環(huán)境下識(shí)別繁體，或在繁體環(huán)境下識(shí)別簡(jiǎn)體，可以跳過本節(jié)。

讓繁體Office 2003支持中文簡(jiǎn)體OCR非常簡(jiǎn)單：到下面的頁面去下載一個(gè)簡(jiǎn)體OCR安裝包，運(yùn)行即可安裝：

http://www.microsoft.com/downloads/details.aspx?familyid=dd172063-9517-41d8-82af-29c38f7437b6&displaylang=zh-tw

簡(jiǎn)體中文Office 2003想支持繁體OCR則沒有這么簡(jiǎn)單，至少在我寫這篇文章的時(shí)候，微軟尚未發(fā)布繁體OCR的安裝包。不過變通的方法也不是沒有：找一臺(tái)安裝了繁體中文Office 2003的機(jī)器，進(jìn)入下面的文件夾：

C:\Program Files\Common Files\Microsoft Shared\MODI\11.0

將下面的文件復(fù)制到安裝了簡(jiǎn)體中文Office 2003的相同文件夾下：

TCCODE.UNI
TCPRINT.DAT
TCPRINT2.DAT
TCSERHT.DAT
TCTREE.DAT
TW_BU.DAT
TW_UB.DAT
TWBIG532.DLL

這樣改造后，直接用Office 2003的MODI還不能OCR繁體，因?yàn)樵贛ODI的“工具->選項(xiàng)”中，在“OCR”這一頁的“OCR語言”項(xiàng)里就沒有“中文（繁體）”選擇。不過對(duì)于直接調(diào)用MODI的編程接口的PT來說，這樣處理后就已經(jīng)可以識(shí)別繁體中文了。

我比較了一下，似乎在繁體中文Office 2003環(huán)境下安裝簡(jiǎn)體OCR包后，并沒有改變MODI的EXE文件，所以我猜測(cè)可以通過更改配置的方法讓簡(jiǎn)體中文MODI出現(xiàn)“中文（繁體）”選項(xiàng)，不過我試了一下沒有試出來，如果有哪位高人愿意指點(diǎn)，還請(qǐng)不吝指教。

另外在簡(jiǎn)體中文環(huán)境下，按照上述步驟設(shè)置后，用PT識(shí)別出來的繁體中文是GBK編碼的繁體字，可以用TextForever的“編碼轉(zhuǎn)換功能”批量轉(zhuǎn)換成GB編碼的簡(jiǎn)體字。

2、OCR前的圖像準(zhǔn)備

想要OCR，當(dāng)然首先就要有OCR所需的圖像文件。對(duì)于Pdg2Pic，只需準(zhǔn)備PDG文件即可。對(duì)于TextForever，由于它只認(rèn)單色（黑白）TIFF文件，因此如果原始圖像文件不是單色TIFF，需要先對(duì)圖像進(jìn)行轉(zhuǎn)換，轉(zhuǎn)換的時(shí)候如果能順手對(duì)圖像進(jìn)行一下清理、糾斜當(dāng)然更好。

轉(zhuǎn)換、清理、糾斜都可以使用專業(yè)圖像處理軟件完成，不過對(duì)于一般用戶，建議使用簡(jiǎn)單點(diǎn)的免費(fèi)軟件ComicEnhancer Pro 。這個(gè)軟件不僅能夠批量將圖像轉(zhuǎn)換成單色TIFF（“色彩”選項(xiàng)選“單色”），而且能夠?qū)D像進(jìn)行處理，以改善頁面效果。所有處理功能都能實(shí)時(shí)預(yù)覽到處理效果，便于修改。

需要注意的是，對(duì)于PDG文件，建議不要轉(zhuǎn)成圖像后再用TextForever識(shí)別，而是直接用Pdg2Pic識(shí)別，以避免某些多層PDG轉(zhuǎn)來轉(zhuǎn)去損失質(zhì)量。

3、開始OCR

Pdg2Pic和TextForever的操作都差不多，先選擇需要OCR的文件夾，然后選擇結(jié)果文件，即可開始轉(zhuǎn)換。對(duì)OCR選項(xiàng)的解釋如下：

自動(dòng)旋轉(zhuǎn)：選中此復(fù)選框可檢測(cè)頁面中文本的方向，并旋轉(zhuǎn)倒置或傾斜的頁面圖像。
自動(dòng)拉伸：選中此復(fù)選框可檢測(cè)頁面中文本的方向，并對(duì)正稍未對(duì)齊的頁面。
語言：選擇OCR語言?？晒┻x擇的有英文、中文簡(jiǎn)體、中文繁體。缺省為中文簡(jiǎn)體。

注意：自動(dòng)旋轉(zhuǎn)、自動(dòng)拉伸均需要時(shí)間，考慮到多數(shù)文件不需要進(jìn)行校正，因此這兩個(gè)選項(xiàng)缺省不選中。如果頁面確實(shí)變形比較厲害，可以選中后重新OCR。不過有時(shí)“自動(dòng)旋轉(zhuǎn)”出來的結(jié)果偏差比較大，所以建議只選“自動(dòng)拉伸”即可。

4、OCR之后的麻煩事

OCR過程很簡(jiǎn)單，點(diǎn)幾下鼠標(biāo)就完事了，但是要想真正將結(jié)果實(shí)用化，還至少需要做兩件事：校對(duì)和排版。當(dāng)然這兩件事也可以合二為一。

對(duì)于有條件的人來說，校對(duì)可以用軟件自動(dòng)進(jìn)行，但是自動(dòng)校對(duì)軟件不是一般人愿意裝或能夠裝的，那就只能靠人工校對(duì)。人工校對(duì)的時(shí)候建議用ComicsViewer，它能同時(shí)顯示圖像和文本，便于對(duì)照。對(duì)于真正對(duì)電子書比較投入、對(duì)校對(duì)要求較高的人，建議還是仿照一般電子書網(wǎng)站的作法，找?guī)讉€(gè)同道，成立一個(gè)校對(duì)組做校對(duì)，一個(gè)人做太枯燥了。

排版也是一個(gè)比較麻煩的過程，各人喜好不同。我比較喜歡用TextForever的“段落合并”功能，通過調(diào)整“上一行行長(zhǎng)比平均行長(zhǎng)短少1/x”參數(shù)來改變效果（這個(gè)選項(xiàng)缺省不選，需要手工打開）。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

用Pdg2Pic、TextForever實(shí)現(xiàn)批量OCR