作者:馬健
郵箱:stronghorse@tom.com
主頁:http://stronghorse.yeah.net
發(fā)布:2006.09.26
目錄
一、FAQ
二、開始轉(zhuǎn)換
1、為在簡(jiǎn)體中文環(huán)境下OCR繁體中文所做的準(zhǔn)備
2、OCR前的圖像準(zhǔn)備
3、開始OCR
4、OCR之后的麻煩事
Q:什么是OCR?
A:OCR是Optical Character Recognition(光學(xué)字符識(shí)別)的縮寫,簡(jiǎn)單點(diǎn)說,就是將掃描出來的書籍圖像文件,轉(zhuǎn)換成可以編輯、查找的文本文件。
Q:為什么要OCR?
A:理由如下(不是全集,您還可以想象其它的理由):
Q:OCR的好處已經(jīng)明白了,那么它有沒有什么短處?
A:世間不如意,常十之八九:
如果看了上面的說明后您已經(jīng)對(duì)OCR心灰意冷,可以不必浪費(fèi)時(shí)間往下看了。
Q:為什么要用Pdg2Pic、TextForever來做OCR?
A:目前市面上有很多成熟的OCR產(chǎn)品,包括清華、漢王、丹青等。從我使用的情況看,這些產(chǎn)品的識(shí)別率基本上已經(jīng)接近技術(shù)的極限, 只是在使用方便性上還有一些不足,尤其是在批量識(shí)別方面。而Pdg2Pic、TextForever(以下簡(jiǎn)稱PT)則是專門為了批量OCR而設(shè)計(jì)的。如果您覺得批量識(shí)別用處不大,建議您還是選擇這些專業(yè)OCR軟件。
Q:PT在技術(shù)上有什么特點(diǎn)?
A:PT基于微軟Office 2003提供的Microsoft Office Document Imaging (MODI)所帶的OCR引擎。這個(gè)引擎的中文識(shí)別(包括簡(jiǎn)體和繁體)采用的是清華的技術(shù),因此具有下列特點(diǎn):
Q:為什么其它OCR軟件都很大,而MODI的尺寸這么?。ê?jiǎn)體中文版安裝包才5MB多一點(diǎn))?
A:在歷史上,針對(duì)印刷體OCR的技術(shù)路線,國(guó)內(nèi)OCR界曾經(jīng)爆發(fā)過一場(chǎng)爭(zhēng)議,主要觀點(diǎn)分成兩派:
在開始的時(shí)候,由于硬盤資源對(duì)于用戶來說是一種比較昂貴的資源,因此清華是第二條路線的堅(jiān)定支持者和倡導(dǎo)者。但是隨著OCR引擎的競(jìng)爭(zhēng)逐漸轉(zhuǎn)移到對(duì)原文版式的恢復(fù)上,而硬盤價(jià)格直線下降,清華開始全線轉(zhuǎn)移到第一條技術(shù)路線上。從MODI安裝的文件來看,微軟購(gòu)買的顯然是清華采用第二條技術(shù)路線時(shí)的產(chǎn)品,所有字體共用一個(gè)特征庫,尺寸當(dāng)然就下來了。
與此形成對(duì)照的是某些人喜歡用的CAJViewer。從文件上看,它采用的也是清華的OCR引擎,而且是按第一條路線實(shí)現(xiàn)的,附帶龐大的字體特征庫,安裝包幾乎是MODI的10倍大小,速度也比MODI慢。但是從應(yīng)用功能上看,CAJViewer僅僅識(shí)別出純文本,沒有字體信息,至少?zèng)]有將識(shí)別出來的字體信息展現(xiàn)出來。用一個(gè)形象但不一定恰當(dāng)?shù)谋扔?,相?dāng)于花錢買了一整只烤鴨,結(jié)果只吃了一個(gè)鴨PP就算了,總給人一點(diǎn)冤大頭的感覺。
Q:如果我對(duì)OCR出來的結(jié)果不滿意,怎么辦?
A:OCR效果和下列因素有關(guān):
1、為在簡(jiǎn)體中文環(huán)境下OCR繁體中文所做的準(zhǔn)備
如果您不需要在簡(jiǎn)體環(huán)境下識(shí)別繁體,或在繁體環(huán)境下識(shí)別簡(jiǎn)體,可以跳過本節(jié)。
讓繁體Office 2003支持中文簡(jiǎn)體OCR非常簡(jiǎn)單:到下面的頁面去下載一個(gè)簡(jiǎn)體OCR安裝包,運(yùn)行即可安裝:
簡(jiǎn)體中文Office 2003想支持繁體OCR則沒有這么簡(jiǎn)單,至少在我寫這篇文章的時(shí)候,微軟尚未發(fā)布繁體OCR的安裝包。不過變通的方法也不是沒有:找一臺(tái)安裝了繁體中文Office 2003的機(jī)器,進(jìn)入下面的文件夾:
C:\Program Files\Common Files\Microsoft Shared\MODI\11.0
將下面的文件復(fù)制到安裝了簡(jiǎn)體中文Office 2003的相同文件夾下:
TCCODE.UNI
TCPRINT.DAT
TCPRINT2.DAT
TCSERHT.DAT
TCTREE.DAT
TW_BU.DAT
TW_UB.DAT
TWBIG532.DLL
這樣改造后,直接用Office 2003的MODI還不能OCR繁體,因?yàn)樵贛ODI的“工具->選項(xiàng)”中,在“OCR”這一頁的“OCR語言”項(xiàng)里就沒有“中文(繁體)”選擇。不過對(duì)于直接調(diào)用MODI的編程接口的PT來說,這樣處理后就已經(jīng)可以識(shí)別繁體中文了。
我比較了一下,似乎在繁體中文Office 2003環(huán)境下安裝簡(jiǎn)體OCR包后,并沒有改變MODI的EXE文件,所以我猜測(cè)可以通過更改配置的方法讓簡(jiǎn)體中文MODI出現(xiàn)“中文(繁體)”選項(xiàng),不過我試了一下沒有試出來,如果有哪位高人愿意指點(diǎn),還請(qǐng)不吝指教。
另外在簡(jiǎn)體中文環(huán)境下,按照上述步驟設(shè)置后,用PT識(shí)別出來的繁體中文是GBK編碼的繁體字,可以用TextForever的“編碼轉(zhuǎn)換功能”批量轉(zhuǎn)換成GB編碼的簡(jiǎn)體字。
想要OCR,當(dāng)然首先就要有OCR所需的圖像文件。對(duì)于Pdg2Pic,只需準(zhǔn)備PDG文件即可。對(duì)于TextForever,由于它只認(rèn)單色(黑白)TIFF文件,因此如果原始圖像文件不是單色TIFF,需要先對(duì)圖像進(jìn)行轉(zhuǎn)換,轉(zhuǎn)換的時(shí)候如果能順手對(duì)圖像進(jìn)行一下清理、糾斜當(dāng)然更好。
轉(zhuǎn)換、清理、糾斜都可以使用專業(yè)圖像處理軟件完成,不過對(duì)于一般用戶,建議使用簡(jiǎn)單點(diǎn)的免費(fèi)軟件ComicEnhancer Pro 。 這個(gè)軟件不僅能夠批量將圖像轉(zhuǎn)換成單色TIFF(“色彩”選項(xiàng)選“單色”),而且能夠?qū)D像進(jìn)行處理,以改善頁面效果。所有處理功能都能實(shí)時(shí)預(yù)覽到處理效果,便于修改。
需要注意的是,對(duì)于PDG文件,建議不要轉(zhuǎn)成圖像后再用TextForever識(shí)別,而是直接用Pdg2Pic識(shí)別,以避免某些多層PDG轉(zhuǎn)來轉(zhuǎn)去損失質(zhì)量。
Pdg2Pic和TextForever的操作都差不多,先選擇需要OCR的文件夾,然后選擇結(jié)果文件,即可開始轉(zhuǎn)換。對(duì)OCR選項(xiàng)的解釋如下:
自動(dòng)旋轉(zhuǎn):選中此復(fù)選框可檢測(cè)頁面中文本的方向,并旋轉(zhuǎn)倒置或傾斜的頁面圖像。
自動(dòng)拉伸:選中此復(fù)選框可檢測(cè)頁面中文本的方向,并對(duì)正稍未對(duì)齊的頁面。
語言:選擇OCR語言??晒┻x擇的有英文、中文簡(jiǎn)體、中文繁體。缺省為中文簡(jiǎn)體。
注意:自動(dòng)旋轉(zhuǎn)、自動(dòng)拉伸均需要時(shí)間,考慮到多數(shù)文件不需要進(jìn)行校正,因此這兩個(gè)選項(xiàng)缺省不選中。如果頁面確實(shí)變形比較厲害,可以選中后重新OCR。不過有時(shí)“自動(dòng)旋轉(zhuǎn)”出來的結(jié)果偏差比較大,所以建議只選“自動(dòng)拉伸”即可。
OCR過程很簡(jiǎn)單,點(diǎn)幾下鼠標(biāo)就完事了,但是要想真正將結(jié)果實(shí)用化,還至少需要做兩件事:校對(duì)和排版。當(dāng)然這兩件事也可以合二為一。
對(duì)于有條件的人來說,校對(duì)可以用軟件自動(dòng)進(jìn)行,但是自動(dòng)校對(duì)軟件不是一般人愿意裝或能夠裝的,那就只能靠人工校對(duì)。人工校對(duì)的時(shí)候建議用ComicsViewer,它能同時(shí)顯示圖像和文本,便于對(duì)照。對(duì)于真正對(duì)電子書比較投入、對(duì)校對(duì)要求較高的人,建議還是仿照一般電子書網(wǎng)站的作法,找?guī)讉€(gè)同道,成立一個(gè)校對(duì)組做校對(duì),一個(gè)人做太枯燥了。
排版也是一個(gè)比較麻煩的過程,各人喜好不同。我比較喜歡用TextForever的“段落合并”功能,通過調(diào)整“上一行行長(zhǎng)比平均行長(zhǎng)短少1/x”參數(shù)來改變效果(這個(gè)選項(xiàng)缺省不選,需要手工打開)。
聯(lián)系客服