本帖最后由 frankfl 于 2012-9-19 14:05 編輯
這幾天休息在家,有點空閑。前陣子答應過某書友,現在發(fā)帖,將前階段使用泰比 ABBYY FineReader ,OCR 文字識別軟件作書過程中,得到的一點經驗,心得體會,與眾書友交流、探討(此帖適合做精校書籍者,為準確率達到99.90%以上而奮斗者,力求完美者參閱) 。此帖并非教程,拋磚引玉,希望大家糾正、補充、使之完善。。。
首先,什么是 OCR 技術?OCR (Optical Character Recognition,光學字符識別)傳統上是指,電子設備檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程;即,對文本資料進行掃描,然后對圖像文件進行分析處理,獲取文字及版面信息的過程。
本文所述 OCR,特指將 PDF 文檔,拆分為一幅幅圖像文件,用 OCR 技術通過相應軟件,將圖片中文字轉換成文本,便于下一步操作(例如導入書苑的 epubBuilder 制作軟件)。傳說中一步到位的 PDF 轉換成 EPUB ,并不在本文的討論范疇內。。。
一、準備工作:
1. 準備 PDF 源文件,并將 PDF 按頁拆分成圖像文件。方法有很多,不一一贅述了,如圖例1;
2. 準備 OCR 軟件,本人用的是 ABBYY FineReader 10,如圖例2;
二、初始工作:
1. 新建 FineReader 文檔,如圖例3;
2. 點擊上欄“打開”圖標,打開圖像,打開后,軟件處理圖像添加進文檔,如圖例4、5;
提示:在新建的 FineReader 文檔中,添加若干圖像文件,可以合理安排工作量,例如:按章節(jié)分派,每個文檔就是一個章節(jié)的圖像文件;平均分派,每個文檔取一個固定值的圖像文件,便于均衡校對的工作量。
3. 保存 FineReader 文檔,如圖例6;
提示:建立并保存 FineReader 文檔后,下次可以打開未完成的文檔,繼續(xù)校對工作。
三、設置工作:
1. 將輸出設置為“另存為TXT”,如圖例7;
提示:個人認為無格式的TXT文檔便于后期編輯,具體喜好因人而宜。
2. 點擊“選項”圖標,設置“文檔語言”,這個很重要,如圖例8;
提示:簡體中文書籍,繁體書籍,英文書籍請按相應語言設置,也可按右側“編輯語言”,設置你要的語言,不要添加過多選項,否則將影響準確率。如圖例9。
3. 在“選項”內選“查看”標簽,設置軟件顯示待校對文字的字體,如圖例10;
提示:我選“楷體”,并不是說我喜歡這個字體,而是因為,很多生僻字在楷體字庫下顯示不出,例如“事”和“亊”,識別為“亊 ”,在宋體下能顯示,楷體不顯示,便于糾錯。
本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現有害或侵權內容,請
點擊舉報。