国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
關于PDF轉換(OCR)文本文檔的一點心得體會。。。
 本帖最后由 frankfl 于 2012-9-19 14:05 編輯

幾天休息在家,有點空閑。前陣子答應過某書友,現在發(fā)帖,將前階段使用泰比  ABBYY FineReader ,OCR 文字識別軟件作書過程中,得到的一點經驗,心得體會,與眾書友交流、探討此帖適合做精校書籍者,為準確率達到99.90%以上而奮斗者,力求完美者參閱 。此帖并非教程,拋磚引玉,希望大家糾正、補充、使之完善。。。

首先,什么是 OCR 技術?OCR (Optical Character Recognition,光學字符識別)傳統上是指,電子設備檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程;即,對文本資料進行掃描,然后對圖像文件進行分析處理,獲取文字及版面信息的過程。

本文所述 OCR,特指將 PDF 文檔,拆分為一幅幅圖像文件,用 OCR 技術通過相應軟件,將圖片中文字轉換成文本,便于下一步操作(例如導入書苑的 epubBuilder 制作軟件)。傳說中一步到位的 PDF 轉換成 EPUB ,并不在本文的討論范疇內。。。

一、準備工作:
1.  準備 PDF 源文件,并將 PDF 按頁拆分成圖像文件。方法有很多,不一一贅述了,如圖例1;

2.  準備 OCR 軟件,本人用的是 ABBYY FineReader 10,如圖例2;


二、初始工作:

1.  新建 FineReader 文檔,如圖例3;


2.  點擊上欄“打開”圖標,打開圖像,打開后,軟件處理圖像添加進文檔,如圖例4、5;
提示:在新建的 FineReader 文檔中,添加若干圖像文件,可以合理安排工作量,例如:按章節(jié)分派,每個文檔就是一個章節(jié)的圖像文件;平均分派,每個文檔取一個固定值的圖像文件,便于均衡校對的工作量。



3.  保存 FineReader 文檔,如圖例6;
提示:建立并保存 FineReader 文檔后,下次可以打開未完成的文檔,繼續(xù)校對工作。  


三、設置工作:

1.  將輸出設置為“另存為TXT”,如圖例7;
提示:個人認為無格式的TXT文檔便于后期編輯,具體喜好因人而宜。


2.  點擊“選項”圖標,設置“文檔語言”,這個很重要,如圖例8;
提示:簡體中文書籍,繁體書籍,英文書籍請按相應語言設置,也可按右側“編輯語言”,設置你要的語言,不要添加過多選項,否則將影響準確率。如圖例9。


3.  在“選項”內選“查看”標簽,設置軟件顯示待校對文字的字體,如圖例10;
提示:我選“楷體”,并不是說我喜歡這個字體,而是因為,很多生僻字在楷體字庫下顯示不出,例如“事”和“亊”,識別為“ ”,在宋體下能顯示,楷體不顯示,便于糾錯。

本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現有害或侵權內容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
你了解ABBYY FineReader 14么?
泰比光學識別軟件(ABBYY FineReader Corporate Edition 11) v11.0.102.519 多國語言企業(yè)版(含簡繁中文)
ABBYY FineReader12 企業(yè)綠色版
PDF文檔處理為什么會用到OCR文字識別
智能錄入、西文文檔的引領者 —— ABBYY FineReader
為您提供有效的文字識別系統,把掃描圖像轉變成任何文件格式
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服