日本动态美女视频,欧美沙滩美女视频

關于PDF轉換（OCR）文本文檔的一點心得體會。。。

2015.09.02

本帖最后由 frankfl 于 2012-9-19 14:05 編輯

這幾天休息在家，有點空閑。前陣子答應過某書友，現在發(fā)帖，將前階段使用泰比  ABBYY FineReader ，OCR 文字識別軟件作書過程中，得到的一點經驗，心得體會，與眾書友交流、探討（此帖適合做精校書籍者，為準確率達到99.90%以上而奮斗者，力求完美者參閱）。此帖并非教程，拋磚引玉，希望大家糾正、補充、使之完善。。。

首先，什么是 OCR 技術？OCR （Optical Character Recognition，光學字符識別）傳統上是指，電子設備檢查紙上打印的字符，通過檢測暗、亮的模式確定其形狀，然后用字符識別方法將形狀翻譯成計算機文字的過程；即，對文本資料進行掃描，然后對圖像文件進行分析處理，獲取文字及版面信息的過程。

本文所述 OCR，特指將 PDF 文檔，拆分為一幅幅圖像文件，用 OCR 技術通過相應軟件，將圖片中文字轉換成文本，便于下一步操作（例如導入書苑的 epubBuilder 制作軟件）。傳說中一步到位的 PDF 轉換成 EPUB ，并不在本文的討論范疇內。。。

一、準備工作：
1.  準備 PDF 源文件，并將 PDF 按頁拆分成圖像文件。方法有很多，不一一贅述了，如圖例1；

2.  準備 OCR 軟件，本人用的是 ABBYY FineReader 10，如圖例2；

二、初始工作：
1.  新建 FineReader 文檔，如圖例3；

2.  點擊上欄“打開”圖標，打開圖像，打開后，軟件處理圖像添加進文檔，如圖例4、5；
提示：在新建的 FineReader 文檔中，添加若干圖像文件，可以合理安排工作量，例如：按章節(jié)分派，每個文檔就是一個章節(jié)的圖像文件；平均分派，每個文檔取一個固定值的圖像文件，便于均衡校對的工作量。

3.  保存 FineReader 文檔，如圖例6；
提示：建立并保存 FineReader 文檔后，下次可以打開未完成的文檔，繼續(xù)校對工作。

三、設置工作：
1.  將輸出設置為“另存為TXT”，如圖例7；
提示：個人認為無格式的TXT文檔便于后期編輯，具體喜好因人而宜。

2.  點擊“選項”圖標，設置“文檔語言”，這個很重要，如圖例8；
提示：簡體中文書籍，繁體書籍，英文書籍請按相應語言設置，也可按右側“編輯語言”，設置你要的語言，不要添加過多選項，否則將影響準確率。如圖例9。

3.  在“選項”內選“查看”標簽，設置軟件顯示待校對文字的字體，如圖例10；
提示：我選“楷體”，并不是說我喜歡這個字體，而是因為，很多生僻字在楷體字庫下顯示不出，例如“事”和“亊”，識別為“亊 ”，在宋體下能顯示，楷體不顯示，便于糾錯。

本站僅提供存儲服務，所有內容均由用戶發(fā)布，如發(fā)現有害或侵權內容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

你了解ABBYY FineReader 14么？

泰比光學識別軟件(ABBYY FineReader Corporate Edition 11) v11.0.102.519 多國語言企業(yè)版(含簡繁中文)

ABBYY FineReader12 企業(yè)綠色版

PDF文檔處理為什么會用到OCR文字識別

智能錄入、西文文檔的引領者 —— ABBYY FineReader

為您提供有效的文字識別系統，把掃描圖像轉變成任何文件格式

更多類似文章 >>

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看