在我們?nèi)粘5膶W(xué)習(xí)中常遇到pdf,caj等文件需要提取其中的文字。當(dāng)然這兩種格式文件的閱覽器都具備識別功能,但是缺點是,不是所有的都能識別,或者排版格式很亂。當(dāng)遇到這種情況時,不妨試試以下方法: 其實office是自帶文字識別系統(tǒng)的,只是我們都沒有留意到。首先說說他的優(yōu)點:識別率高;基本不破壞原有排版格式;對所有的圖片格式都適用; 下面說說具體使用步驟: 第一步:安裝,在安裝office時必須選擇其中一個叫“Microsoft Office Document Imaging”的組件。如果是第一次安裝,直接跳到第二步。如果已經(jīng)安裝了office2003,那么只要再次運行安裝程序,會出現(xiàn)如下界面(圖1),默認(rèn)選擇“添加或刪除功能”點擊下一步。 ![]() 第二步:在出現(xiàn)的窗口中在“選擇應(yīng)用程序的高級自定義”前打勾,如圖2。點擊下一步。 ![]() 第三步:找到Office工具下的“Microsoft Office Document Imaging”如圖3,鼠標(biāo)左鍵點擊圖中箭頭所指處。選擇“從本機運行”然后點擊“更新”就安裝完畢了。 ![]() 第四步:使用,首先對需要識別的文件打印(是虛擬打?。?,如caj,pdf可在其閱覽器中選擇打印。而對于圖片,可以把它插入到word中再選擇打印。這里要注意,打印時選擇的打印機應(yīng)該是虛擬打印機。如圖4(以pdf文件打印為例),在箭頭所指的下拉菜單中選擇“Microsoft Office Document Imaging Writer”即可。然后打印很快就可以自動生成一個MDI格式的文檔。 ![]() 第五步:打印后會自動打開這個mdi文件,如圖5。選擇圖中箭頭所指的按鈕(前面那個),進(jìn)行OCR文字識別。等待識別完成后(識別時間視文件大小而定),然后再選擇箭頭所指(后面那個)即可將所識別的文本發(fā)送到word中去。 ![]() 第六步:只需要經(jīng)過簡單的排版即可使用所需的文字了。 |