作者:朱錚南 (發(fā)表在《軟件報》2009年33期)
一、怎樣從多頁的PDF文檔里抽取若干頁成為JPG格式圖片
最方便的要數(shù)使用Adobe Acrobat,點擊Adobe Acrobat里的“導出”工具按鈕,并選擇“JPG”,PDF文檔的所有頁面就自動轉換成一個個JPG格式文件。
如果你有Photoshop軟件,可以這樣操作,在Photoshop里打開PDF文檔,Photoshop會讓你選擇打開那個頁面,選定頁面后打開,再另存為JPG格式圖片文件。這個方法的缺點是一次只能抽取一頁,需要重復操作,效率比較低。
二、怎樣將PDF文檔轉換成Word文檔
在adobe acrobat里將要轉換的PDF文檔打開,操作菜單“文件”→“另存為”,將保存類型選為“Microsoft word”就能轉換成Word文檔?;蛘唿c擊Adobe Acrobat里的“導出”工具按鈕,導出文件類型選擇“Word”,結果是一樣的。
一款名字為e-PDF To Word Converter的軟件專門用來將PDF文檔轉換成Word文檔,網(wǎng)上有漢化特別版可供下載。
http://www.pdftoword.com/網(wǎng)站提供在線轉換服務,只需要將待轉換的PDF文檔上傳到這個網(wǎng)站,網(wǎng)站就會將載轉換成的Word文檔發(fā)到你的電子信箱里。
特別要說明的是,如果是通過掃描紙質(zhì)文件生成的PDF文檔,轉換成Word文檔以后得到的每一頁都是插在Word文檔里的圖片,無法進行編輯。即便是由Word等其它可以編輯的電子文檔生成的PDF文檔,轉換成Word文檔以后,文字也是分布在一個個圖文框里,如果版面稍復雜一些,文字還有可能重疊在一起,重新編輯的工作量還很大。
三、怎樣從PDF文檔里導出文字
假如PDF文檔是由Word等其它可以編輯的電子文檔生成的,用adobe reader或adobe acrobat的“選擇工具”選中文字后按“Ctrl”+“C”鍵,就可以將文字復制到剪貼板里,隨便你粘貼到那里。adobe reader在安裝后的默認狀態(tài)下,“選擇工具”是看不見的,需要操作菜單“工具”→“自定義工具欄”,在“選擇工具”前打上鉤,將它顯現(xiàn)出來。
若要將整篇PDF文檔的文字都導出來,在adobe reader里只要操作菜單“文件”→“另存為文本”,導出的文字就存到了一個文本文件里了。在adobe acrobat里則是操作菜單“文件”→“另存為”,保存類型選擇“純文本”,或者點擊“導出”工具按鈕,導出文件類型選擇“更多格式”→“純文本”。
四、使用OCR文本識別技術導出文字
如果PDF文檔是通過掃描紙質(zhì)文件生成的,就不能夠用上述簡單的方法導出文字了,但也可以借助OCR文本識別技術來導出文字。
在adobe acrobat里可以操作菜單“文檔”→“OCR文本識別”→“使用OCR識別文本”,經(jīng)過識別以后,就可以用“選擇工具”選中文字進行復制了。
adobe reader沒有自帶OCR文本識別功能,但可以這樣操作,操作菜單“文件”→“打印”,打印機名稱選擇“Microsoft Office Document Image Writer”,這是一個隨Microsoft Office 2003一起安裝到計算機里的虛擬打印機,它將PDF文檔打印到后綴為“mdi”的文件里,并自動打開,在打開的“mdi”文件里依次操作菜單“工具”→“使用OCR識別文本”和“工具”→“將文本發(fā)送到word”就可以將文字導出到一個Word文檔里。
OCR文本識別技術的識別率取決于創(chuàng)建PDF文檔時的掃描精度,那些字跡模糊不清的文檔,能夠正確識別出的文字也不會太多。
五、怎樣復制出PDF文檔里的插圖
用adobe reader或adobe acrobat打開PDF以后用“選擇工具”選中插圖后按“Ctrl”+“C”鍵,就可以將插圖復制到剪貼板里。在adobe acrobat里操作菜單“高級”→“文檔處理”→“導出所有圖像”,就能夠一次將文檔里的所有圖片全部導出成一個個圖像文件。
六、怎樣復制PDF文擋里的表格
用adobe acrobat打開PDF以后用“選擇工具”選中PDF文擋里的表格,右擊鼠標,在彈出的菜單里點選“復制為表”,在Excel里操作菜單“選擇性粘貼”,在對話框里選擇“csv”后點擊“確定”,PDF文擋里的表格就復制到Excel里了。也可以選中PDF文擋里的表格,右擊鼠標,在彈出的菜單里點選“在Excel里打開”,表格就自動變成了Excel表。
如果需要將表格粘貼到Word文擋,應當采用“選擇性粘貼”以“無格式文本”進行粘貼,粘貼之后選中這些數(shù)據(jù),再操作菜單“表格”→“轉換”→“文本轉換表格”。
如果PDF文檔是通過掃描紙質(zhì)文件生成的,就不能復制成表格,只可以將表格復制成圖片。
以上將PDF文檔轉換成Word文檔以及從PDF文檔里導出文字或圖像的方法,取決于該文檔沒有加密對文檔進行限制,如果文檔已經(jīng)加密進行了限制,只有在解密了以后才有可能進行。
七、怎樣去除word等軟件里的Adobe Acrobat菜單欄
安裝了Adobe Acrobat以后,在Word、Excel、AutoCAD軟件的菜單里會多出幾個Adobe Acrobat的菜單欄,其實這是Adobe Acrobat和這些應用軟件的無縫結合,利用這些菜單可以方便地將這些應用軟件創(chuàng)建的文檔轉換成PDF格式的文檔,并能對轉換的有關參數(shù)進行控制和調(diào)整。但是由于這些菜單占據(jù)了位置,不少使用者希望將它們?nèi)コ?br> 去除的方法很簡單,在“控制面板”里進入“添加和刪除程序”,找到 Adobe Acrobat后點擊“更改”,在“程序維護”對話框里選“修改”,到下一步的“自定義安裝”里將Office、AutoCAD去掉即可。
安裝Adobe Acrobat的時候如果選擇“自定義安裝”,就可以在安裝過程里提前將Office、AutoCAD等剔除,就不會在Word、Excel、AutoCAD等軟件里添加Adobe Acrobat菜單欄了。