(轉(zhuǎn)載)中國期刊網(wǎng)上的caj文件到txt文本文件的轉(zhuǎn)換相信很多人都很關(guān)心。
有些caj文件中的文本內(nèi)容可以直接Copy & Paste出來,
但是對付有些處理成圖形格式的文本內(nèi)容就不靈了。
實(shí)踐證明,下面這種Caj 轉(zhuǎn) txt的辦法是極其成功的。
原理很簡單,實(shí)現(xiàn)起來也不復(fù)雜:
1. 利用PDFwriter把caj文件打印成PDF文件。
2. 在Acrobat 4.0/5.0 里把PDF文件轉(zhuǎn)成圖形。
3. 利用OCR軟件對圖形進(jìn)行識別,得到文本。
如果各項(xiàng)參數(shù)設(shè)置得當(dāng),大部分Caj文本內(nèi)容識別正確率在97%以上。
幾點(diǎn)注意事項(xiàng):
1.打印成PDF文件時(shí)Acrobat PDFWriter的打印機(jī)屬性設(shè)置
解象度一般設(shè)為150dpi,最后識別率就可以達(dá)到95%以上了。
如果你的機(jī)器內(nèi)存大,設(shè)為300dpi也未嘗不可。
壓縮選項(xiàng)也是一樣,如果你的機(jī)器好,就不要壓縮,否則用默認(rèn)值。
2.PDF文件轉(zhuǎn)成圖形時(shí)最好轉(zhuǎn)成BMP格式。
Acrobat 5.0好像可以直接轉(zhuǎn),Acrobat 4.0 full好像要裝一個(gè)插件。
3.OCR軟件可以用"尚書六號"或者"清華TH-OCR2000千僖專業(yè)版"
每個(gè)人喜好不同,不能強(qiáng)求,不過用下來感覺識別率差不多。
至于如何使用這些OCR軟件,就不用多說了。
相關(guān)軟件下載:
1.Acrobat 4.0 中文完全版 (70M左右)
ftp://ftp.sjtu.edu.cn/private/outcoming/Pub/_Sort.By.Company/Adobe/
Adobe.acrobat4full(Chinese)/Acrobat4Chinese1.zip or
ftp://202.120.25.19/Tools/Reader/PDFreader/Acrobat4Chinese.zip or
ftp://202.120.6.34/pub/Electric_Book/viewer/Adobe.acrobat4full(Chinese)/
Acrobat4Chinese1.zip
2.Acrobat 4.0 插件 1M左右(PDF 2 RTF,HTM,包括了bmp,jpg了。)
ftp://ftp.sjtu.edu.cn/private/outcoming/Pub/Edit&Read/Adobe.Acrobat.pdf/
PDF文件格式轉(zhuǎn)換工具/GEMINI.FOR.ADOBE.ACROBAT3.02Cr/GEMINI3.EXE
ftp://202.120.25.19/Tools/Reader/PDFreader/Plus/scogm302.zip
3.PDFWriter
ftp://ftp.sjtu.edu.cn/private/outcoming/Pub/Edit&Read/Adobe.Acrobat.pdf/PD
F%D6%C6%D7%F7%B9%A4%BE%DF/PDFWriterForNT/PWNT303E.EXE
ftp://202.120.25.19/Tools/Reader/PDFreader/Plus/PWNT303E.EXE
ftp://202.120.6.34/Incoming/Tools/PDFWriter/PWNT303E.EXE
Serial Number : WCW100R3101909-171
4. 尚書六號. 清華TH-OCR2000千僖專業(yè)版
ftp://ftp.sjtu.edu.cn/private/outcoming/Pub/Chinese/OCR/
ftp://202.120.25.19/Tools/OCR/
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點(diǎn)擊舉報(bào)。