国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
譯言網(wǎng) | OCR給力基礎(chǔ)指南:把文字從圖像中狠狠地抓出來

    譯言的朋友可能時(shí)不時(shí)會(huì)遇到翻譯的文字深陷圖像的情況,此時(shí)要么打字輸入要么抓抓頭皮,但文字還在圖像里。是的,無論單張的圖片還是整本的書籍,抓取文字往往還是比逐字輸入便利一些。所以,我就把自己的一點(diǎn)經(jīng)驗(yàn)分享。

文字,把它從圖像里抓取出來,這就是通俗所說的OCR。當(dāng)然從譯言的專業(yè)角度看,所謂OCR具體是Optical Character Recognition,即光學(xué)字符識(shí)別。網(wǎng)路上,一般涉及OCR的情況是把掃描版的PDF轉(zhuǎn)化為文字版,特別因?yàn)槲覀兛梢哉f已經(jīng)是一個(gè)電子書大國(guó),而手機(jī)txt閱讀也是需求巨大。文字版的確好處不少,便于傳播與引用,視覺清晰而可轉(zhuǎn)換,乃至具有二次制作的空間——至少文字版轉(zhuǎn)化成圖像是輕而易舉的事。不過,OCR的文字識(shí)別率一般不會(huì)是100%,需要作進(jìn)一步校對(duì)。

實(shí)際上,你對(duì)照?qǐng)D像輸入文字已經(jīng)就是人工目光OCR了。OCR的軟件很多,但根據(jù)自己的經(jīng)驗(yàn),給力的也就那么兩三個(gè)。

 

首先說單頁(yè)圖像OCR

單頁(yè)圖像的文字抓取我強(qiáng)烈推薦JOCR。JOCRJ是根據(jù)程序開發(fā)者J?rg Schulenburg命名,參見喂雞百顆條目——由喂雞也可見該程序在業(yè)界的地位。JOCR的優(yōu)點(diǎn)是免費(fèi)、綠色、輕量。免費(fèi)不解釋,綠色就是不需要安裝,而體積則小到幾乎不可思議的不足100kb。然后不可想象的是,這么小的軟件其識(shí)別率還非常高,而且可以抓取20多種語(yǔ)言,包括中文繁體,夫復(fù)何求。

下載:JOCR原版、漢化版、使用說明、MODI及“繁體中文識(shí)別”文件

JOCR,網(wǎng)路上已經(jīng)有善良網(wǎng)友制作漢化版。其實(shí)不必,它常用的功能很簡(jiǎn)單。一般就是:第一步“Capture Region(選取需要OCR的區(qū)域)”,然后在語(yǔ)言框選擇語(yǔ)言,最后“Recognize(識(shí)別)”,于是就為你蹦出一個(gè)txt文本,接下去你還可以就著這文本進(jìn)行校對(duì)。

注意:

1、你要成功使用JOCR,首先得確保安裝了MODI,因?yàn)?/span>JOCR是依托于它而運(yùn)轉(zhuǎn)的。MODI神馬東東,Microsoft Office Document Imaging是也。網(wǎng)絡(luò)上,有時(shí)把它稱為“微軟中文(簡(jiǎn)體)OCR識(shí)別引擎”,雖然偏頗但很給力。不過,好像它的確只能ocr中英文,包括繁體。MODI官方版微軟有下載。

軟件掛名微軟office,那自然就好說了。如果安裝office的時(shí)候選擇了“完整”安裝選項(xiàng),恭喜你你擁有它了。如果你沒有完整安裝office,那就再來一遍,或者單獨(dú)安裝MODI也行。好像office2010已經(jīng)終止了它,所以更得叫你自己另外安裝。

2、如果你需要抓取繁體,而使用的是簡(jiǎn)體windows系統(tǒng),那么請(qǐng)將下列“繁體中文識(shí)別”文件復(fù)制到C:\Program Files\Common Files\Microsoft Shared\MODI\11.0

          TCCODE.UNI

            TCPRINT.DAT

            TCPRINT2.DAT

            TCSERHT.DAT

            TCTREE.DAT

            TW_BU.DAT

            TW_UB.DAT

            TWBIG532.DLL

然后雙擊reg文件導(dǎo)入注冊(cè)表,ok。注意中的注意,導(dǎo)入注冊(cè)表時(shí)必須先關(guān)閉所有MODI窗口,真是媽的modi。

這時(shí),在MODIOCR選項(xiàng)卡里,“OCR語(yǔ)言”中即可看到“中文(繁體)”,也就是說依托MODI運(yùn)作的OCR軟件也具有了繁體識(shí)別功能。

或許你要問,JOCR的使用(特別是繁體)不免麻煩了一點(diǎn)點(diǎn)。我的回答是,推薦JOCR正是因?yàn)樗玫?/span>MODI及其繁體識(shí)別功能。一般的OCR軟件往往對(duì)繁體睜眼瞎,或者效果輕度強(qiáng)奸人意,而MODI在對(duì)你說我爸是微軟。MODI抓取的效果那是比較的理想,不管你信不信,反正我是這么認(rèn)為了,而且原文豎排也同樣可行。你爸你爺爺不是說磨刀不誤砍柴工,而且微軟所產(chǎn)木有兼容啥的事多省心。同時(shí),MODI比起來也是輕量體積,才5M多一點(diǎn)點(diǎn)。

最后說整本批量OCR

一本PDF格式的書籍會(huì)有很多頁(yè),自然要用批量才行。

一般認(rèn)為最強(qiáng)大的專業(yè)OCR軟件是ABBYY Fine Reader(下載),號(hào)稱“世界排名第一的OCR文字識(shí)別工具”是也。ABBYY Fine Reader不依托MODI運(yùn)作,不免費(fèi)體積龐大。一個(gè)好狀況是,慈悲的網(wǎng)友已經(jīng)制作了中文綠色版,見“最好的OCR識(shí)別軟件:ABBYY Fine Reader中文綠色版”。

我自己比較ABBYY Fine ReaderMODI的效果,親自覺得MODI略勝一籌(主要是在文字識(shí)別率上),或者各有勝出,至少難分上下。MODI抓取的結(jié)果只是文字,沒有字體版式啥的。ABBYY Fine Reader有還原版面的追求,所以可能反而把問題復(fù)雜化。

總之,你還是信我一回。

MODI的一般使用方法是:在打開的PDF文檔“文件”—“打印”—“名稱”中選擇“Microsoft office document imaging writer,打印你需要的(所有)頁(yè)面。注意,這個(gè)乃至后邊生成的文件地址最好在桌面一類,不然找起來費(fèi)神。于是,它生成一個(gè)后綴名為mdi的文件。你打開這個(gè)mdi文件,在“工具”中選擇“使用OCR識(shí)別文本”,然后開始可能是比較漫長(zhǎng)的識(shí)別過程。電腦不給力的話,一本數(shù)百頁(yè)的書可能漫長(zhǎng)到一覺醒來。識(shí)別結(jié)束后,你再在“工具”中選擇“將文本發(fā)送到Word,然后它為你生成一個(gè)后綴名為htm的文件,里頭就有你想要的文字了。

關(guān)于OCR繁體書籍,先確保已經(jīng)走過上邊“繁體中文識(shí)別”的步驟。這時(shí),你打開mdi文件,在“工具”—“選項(xiàng)”—“OCR”中就能看到“中文(繁體)”選項(xiàng),需要時(shí)選中即可。

附說

悲催的是,我們抓取掃描版PDF版文字,常常還要制成PDF。

這里還說說自己的一點(diǎn)經(jīng)驗(yàn)。對(duì)于word轉(zhuǎn)PDF,一般都采用PDF打印軟件,就是在word打印”中選擇相應(yīng)的打印機(jī)直接就打印成PDF,如下圖。我用過Word to PDF Converter,效果很不錯(cuò),但是它不免費(fèi),而且上次碰到一個(gè)字的字體嵌入錯(cuò)誤(悲催的是這個(gè)字好像沒法改變字體而這里譯言也沒法輸入,字)。Word to PDF Converter安裝后會(huì)在word工具欄生成圖標(biāo),見下圖。PDF Factory Pro的功能和效果也不錯(cuò)(但是對(duì)DFKai-SB字體不支持,那可是我的大愛)。Tiny PDF這種在視覺效果上又輕度那啥了。

下載:Word to PDF Converter v3.0及其破解與配套驅(qū)動(dòng),pdfFactory Pro 4.10 簡(jiǎn)體注冊(cè)中文版及其破解。破解版殺軟可能報(bào)毒,需要從殺軟中排除。

如果你使用的是word2010,恭喜你,它已經(jīng)能夠直接另存為PDF。Word2007弄個(gè)加載項(xiàng)Save As PDF and XPS也可以直接另存為(下載2007 Microsoft Office Save As PDF and XPS加載項(xiàng))。

另外,具體的使用過程中你可能還會(huì)遇到別的神馬問題。比如在word幫助”—“關(guān)于Microsoft Office Word”—禁用項(xiàng)目”中發(fā)現(xiàn)Word to PDF Converter被禁用了。

真的是最后,譯言很多朋友會(huì)遇到在圖片上翻譯的情況,這時(shí)可以用用SnagIt (下載SnagIt 8.0.1 漢化精簡(jiǎn)免安裝版)。

不忘友情提示,譯言的朋友可能面對(duì)屏幕持久而專注,特別是幫別人找錯(cuò)的時(shí)候,所以不妨把窗口設(shè)置成蘋果綠(好像對(duì)word、txt窗口效果不錯(cuò))。具體顏色如上邊圖片所示,據(jù)說對(duì)眼睛最好。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
在簡(jiǎn)體中文Office 2003下OCR繁體中文、日文、韓文
用Pdg2Pic、TextForever實(shí)現(xiàn)批量OCR
用MODI OCR 21種語(yǔ)言
如何在微軟Office Document Imaging中添加日文OCR ?
【已解決】請(qǐng)問用什么方法單獨(dú)安裝MODI(不重新安裝office2003),來調(diào)用MODI的OCR引擎的啊?
將掃描的文字圖片中的文字轉(zhuǎn)換為word文檔和文本文檔
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服