做個(gè)網(wǎng)摘的高手 2006年網(wǎng)頁(yè)資料我都要
http://www.sina.com.cn 2006年02月22日 07:52 中關(guān)村在線
作者:王凱 陽(yáng)光2005
上網(wǎng)瀏覽網(wǎng)頁(yè),保存資料成了不少網(wǎng)蟲(chóng)每天的必修課。有的時(shí)候會(huì)遇到各種棘手問(wèn)題,如網(wǎng)頁(yè)不允許“另存為”,復(fù)制的文本粘貼時(shí)會(huì)出現(xiàn)多余字符等等。這些問(wèn)題可能困擾著不少朋友,于是乎小編安排了這樣一篇文章,希望能夠起到拋磚引玉的作用。OK,準(zhǔn)備好了么,Let‘s GO。
一、去偽存真留文本
在一些優(yōu)秀的論壇或網(wǎng)頁(yè)中看到自己很感興趣的內(nèi)容,當(dāng)然要保存下來(lái)。但是有些論壇由于版權(quán)等原因,為了防止網(wǎng)友隨意復(fù)制,會(huì)做一些手腳。比如“http://nettu.net/cgi-bin/topic.cgi?forum=6&topic=542&show=0”,看起來(lái)沒(méi)什么,但如果選中其中的文字,就會(huì)發(fā)現(xiàn)原來(lái)里面隱藏著與背景顏色同色的無(wú)用字符(如圖1)/如果我們想復(fù)制其中的代碼或帖子內(nèi)容,會(huì)將許多無(wú)用的東西一起復(fù)制過(guò)來(lái)。如何解決這個(gè)問(wèn)題?
去偽存真留文本
1.如此輕松——原來(lái)注冊(cè)就可以
很多論壇和站點(diǎn)都和本例相似,對(duì)沒(méi)有注冊(cè)的用戶萬(wàn)般刁難。只要注冊(cè)后登陸,一切煩惱一掃而光!如果注冊(cè)了仍然不行,請(qǐng)繼續(xù)看下文。
2.復(fù)雜內(nèi)容——找工具來(lái)幫忙
如果要復(fù)制的內(nèi)容較多,而且其中有很多空行,上面的方法就顯得捉肘見(jiàn)襟了??梢試L試使用下面的方法:
(1)Word處理很輕松
首先將你需要的內(nèi)容全部復(fù)制下來(lái),當(dāng)然擺脫不了其中的無(wú)用字符了。打開(kāi)Word,將復(fù)制的內(nèi)容粘貼。選擇“編輯→替換”命令,在替換對(duì)話框中,點(diǎn)“高級(jí)”按鈕,然后在“格式”中選擇“字體”(如圖2),在“字體顏色”中選擇網(wǎng)頁(yè)背景顏色(本例中是白色)(如圖3),點(diǎn)“確定”。在“搜索范圍”中選“全部”,然后再點(diǎn)“全部替換”按鈕。關(guān)閉替換對(duì)話框,無(wú)用的字符是不是已經(jīng)沒(méi)有了!
Word處理很輕松
調(diào)節(jié)顏色
(2)文字識(shí)別也拿手
如果系統(tǒng)中沒(méi)有安裝Word,僅僅為了簡(jiǎn)單的復(fù)制去弄個(gè)Office,未免有些興師動(dòng)眾。其實(shí)我們還可以通過(guò)迂回戰(zhàn)術(shù)把它復(fù)制下來(lái)。這里我們需要另一個(gè)小工具——Mini Ocr漢字顯示字體識(shí)別軟件。
小提示
《文萃》6期雜志《“迷你”O(jiān)CR幫你找出PDF中的漢字》一文介紹了Mini Ocr的使用方法,另外6期光盤(pán)中已經(jīng)收錄該軟件。
首先把需要的內(nèi)容捕捉下來(lái),如果文章很短,則鍵盤(pán)上的PrintScreen鍵就完全可以勝任了。如果文章較長(zhǎng),可以用PrintScreen鍵分多次捕捉,或使用HyperSnap-DX等專業(yè)截圖軟件進(jìn)行截取。
接著要對(duì)捕捉的圖片進(jìn)行簡(jiǎn)單的處理。我們只需要保留文章內(nèi)容,其它的所有無(wú)用信息都可以切走,然后將這幅圖保存,圖像格式可以是BMP、GIF或者JPG。
運(yùn)行Mini Ocr,點(diǎn)“打開(kāi)圖像文件”,選擇剛才處理過(guò)的圖像;接著點(diǎn)“文字識(shí)別”,軟件自動(dòng)開(kāi)始識(shí)別。根據(jù)文本內(nèi)容的多少,識(shí)別的時(shí)間也不盡相同。識(shí)別完成之后,會(huì)彈出“耗時(shí)XXX秒”的對(duì)話框。點(diǎn)“確定”,我們需要的東西就在眼前,趕緊點(diǎn)擊“保存結(jié)果”把它保存下來(lái)吧!
經(jīng)過(guò)以上幾個(gè)簡(jiǎn)單步驟就得到了我們需要的資料,是不是很爽?
二、搞定頑固網(wǎng)頁(yè)
有的時(shí)候,對(duì)欲保存的網(wǎng)頁(yè)點(diǎn)擊“文件→另存為”,會(huì)出現(xiàn)“此網(wǎng)頁(yè)無(wú)法保存”的錯(cuò)誤提示;或打算選中文章內(nèi)容復(fù)制后粘貼到其它文字處理軟件中(如Word、WPS等),又選不中網(wǎng)頁(yè)中的文章內(nèi)容。怎么搞定這類網(wǎng)頁(yè)呢?點(diǎn)擊“查看→源文件”命令,這時(shí)打開(kāi)一個(gè)文本文件,再點(diǎn)擊它的“文件→另存為”命令即可將此網(wǎng)頁(yè)保存。
小提示
在另存為對(duì)話框中,將“保存類型”設(shè)置為“所有文件”,將文件名改為***.html的形式。另外此方法無(wú)法保存網(wǎng)頁(yè)中的圖片等其他元素。
三、文字復(fù)制加速度
很多時(shí)候我們將網(wǎng)頁(yè)中的文本復(fù)制到Word中進(jìn)行簡(jiǎn)單的編輯與排版操作,但在實(shí)際復(fù)制過(guò)程時(shí)往往會(huì)將網(wǎng)頁(yè)中的一些如圖片、表格和各種小圖標(biāo)等一起復(fù)制到Word中,這些無(wú)關(guān)緊要的東西手工刪除起來(lái)非常麻煩,這里給大家推薦快速?gòu)?fù)制網(wǎng)頁(yè)文本的三種方法。
方法一:打開(kāi)記事本,將復(fù)制的網(wǎng)頁(yè)內(nèi)容粘貼到記事本中,然后再將記事本中的文本復(fù)制到Word中,即用記事本作為一個(gè)“中轉(zhuǎn)站”,這樣可以避開(kāi)圖片、表格和各種小圖標(biāo)等的復(fù)制,提高復(fù)制速度和質(zhì)量。
方法二:先將網(wǎng)頁(yè)內(nèi)容復(fù)制下來(lái),打開(kāi)Word,暫時(shí)不進(jìn)行粘貼操作,在Word菜單欄中選擇“編輯→選擇性粘貼”,在打開(kāi)的“選擇性粘貼”對(duì)話框中選中“無(wú)格式文本”,這樣即可自動(dòng)剔除網(wǎng)頁(yè)中的無(wú)關(guān)圖片、表格和各種小圖標(biāo)了(如圖4)。
文字復(fù)制加速度
方法三:將復(fù)制的網(wǎng)頁(yè)內(nèi)容粘貼到Word中,接下來(lái)單擊所粘貼網(wǎng)頁(yè)右下方的“粘貼選項(xiàng)”工具按鈕,在其下拉菜單中選擇“僅保留文本”選項(xiàng)即可,這樣原粘貼網(wǎng)頁(yè)中的無(wú)關(guān)圖片、表格和各種小圖標(biāo)等會(huì)自動(dòng)消失。
小提示
如果用戶在Word的文檔編輯區(qū)沒(méi)有找到那個(gè)“粘貼選項(xiàng)”工具按鈕,則可以在Word菜單欄中選擇“工具→自動(dòng)更正選項(xiàng)”,然后將彈出的對(duì)話框切換到“智能標(biāo)記”選項(xiàng)卡,選中“顯示智能標(biāo)記操作按鈕”即可(如圖5)。
轉(zhuǎn)換