国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
火車頭采集
具體參考http://www.cnki.net.ru/html/jishu/teach/20070402/37_2.html 這里發(fā)圖片麻煩

現(xiàn)在市面上一般分三種,cms內(nèi)置式,網(wǎng)絡(luò)語(yǔ)言編寫的,還有一種是基于.net框架開發(fā)的,我這是這么分的

而在功能跟性能上的比較上,.net開發(fā)的是強(qiáng)的,也是靈活性最高的

.cms內(nèi)置式的,有代表性的就是動(dòng)易,新云,ecms,dede,這種采集器本身跟cms整合的非常好,但是,由于php跟asp在性能上有一些缺陷,所以在處理大數(shù)據(jù)量的集息的時(shí)候,會(huì)顯的力不從心

而還有一種是獨(dú)立于cms的采集器,代表性的有,小蜜蜂,跟sk,這種采集器的特別是獨(dú)立于cms之外,相比cms內(nèi)置的功能要強(qiáng)一些,但是這種采集器在發(fā)布的時(shí)候,一般都是采用直接寫入數(shù)據(jù)庫(kù)的方式,一般不懂得數(shù)據(jù)庫(kù)結(jié)構(gòu)的用戶很難操作。

第三種就是用語(yǔ)言寫的,大多數(shù)接觸的都是基于.net框架的,也有用vb寫的,這種代表性強(qiáng)的就是火車頭了,這種采集器一般來說,靈活性是最好的,而且擴(kuò)展性強(qiáng),比如火車頭,就可以基于web發(fā)布,以及直接寫庫(kù),以及數(shù)據(jù)庫(kù)轉(zhuǎn)換

在采集器的選擇上,不求都會(huì),只精一種就行,個(gè)人推薦學(xué)會(huì)一種像火車頭這種采集器,能用懂,充分利用,基本上,在采集數(shù)據(jù)上是不會(huì)再有障礙了。

現(xiàn)在說一下關(guān)于使用采集器要注意的問題

首先要有一定的html基礎(chǔ),也就是能看懂起碼的html代碼,因?yàn)檫@樣有利于你分析目標(biāo)內(nèi)容的區(qū)域性。

再有就是采集回來的內(nèi)容切記不要完全拿來主義,最好是再進(jìn)行一次二次編輯或者修改,這樣有利于搜索引擎的判斷,你的內(nèi)容是否完全鏡像,也有利于,同一篇內(nèi)容的多網(wǎng)站重復(fù)利用

有很多站長(zhǎng)就說自己的垃圾站動(dòng)不動(dòng)就被k站,大多數(shù)的原因就是內(nèi)容的重復(fù)性

采集雖然在一定程序上能提高你制作網(wǎng)站的效率,但是也會(huì)增加你無用功的風(fēng)除,大量的重復(fù)copy,對(duì)你,以及對(duì)其它站長(zhǎng)都是不利于發(fā)展的。、

搜索引擎是同意copy的,但是不能完全鏡像。具體的大家可以自己思考一下,過多的同樣內(nèi)容,會(huì)占用大量的數(shù)據(jù)空間,對(duì)于搜索引擎也是如此,所以,它會(huì)使用一些手段去干掉大部份重復(fù)性的內(nèi)容

對(duì)于采集回來的內(nèi)容,有幾個(gè)小技巧說一下

首先,在頁(yè)面內(nèi)容的組織上,比如title description keywords進(jìn)行適當(dāng)?shù)男薷?

在主內(nèi)容頁(yè)上,不要去拷貝別人的模版,而自己重新設(shè)計(jì),如果是div css的,可以把id class,改變名稱

針對(duì)某些內(nèi)容的關(guān)鍵字,利用采集器的替換功能,加上一些修飾代碼,比如

目標(biāo),有句話是 在反復(fù)多次的演練后 而在采集器的規(guī)則制作過程中,可以將演練替換成<strong>演練</strong>
一些類似的手法

個(gè)人是不推薦使用別人發(fā)布的模版的,重復(fù)的模版,重復(fù)的內(nèi)容,結(jié)果就是被k或者慘淡的收錄效果

好了,不多說了,說火車頭

對(duì)了,補(bǔ)充一下,不要為了堆積而采集

垃圾站只是一個(gè)名詞,而不是形容詞,你的站可以叫垃圾站,但不要內(nèi)容也是,如果這樣,不如干點(diǎn)別的,別浪費(fèi)時(shí)間

我按火車頭3.01來講,因?yàn)樽钚碌?.1在采集圖片上有bug

一萬篇內(nèi)容完全鏡像的數(shù)據(jù),是頂不過一千篇進(jìn)行過二次優(yōu)過的內(nèi)容的,排名,收錄,完全兩回事

我說的只是個(gè)人經(jīng)驗(yàn),不是真理

火車頭有幾個(gè)現(xiàn)在未修得的bug我說一下

不要把任務(wù)列表刪空,這樣會(huì)無法新架入站點(diǎn)以及任務(wù)

代理功能好像下載不了圖片等數(shù)據(jù),某些環(huán)境基本上無效

ok,首先點(diǎn)擊站點(diǎn)選項(xiàng),新建站點(diǎn),拿中國(guó)新聞網(wǎng)來做例子



寫個(gè)站點(diǎn)名稱,點(diǎn)保存即可,如果此站大多數(shù)頻道的模版是完全一樣的,可以先制作內(nèi)容采集規(guī)則。這樣,在本站目錄新建的任務(wù),會(huì)繼承,站點(diǎn)的內(nèi)容規(guī)則。

點(diǎn)擊中國(guó)新聞網(wǎng),右鍵,從該站新建任務(wù),出現(xiàn)任務(wù)窗口

新建任務(wù)名稱

點(diǎn)擊向?qū)砑?,我們以中?guó)新聞網(wǎng)的娛樂頻道來做例子,因?yàn)閵蕵奉l道是單頁(yè)列表,所以在單條網(wǎng)址中加入http://www.chinanews.com.cn/entertainment.shtml,點(diǎn)添加,然后點(diǎn)完成添加。

按上面圖的例子發(fā)布

如果列表頁(yè)是多頁(yè)網(wǎng)址,

進(jìn)行編寫

為了確定列表的正確性,要對(duì)

打開http://www.chinanews.com.cn/entertainment.shtml列表源代碼

找到列表的開始代碼跟結(jié)束代碼,最好使用唯一性,也是就代碼的不重復(fù)性

點(diǎn)擊開始測(cè)試,會(huì)出現(xiàn)新窗口
效對(duì)列表的正確性,如果正確,可以進(jìn)行內(nèi)容規(guī)則編寫

選取任意一條內(nèi)容頁(yè)地址,右鍵,將該頁(yè)轉(zhuǎn)到規(guī)則測(cè)試

在ie中也打開這個(gè)頁(yè)的地址

先進(jìn)行標(biāo)題規(guī)則的定義

在標(biāo)題的定義上有個(gè)小技巧,就是一般來說<title></title>之間都是標(biāo)題

如果有類似<title>蔡依林新戀情曝光-xxxx娛樂網(wǎng) </title>

將標(biāo)題的結(jié)束代碼設(shè)置為-即可,這點(diǎn),火車頭在代碼的處理上是非常好的

內(nèi)容規(guī)則直接找到開始,結(jié)束代碼即可,允許不唯一性

有個(gè)問題要交待一 當(dāng)前位置:織夢(mèng)者>>DEDE技術(shù)應(yīng)用>>基礎(chǔ)教程>>文章內(nèi)容

火車頭采集教程
來源: 作者: 發(fā)布時(shí)間:2007-04-02


如果網(wǎng)頁(yè)代碼中有 <!--Yc94EUEtAn4YSUKCaSOM -->類似的代碼,一定要在內(nèi)容標(biāo)簽中道先排除,否則會(huì)影響采集效果

內(nèi)容中的排除標(biāo)簽功能很弱,個(gè)人建議手動(dòng)加入排除代碼,經(jīng)如


<table(*)>會(huì)排除一切以table開始,>結(jié)整的代碼

其它的以此類推

如果你要下載內(nèi)容頁(yè)的圖片以及flash,切記要點(diǎn)選


自動(dòng)改為隨機(jī)文件名,任意

事實(shí)上火車頭在規(guī)則制作上是非常簡(jiǎn)單的,唯一要注意的就是分頁(yè)

全部列出指的是1 2 3 4 5 6此類的頁(yè)碼

而上下面,也就是說,內(nèi)容頁(yè)上有上一頁(yè),下一頁(yè)這種

不好意思,中新網(wǎng)的新聞內(nèi)容分頁(yè)的太少,等我找個(gè)帶內(nèi)容分頁(yè)的

ok,http://www.autohome.com.cn/news/200703/18937.html 汽車之家的

我們來看一下這頁(yè)的分頁(yè)代碼

<p align=right><a href=18937-2.html>>>下一頁(yè)</a></p><p align=center>[第1頁(yè)]<a href=18937-2.html>[第2頁(yè)]</a> <a href=18937-2.html>[下一頁(yè)]</a></p>

因?yàn)槭腔旌系?,我們用全部列出模?

開始代碼

<p align=right>
結(jié)束代碼html>[下一頁(yè)]</a></p>
或者[下一頁(yè)]</a></p>

有些內(nèi)容分頁(yè)在采集的時(shí)候,用[下一頁(yè)]</a></p>,會(huì)形成內(nèi)容頁(yè)的重復(fù)采集,所以要采用html>[下一頁(yè)]</a></p>,破壞掉其鏈接,這樣火車頭在分析分頁(yè)的時(shí)候,就會(huì)忽略這個(gè)a鏈接



回車連接上下面,指的是采集的內(nèi)容頁(yè)為整頁(yè),無分頁(yè)

自定義的功能為可以設(shè)置導(dǎo)入的目標(biāo)cms的分頁(yè)標(biāo)識(shí)

比如某些cms的分頁(yè)是<-next page->這樣就可以這樣設(shè)置
這樣采集出來的內(nèi)容頁(yè)會(huì)自動(dòng)加上分頁(yè)標(biāo)簽


這個(gè)主要是針對(duì)論壇類的采集,選擇內(nèi)容標(biāo)簽循環(huán)匹配,可以采集到論壇的回貼,當(dāng)然,所有的內(nèi)容信息是在一頁(yè)的

基本上規(guī)則的制作就是這些,然后就是數(shù)據(jù)發(fā)布

數(shù)據(jù)發(fā)布一般來說推薦web在線發(fā)布,這個(gè)一般用到全部發(fā)布的比較多

具本的登陸模塊可以去火車頭的論壇下載

有些下載的模塊登陸不了,可以使用火車頭的內(nèi)置瀏覽器進(jìn)行登陸后抓取cookie的模式,效果是一樣的

對(duì)于要采集圖片 flash等內(nèi)容還要補(bǔ)充一點(diǎn)的就是


右鍵單擊任務(wù),選擇任務(wù)高級(jí)設(shè)置


這里主要講一下


這個(gè)是圖片發(fā)到cms后,圖片的鏈接地址,一般最好寫絕對(duì)地址

比如發(fā)布的目標(biāo)站的地址是http://www.xxx.com/upimg/xxx.jpg

其中upimg是在 圖片相對(duì)保存文件夾中設(shè)置的

而http://www.xxx.com/upimg/要設(shè)置在
記得以/結(jié)束,有些人采集回來的圖片顯示不正常,就是因?yàn)檫@里沒有設(shè)置造成的

在高級(jí)里還有一個(gè)自動(dòng)更新,運(yùn)用這個(gè)功能,加上一些可以自己定時(shí)刷新列表,發(fā)布同時(shí)生成靜態(tài)頁(yè)的cms,可以做出完全自動(dòng)化更新的網(wǎng)站

這個(gè)就需要自己研究了

沒了,發(fā)完,收工

另外,需要編寫采集規(guī)則的,可以發(fā)目標(biāo)站至我的信箱,dq1981@gmail.com
最好符上采集器一份,有的采集器我沒有備份
 
 
當(dāng)然在你采集前,有幾個(gè)建議:     1.別人經(jīng)常采的網(wǎng)站不要去采     2.太容易采的網(wǎng)站不要去采     3.不要一次采集太多,一定要注意后期處理     4.做好關(guān)鍵詞,tag的采集分析     5.己網(wǎng)站要有己的定位,不采與己網(wǎng)站無關(guān)的內(nèi)容     6.采集也要有持續(xù),經(jīng)常更新,動(dòng)采集功能我們也有,但還是建議大家人工也參與一些審核,或定時(shí),亂序發(fā)布     后期處理方面     1.給標(biāo)題。
內(nèi)容分詞     2.使用同義詞近義詞替換,排除敏感詞,不同的標(biāo)簽之間數(shù)據(jù)融合,指如標(biāo)題內(nèi)容之間數(shù)據(jù)的相互替換     3.給文章加上摘要     4.為文章標(biāo)題等生成拼音地址     5.采集一些其他編的網(wǎng)站,我們可以做到簡(jiǎn)繁體轉(zhuǎn)化,可以采集中文網(wǎng)站翻譯成英文(雖然比較垃圾,但應(yīng)該可以算是原創(chuàng))     我們也發(fā)現(xiàn),高難度采集的網(wǎng)站一般內(nèi)容質(zhì)量都非常好,采集其實(shí)有時(shí)也是一件很有樂趣的事情,需要你學(xué)習(xí)一些采集相關(guān)的知識(shí)。
動(dòng)采集搜索軟件主要是指:數(shù)據(jù)采集、轉(zhuǎn)移、處理及索引優(yōu)化。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
新手必看的火車頭采集器使用入門教程
織夢(mèng)CMS如何做分頁(yè)的采集
SEO站長(zhǎng)如何批量采集文章?火車頭采集器操作教程
如何讓網(wǎng)站防采集?
帝國(guó)CMS tagsid偽靜態(tài)實(shí)現(xiàn)方法(簡(jiǎn)單實(shí)用)
帝國(guó)cms采集實(shí)例教程(3)
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服