国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
開發(fā)一款開源爬蟲框架系列(五):爬蟲架構(gòu)的一些新思路

   爬蟲開源項(xiàng)目地址:http://git.oschina.net/coliza/MongooCrawler

以前的思路是由客戶端完成所有的下載網(wǎng)頁,解析等功能,服務(wù)器端負(fù)責(zé)從內(nèi)存隊(duì)列中拿到數(shù)據(jù)并將獲取的對象輸出存儲層。現(xiàn)在發(fā)現(xiàn)一個(gè)很麻煩的問題,不同的網(wǎng)站需要定制不同的抓取策略,如果部署爬蟲集群,那么假如我

要修改解析策略或存儲策略,客戶端或者服務(wù)器只能重寫、編譯、部署,而且服務(wù)端負(fù)責(zé)存儲壓力大很容易造成性能瓶頸。

解決方法就是,客戶端一樣負(fù)責(zé)抓取和分析功能,不一樣的是這個(gè)定義解析策略的對象通過RPC調(diào)用服務(wù)端的接獲取,這樣修改策略就不需要再動客戶端。客戶端同時(shí)負(fù)責(zé)調(diào)用數(shù)據(jù)層的接口存儲數(shù)據(jù),只不過負(fù)責(zé)存儲的對象同

樣通過RPC調(diào)用服務(wù)端的接口獲取。


近期一直在寫爬蟲,看了很多別人設(shè)計(jì)的爬蟲架構(gòu)后,我大概梳理了一下主要的功能模塊,其一是抓取主體,一般是多個(gè)內(nèi)存隊(duì)列存儲url,不同的爬蟲節(jié)點(diǎn)從隊(duì)列中獲取url進(jìn)行爬??;其二是公共庫,存儲一些抓取需要用的賬號和代理ip;其三是監(jiān)控報(bào)警;其四是抓取規(guī)則配置。


本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
Python爬蟲從入門到放棄(二十)之 Scrapy分布式原理
OpenStack架構(gòu)預(yù)覽
Github限時(shí)開源!Alibaba最新版億級高并發(fā)系統(tǒng)架構(gòu)(全彩小冊)
構(gòu)建高可擴(kuò)Web架構(gòu)和分布式系統(tǒng)實(shí)戰(zhàn)(下)
UCMQ首頁、文檔和下載
融云首席架構(gòu)師李淼:直播互動系統(tǒng)的設(shè)計(jì)與實(shí)踐
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服