杨幂小视频,动漫美女遭强视频,免费看美女视频下载

開發(fā)一款開源爬蟲框架系列（五）：爬蟲架構(gòu)的一些新思路

2018.03.01

爬蟲開源項(xiàng)目地址：http://git.oschina.net/coliza/MongooCrawler

以前的思路是由客戶端完成所有的下載網(wǎng)頁，解析等功能，服務(wù)器端負(fù)責(zé)從內(nèi)存隊(duì)列中拿到數(shù)據(jù)并將獲取的對象輸出到存儲層。現(xiàn)在發(fā)現(xiàn)一個(gè)很麻煩的問題，不同的網(wǎng)站需要定制不同的抓取策略，如果部署爬蟲集群，那么假如我

要修改解析策略或存儲策略，客戶端或者服務(wù)器只能重寫、編譯、部署，而且服務(wù)端負(fù)責(zé)存儲壓力大很容易造成性能瓶頸。

解決方法就是，客戶端一樣負(fù)責(zé)抓取和分析功能，不一樣的是這個(gè)定義解析策略的對象通過RPC調(diào)用服務(wù)端的接口獲取，這樣修改策略就不需要再動客戶端。客戶端同時(shí)負(fù)責(zé)調(diào)用數(shù)據(jù)層的接口存儲數(shù)據(jù)，只不過負(fù)責(zé)存儲的對象同

樣通過RPC調(diào)用服務(wù)端的接口獲取。

近期一直在寫爬蟲，看了很多別人設(shè)計(jì)的爬蟲架構(gòu)后，我大概梳理了一下主要的功能模塊，其一是抓取主體，一般是多個(gè)內(nèi)存隊(duì)列存儲url，不同的爬蟲節(jié)點(diǎn)從隊(duì)列中獲取url進(jìn)行爬??；其二是公共庫，存儲一些抓取需要用的賬號和代理ip；其三是監(jiān)控報(bào)警；其四是抓取規(guī)則配置。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

打開APP，閱讀全文并永久保存查看更多類似文章

Python爬蟲從入門到放棄（二十）之 Scrapy分布式原理

OpenStack架構(gòu)預(yù)覽

Github限時(shí)開源！Alibaba最新版億級高并發(fā)系統(tǒng)架構(gòu)（全彩小冊）

構(gòu)建高可擴(kuò)Web架構(gòu)和分布式系統(tǒng)實(shí)戰(zhàn)（下）

UCMQ首頁、文檔和下載

融云首席架構(gòu)師李淼：直播互動系統(tǒng)的設(shè)計(jì)與實(shí)踐

更多類似文章 >>

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看