開發(fā)語(yǔ)言
軟件名稱
軟件介紹
許可證
Java
Arachnid
微型爬蟲框架,含有一個(gè)小型HTML解析器
GPL
crawlzilla
安裝簡(jiǎn)易,擁有中文分詞功能
Apache2
Ex-Crawler
由守護(hù)進(jìn)程執(zhí)行,使用數(shù)據(jù)庫(kù)存儲(chǔ)網(wǎng)頁(yè)信息
GPLv3
Heritrix
嚴(yán)格遵照robots文件的排除指示和META robots標(biāo)簽
LGPL
heyDr
輕量級(jí)開源多線程垂直檢索爬蟲框架
GPLv3
ItSucks
提供swing GUI操作界面
不詳
jcrawl
輕量、性能優(yōu)良,可以從網(wǎng)頁(yè)抓取各種類型的文件
Apache
JSpider
功能強(qiáng)大,容易擴(kuò)展
LGPL
Leopdo
包括全文和分類垂直搜索,以及分詞系統(tǒng)
Apache
MetaSeeker
網(wǎng)頁(yè)抓取、信息提取、數(shù)據(jù)抽取工具包,操作簡(jiǎn)單
不詳
Playfish
通過(guò)XML配置文件實(shí)現(xiàn)高度可定制性與可擴(kuò)展性
MIT
Spiderman
靈活、擴(kuò)展性強(qiáng),微內(nèi)核+插件式架構(gòu),通過(guò)簡(jiǎn)單的配置就可以完成數(shù)據(jù)抓取,無(wú)需編寫一句代碼
Apache
webmagic
功能覆蓋整個(gè)爬蟲生命周期,使用Xpath和正則表達(dá)式進(jìn)行鏈接和內(nèi)容的提取
Apache
Web-Harvest
運(yùn)用XSLT、XQuery、正則表達(dá)式等技術(shù)來(lái)實(shí)現(xiàn)對(duì)Text或XML的操作,具有可視化的界面
BSD
WebSPHINX
由兩部分組成:爬蟲工作平臺(tái)和WebSPHINX類包
Apache
YaCy
基于P2P的分布式Web搜索引擎
GPL
Python
QuickRecon
具有查找子域名名稱、收集電子郵件地址并尋找人際關(guān)系等功能
GPLv3
PyRailgun
簡(jiǎn)潔、輕量、高效的網(wǎng)頁(yè)抓取框架
MIT
Scrapy
基于Twisted的異步處理框架,文檔齊全
BSD
C++
hispider
支持多機(jī)分布式下載, 支持網(wǎng)站定向下載
BSD
larbin
高性能的爬蟲軟件,只負(fù)責(zé)抓取不負(fù)責(zé)解析
GPL
Methabot
經(jīng)過(guò)速度優(yōu)化、可抓取WEB、FTP及本地文件系統(tǒng)
不詳
Methanol
模塊化、可定制的網(wǎng)頁(yè)爬蟲,速度快
不詳
C#
NWebCrawler
統(tǒng)計(jì)信息、執(zhí)行過(guò)程可視化
GPLv2
Sinawler
國(guó)內(nèi)第一個(gè)針對(duì)微博數(shù)據(jù)的爬蟲程序,功能強(qiáng)大
GPLv3
spidernet
以遞歸樹為模型的多線程web爬蟲程序,支持以GBK (gb2312)和utf8編碼的資源,使用sqlite存儲(chǔ)數(shù)據(jù)
MIT
Web Crawler
多線程,支持抓取PDF/DOC/EXCEL等文檔來(lái)源
LGPL
網(wǎng)絡(luò)礦工
功能豐富,毫不遜色于商業(yè)軟件
BSD
PHP
OpenWebSpider
開源多線程網(wǎng)絡(luò)爬蟲,有許多有趣的功能
不詳
PhpDig
適用于專業(yè)化強(qiáng)、層次更深的個(gè)性化搜索引擎
GPL
Snoopy
具有采集網(wǎng)頁(yè)內(nèi)容、提交表單功能
GPL
ThinkUp
采集推特、臉譜等社交網(wǎng)絡(luò)數(shù)據(jù)的社會(huì)媒體視角引擎,可進(jìn)行交互分析并將結(jié)果以可視化形式展現(xiàn)
GPL
微購(gòu)
可采集淘寶、京東、當(dāng)當(dāng)?shù)?00多家電子商務(wù)數(shù)據(jù)
GPL
ErLang
Ebot
可伸縮的分布式網(wǎng)頁(yè)爬蟲
GPLv3
Ruby
Spidr
可將一個(gè)或多個(gè)網(wǎng)站、某個(gè)鏈接完全抓取到本地
MIT
開發(fā)語(yǔ)言
軟件名稱
軟件介紹
許可證
Java
Arachnid
微型爬蟲框架,含有一個(gè)小型HTML解析器
GPL
crawlzilla
安裝簡(jiǎn)易,擁有中文分詞功能
Apache2
Ex-Crawler
由守護(hù)進(jìn)程執(zhí)行,使用數(shù)據(jù)庫(kù)存儲(chǔ)網(wǎng)頁(yè)信息
GPLv3
Heritrix
嚴(yán)格遵照robots文件的排除指示和META robots標(biāo)簽
LGPL
heyDr
輕量級(jí)開源多線程垂直檢索爬蟲框架
GPLv3
ItSucks
提供swing GUI操作界面
不詳
jcrawl
輕量、性能優(yōu)良,可以從網(wǎng)頁(yè)抓取各種類型的文件
Apache
JSpider
功能強(qiáng)大,容易擴(kuò)展
LGPL
Leopdo
包括全文和分類垂直搜索,以及分詞系統(tǒng)
Apache
MetaSeeker
網(wǎng)頁(yè)抓取、信息提取、數(shù)據(jù)抽取工具包,操作簡(jiǎn)單
不詳
Playfish
通過(guò)XML配置文件實(shí)現(xiàn)高度可定制性與可擴(kuò)展性
MIT
Spiderman
靈活、擴(kuò)展性強(qiáng),微內(nèi)核+插件式架構(gòu),通過(guò)簡(jiǎn)單的配置就可以完成數(shù)據(jù)抓取,無(wú)需編寫一句代碼
Apache
webmagic
功能覆蓋整個(gè)爬蟲生命周期,使用Xpath和正則表達(dá)式進(jìn)行鏈接和內(nèi)容的提取
Apache
Web-Harvest
運(yùn)用XSLT、XQuery、正則表達(dá)式等技術(shù)來(lái)實(shí)現(xiàn)對(duì)Text或XML的操作,具有可視化的界面
BSD
WebSPHINX
由兩部分組成:爬蟲工作平臺(tái)和WebSPHINX類包
Apache
YaCy
基于P2P的分布式Web搜索引擎
GPL
Python
QuickRecon
具有查找子域名名稱、收集電子郵件地址并尋找人際關(guān)系等功能
GPLv3
PyRailgun
簡(jiǎn)潔、輕量、高效的網(wǎng)頁(yè)抓取框架
MIT
Scrapy
基于Twisted的異步處理框架,文檔齊全
BSD
C++
hispider
支持多機(jī)分布式下載, 支持網(wǎng)站定向下載
BSD
larbin
高性能的爬蟲軟件,只負(fù)責(zé)抓取不負(fù)責(zé)解析
GPL
Methabot
經(jīng)過(guò)速度優(yōu)化、可抓取WEB、FTP及本地文件系統(tǒng)
不詳
Methanol
模塊化、可定制的網(wǎng)頁(yè)爬蟲,速度快
不詳
C#
NWebCrawler
統(tǒng)計(jì)信息、執(zhí)行過(guò)程可視化
GPLv2
Sinawler
國(guó)內(nèi)第一個(gè)針對(duì)微博數(shù)據(jù)的爬蟲程序,功能強(qiáng)大
GPLv3
spidernet
以遞歸樹為模型的多線程web爬蟲程序,支持以GBK (gb2312)和utf8編碼的資源,使用sqlite存儲(chǔ)數(shù)據(jù)
MIT
Web Crawler
多線程,支持抓取PDF/DOC/EXCEL等文檔來(lái)源
LGPL
網(wǎng)絡(luò)礦工
功能豐富,毫不遜色于商業(yè)軟件
BSD
PHP
OpenWebSpider
開源多線程網(wǎng)絡(luò)爬蟲,有許多有趣的功能
不詳
PhpDig
適用于專業(yè)化強(qiáng)、層次更深的個(gè)性化搜索引擎
GPL
Snoopy
具有采集網(wǎng)頁(yè)內(nèi)容、提交表單功能
GPL
ThinkUp
采集推特、臉譜等社交網(wǎng)絡(luò)數(shù)據(jù)的社會(huì)媒體視角引擎,可進(jìn)行交互分析并將結(jié)果以可視化形式展現(xiàn)
GPL
微購(gòu)
可采集淘寶、京東、當(dāng)當(dāng)?shù)?00多家電子商務(wù)數(shù)據(jù)
GPL
ErLang
Ebot
可伸縮的分布式網(wǎng)頁(yè)爬蟲
GPLv3
Ruby
Spidr
可將一個(gè)或多個(gè)網(wǎng)站、某個(gè)鏈接完全抓取到本地
MIT
聯(lián)系客服