烏云公開漏洞和知識庫的爬蟲分別位于目錄scrapy/wooyun和scrapy/wooyun_drops
運行scrapy crawl wooyun -a page_max=1 -a local_store=false -a update=false,有三個參數(shù)用于控制爬?。?/p>
-a page_max: 控制爬取的頁數(shù),默認為1,如果值為0,表示所有頁面
-a local_store: 控制是否將每個漏洞離線存放到本地,默認為false
-a update:控制是否重復(fù)爬取,默認為false
第一次爬取全部內(nèi)容時,用scrapy crawl wooyun -a page_max=0 -a update=true
平時只爬取最近的更新時,用scrapy crawl wooyun -a page_max=1,可以根據(jù)自己的爬取頻率和網(wǎng)站更新情況調(diào)整page_max的值
全部公開漏洞的列表和每個漏洞的文本內(nèi)容存在mongodb中,大概約2G內(nèi)容;如果整站爬全部文本和圖片作為離線查詢,大概需要10G空間、2小時(10M電信帶寬);爬取全部知識庫,總共約500M空間。(截止2015年10月)
漏洞搜索使用了Flask作為web server,bootstrap作為前端
啟動web server :在flask目錄下運行python app.py,默認端口是5000
搜索:在瀏覽器通過http://localhost:5000進行搜索漏洞,多個關(guān)鍵字可以用空格分開。
mongouse wooyundb.wooyun_list.ensureIndex({"datetime":1})db.wooyun_drops.ensureIndex({"datetime":1})
虛擬機1:在2016年6月底爬的wooyun全部漏洞庫和知識庫內(nèi)容,總共30G(壓縮后約11G),網(wǎng)盤地址為: http://pan.baidu.com/s/1o7IEaAQ 提取密碼:d4cq
使用方法:
1、壓縮包解壓后是一個vmware虛擬機的鏡像,可以由vmware直接打開運行; 2、由于在制作壓縮包時虛擬機為“掛起”狀態(tài),當前虛擬機的IP地址可能和宿主機的IP地址段不一致,請將虛擬機重啟后重新獲取IP地址,虛擬機用戶密碼為hancool/qwe123; 3、進入wooyun_public目錄,先用git更新一下到最新的代碼git pull; 4、進入wooyun_public/flask目錄,運行./app.py; 5、打開瀏覽器,輸入http://ip:5000,ip為虛擬機的網(wǎng)卡地址(使用ifconfig eth0查看)
虛擬機2:已打包了一個安裝了所有組件和程序的虛擬機(不包含具體內(nèi)容,約980M),網(wǎng)盤地址為:http://pan.baidu.com/s/1sj67KDZ 密碼:bafi
使用方法:
1、使用vmware或virtualbox導(dǎo)入虛擬機2、登錄用戶名hancool,密碼qwe1233、進入wooyun_public目錄,先用git更新一下到最新的代碼git pull4、分別進入wooyun_public目錄下的wooyun和wooyun_drops,運行爬蟲爬取數(shù)據(jù)(爬取全部數(shù)據(jù)并且本地離線緩存):scrapy crawl wooyun -a page_max=0 -a local_store=true -a update=true5、進入wooyun_publich目錄下的flask,運行./app.py,啟動web服務(wù)6、打開瀏覽器,輸入http://ip:5000,ip為虛擬機的網(wǎng)卡地址(使用ifconfig eth0查看)
本程序只用于技術(shù)研究和個人使用,程序組件均為開源程序,漏洞和知識庫來源于烏云公開漏洞,版權(quán)歸wooyun.org。
期待雨過天晴、重開wooyun!