前一段時(shí)間公司需要爬取部分web頁面的數(shù)據(jù)使用。但是頁面中的主要數(shù)據(jù)是ajax load出來的,傳統(tǒng)的抓取方法是拿不到數(shù)據(jù)的。后來在網(wǎng)上發(fā)現(xiàn)了phantomjs,在無界面的情況下運(yùn)行js,渲染dom。用這個(gè)工具抓取ajax load出來的數(shù)據(jù)再方便不過啦。
系統(tǒng)環(huán)境:CentOS release 6.5 (Final)
phantomjs版本:1.9.8
phantomjs抓取加載完整的dom結(jié)構(gòu)。說到phantomjs怎么把數(shù)據(jù)傳遞給處理程序,我看到網(wǎng)上很多人是寫一個(gè)本地文件,然后具體的處理程序再讀取那個(gè)文件進(jìn)行處理。感覺這種方式太麻煩了,干脆將數(shù)據(jù)打印到到標(biāo)準(zhǔn)輸出中,然后處理程序從標(biāo)準(zhǔn)輸出中讀取數(shù)據(jù)。
用python獲取數(shù)據(jù)。然后就開始處理了。具體的處理邏輯就不展示了。
聯(lián)系客服