国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
使用python+phantomjs抓取動(dòng)態(tài)頁面

前一段時(shí)間公司需要爬取部分web頁面的數(shù)據(jù)使用。但是頁面中的主要數(shù)據(jù)是ajax load出來的,傳統(tǒng)的抓取方法是拿不到數(shù)據(jù)的。后來在網(wǎng)上發(fā)現(xiàn)了phantomjs,在無界面的情況下運(yùn)行js,渲染dom。用這個(gè)工具抓取ajax load出來的數(shù)據(jù)再方便不過啦。

系統(tǒng)環(huán)境:CentOS release 6.5 (Final)

phantomjs版本:1.9.8

  • phantomjs抓取加載完整的dom結(jié)構(gòu)。說到phantomjs怎么把數(shù)據(jù)傳遞給處理程序,我看到網(wǎng)上很多人是寫一個(gè)本地文件,然后具體的處理程序再讀取那個(gè)文件進(jìn)行處理。感覺這種方式太麻煩了,干脆將數(shù)據(jù)打印到到標(biāo)準(zhǔn)輸出中,然后處理程序從標(biāo)準(zhǔn)輸出中讀取數(shù)據(jù)。

  • 用python獲取數(shù)據(jù)。然后就開始處理了。具體的處理邏輯就不展示了。

分享到
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
Python爬蟲使用Selenium PhantomJS抓取Ajax和動(dòng)態(tài)HTML內(nèi)容
Python爬蟲從入門到精通(五)動(dòng)態(tài)網(wǎng)頁的挑戰(zhàn)
Bootstrap tab頁的動(dòng)態(tài)ajax加載
Python爬蟲入門,快速抓取大規(guī)模數(shù)據(jù)(第四部分)
使用settimeout方式不影響js對(duì)頁面展示的延遲
零基礎(chǔ)如何學(xué)會(huì)Python爬蟲技術(shù)(附學(xué)習(xí)線路圖 視頻教程)
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服