国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
分享一個(gè)簡(jiǎn)單的爬蟲案例,幾十行代碼爬取百度貼吧,原理簡(jiǎn)單易懂

通過python實(shí)現(xiàn)百度貼吧頁(yè)面的內(nèi)容采集是相對(duì)來說比較容易的,因?yàn)榘俣荣N吧不需要登陸,不需要cookie,不需要設(shè)置http的MIME頭

本案例使用python實(shí)現(xiàn)百度貼吧數(shù)據(jù)采集,獲取百度貼吧的文章內(nèi)容,樓層

百度貼吧網(wǎng)址比如:http://tieba.baidu.com/p/3138733512?see_lz=1&pn=1,這是一個(gè)關(guān)于NBA50大的盤點(diǎn),分析一下這個(gè)地址。
http:// 代表資源傳輸使用http協(xié)議 tieba.baidu.com 是百度的二級(jí)域名,指向百度貼吧的服務(wù)器。 /p/3138733512 是服務(wù)器某個(gè)資源,即這個(gè)帖子的地址定位符 see_lz和pn是該URL的兩個(gè)參數(shù),分別代表了只看樓主和帖子頁(yè)碼,等于1表示該條件為真

所以我們可以把URL分為兩部分,一部分為基礎(chǔ)部分,一部分為參數(shù)部分。

例如,上面的URL我們劃分基礎(chǔ)部分是

http://tieba.baidu.com/p/3138733512

參數(shù)部分是 ?see_lz=1&pn=1

爬蟲過程比較簡(jiǎn)單,基本還是圍繞:請(qǐng)求、正則解析、打印存儲(chǔ)

注意:python3.4以后中,將urllib2、urlparse、robotparser并入了urllib模塊,并且修改了urllib模塊,其中包含了5個(gè)子模塊,每個(gè)子模塊中的常用方法如下:

python2.7下

python3.6下

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
Python3網(wǎng)絡(luò)爬蟲(一):利用urllib進(jìn)行簡(jiǎn)單的網(wǎng)頁(yè)抓取
python 爬蟲基礎(chǔ)(1)
Python爬蟲爬取百度搜索結(jié)果
第一個(gè)Python爬蟲程序
python網(wǎng)絡(luò)爬蟲常用技術(shù)
如何通過Python進(jìn)行圖片批量下載?
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服