通過python實(shí)現(xiàn)百度貼吧頁(yè)面的內(nèi)容采集是相對(duì)來說比較容易的,因?yàn)榘俣荣N吧不需要登陸,不需要cookie,不需要設(shè)置http的MIME頭
本案例使用python實(shí)現(xiàn)百度貼吧數(shù)據(jù)采集,獲取百度貼吧的文章內(nèi)容,樓層
百度貼吧網(wǎng)址比如:http://tieba.baidu.com/p/3138733512?see_lz=1&pn=1,這是一個(gè)關(guān)于NBA50大的盤點(diǎn),分析一下這個(gè)地址。
所以我們可以把URL分為兩部分,一部分為基礎(chǔ)部分,一部分為參數(shù)部分。
例如,上面的URL我們劃分基礎(chǔ)部分是
http://tieba.baidu.com/p/3138733512
參數(shù)部分是 ?see_lz=1&pn=1
爬蟲過程比較簡(jiǎn)單,基本還是圍繞:請(qǐng)求、正則解析、打印存儲(chǔ)
注意:python3.4以后中,將urllib2、urlparse、robotparser并入了urllib模塊,并且修改了urllib模塊,其中包含了5個(gè)子模塊,每個(gè)子模塊中的常用方法如下:
聯(lián)系客服