分享一個(gè)簡(jiǎn)單的爬蟲案例，幾十行代碼爬取百度貼吧，原理簡(jiǎn)單易懂

2018.12.09

通過python實(shí)現(xiàn)百度貼吧頁(yè)面的內(nèi)容采集是相對(duì)來說比較容易的，因?yàn)榘俣荣N吧不需要登陸，不需要cookie，不需要設(shè)置http的MIME頭

本案例使用python實(shí)現(xiàn)百度貼吧數(shù)據(jù)采集，獲取百度貼吧的文章內(nèi)容，樓層

百度貼吧網(wǎng)址比如：http://tieba.baidu.com/p/3138733512?see_lz=1&pn=1，這是一個(gè)關(guān)于NBA50大的盤點(diǎn)，分析一下這個(gè)地址。

http:// 代表資源傳輸使用http協(xié)議 tieba.baidu.com 是百度的二級(jí)域名，指向百度貼吧的服務(wù)器。 /p/3138733512 是服務(wù)器某個(gè)資源，即這個(gè)帖子的地址定位符 see_lz和pn是該URL的兩個(gè)參數(shù)，分別代表了只看樓主和帖子頁(yè)碼，等于1表示該條件為真

所以我們可以把URL分為兩部分，一部分為基礎(chǔ)部分，一部分為參數(shù)部分。

例如，上面的URL我們劃分基礎(chǔ)部分是

http://tieba.baidu.com/p/3138733512

參數(shù)部分是 ?see_lz=1&pn=1

爬蟲過程比較簡(jiǎn)單，基本還是圍繞：請(qǐng)求、正則解析、打印存儲(chǔ)

注意：python3.4以后中，將urllib2、urlparse、robotparser并入了urllib模塊，并且修改了urllib模塊，其中包含了5個(gè)子模塊，每個(gè)子模塊中的常用方法如下：