前段時(shí)間幫一個(gè)小伙伴解決了這樣一個(gè)問(wèn)題,如下圖:
問(wèn)題描述
因?yàn)榉N種原因,小伙伴需要提取該網(wǎng)站的這一條條的信息,包括類(lèi)型、許可證號(hào)、名稱(chēng)、日期等等。從圖片上看到,一共有244頁(yè),手工復(fù)制粘貼的話根本就不現(xiàn)實(shí)。而且網(wǎng)站的信息是動(dòng)態(tài)的,過(guò)段時(shí)間數(shù)據(jù)更新了,又面臨著一系列繁瑣的ctrl+c,ctrl+v。這個(gè)時(shí)候他找到我問(wèn)有沒(méi)有辦法解決這個(gè)問(wèn)題。
解決思路
接觸過(guò)網(wǎng)頁(yè)和python的朋友肯定一眼就看出來(lái)了,這就是個(gè)爬蟲(chóng)問(wèn)題:
1、打開(kāi)首頁(yè)網(wǎng)址,獲取的網(wǎng)頁(yè)代碼
2、分別定位到所需要獲取的信息標(biāo)簽位置,提取類(lèi)型、許可證號(hào)、名稱(chēng)、日期等一系列的信息。
3、然后打開(kāi)下一頁(yè)的網(wǎng)頁(yè),重復(fù)1、2的動(dòng)作。
4、爬取完所有的網(wǎng)頁(yè)后,把爬取到的信息匯總到一個(gè)列表當(dāng)中。
5、新建excel文件,把數(shù)據(jù)寫(xiě)入,保存即可。
以上就是大致的一個(gè)操作過(guò)程,另外還要適當(dāng)?shù)募由弦恍┓磁赖拇a和與用戶簡(jiǎn)單交互的代碼,顯得人性化一些。
最終效果演示:
后續(xù)當(dāng)然可以添加諸如多線程、圖形化界面、封裝等功能,可以再進(jìn)一步提高效率。
源代碼涉及到一些隱私,就不放了。之前也寫(xiě)過(guò)類(lèi)似的文章:
Python幫你定制批量獲取智聯(lián)招聘的信息
感興趣的可以聯(lián)系我一起交流。
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。