分類導(dǎo)航

Python爬蟲從入門到放棄（十八）之 Scrapy爬取所有知乎用戶信息(上)

發(fā)布時(shí)間：2017年07月21日作者：IT網(wǎng)絡(luò)文摘

爬取的思路

首先我們應(yīng)該找到一個(gè)賬號(hào)，這個(gè)賬號(hào)被關(guān)注的人和關(guān)注的人都相對(duì)比較多的，就是下圖中金字塔頂端的人，然后通過爬取這個(gè)賬號(hào)的信息后，再爬取他關(guān)注的人和被關(guān)注的人的賬號(hào)信息，然后爬取被關(guān)注人的賬號(hào)信息和被關(guān)注信息的關(guān)注列表，爬取這些用戶的信息，通過這種遞歸的方式從而爬取整個(gè)知乎的所有的賬戶信息。整個(gè)過程通過下面兩個(gè)圖表示：

iOS培訓(xùn),Swift培訓(xùn),蘋果開發(fā)培訓(xùn),移動(dòng)開發(fā)培訓(xùn)

爬蟲分析過程

這里我們找的賬號(hào)地址是：https://www.zhihu.com/people/excited-vczh/answers
我們抓取的大V賬號(hào)的主要信息是：

iOS培訓(xùn),Swift培訓(xùn),蘋果開發(fā)培訓(xùn),移動(dòng)開發(fā)培訓(xùn)

其次我們要獲取這個(gè)賬號(hào)的關(guān)注列表和被關(guān)注列表

分類導(dǎo)航

Python爬蟲從入門到放棄（十八）之 Scrapy爬取所有知乎用戶信息(上)

爬取的思路

爬蟲分析過程

網(wǎng)友評(píng)論

更多精彩分享