之前一直不太了解分布式爬蟲設(shè)計(jì)思路,于是在github上搜了一個(gè)簡(jiǎn)易的分布式爬蟲,學(xué)習(xí)了一下實(shí)現(xiàn)思路,并做一下對(duì)應(yīng)筆記
分布式爬蟲主要涉及到三個(gè)方面。
1.模擬登錄;
2.master廣度遍歷,將待爬頁(yè)push到隊(duì)列(redis);
3.slave從redis中取出待爬頁(yè),進(jìn)行深度遍歷
下面分三個(gè)方面分別闡述,以知乎為例。
一.模擬登錄
1.首先可以自己手動(dòng)登陸一次,注意登陸時(shí)post的數(shù)據(jù)以及url
這里post數(shù)據(jù)格式為:
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動(dòng)安全 [無(wú)線安全]玩轉(zhuǎn)無(wú)線電——不安全的藍(lán)牙鎖 2017-07-26
- 消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】 2017-07-26
- 詞向量-LRWE模型-更好地識(shí)別反義詞同義詞 2017-07-26
- 從棧不平衡問(wèn)題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來(lái)看看(二) 2017-07-26