這兩年python特別火,火到博客園現(xiàn)在也是隔三差五的出現(xiàn)一些python的文章。各種開源軟件、各種爬蟲算法紛紛開路,作為互聯(lián)網(wǎng)行業(yè)的IT狗自然看的我也是心癢癢,于是趁著這個(gè)霧霾橫行的周末瞅了兩眼,作為一名老司機(jī)覺得還是應(yīng)該以練帶學(xué),1024在程序員界這么流行的網(wǎng)站,當(dāng)然拿來先練一練。
python自稱是以自然語言的視角來編程,特點(diǎn)是開發(fā)快,語言簡(jiǎn)潔,沒那么多技巧,大名鼎鼎的豆瓣、youtube都是使用python開發(fā)的網(wǎng)站,看來python在大規(guī)模使用這個(gè)方面來講應(yīng)該沒有啥子問題;python也不是沒有缺點(diǎn)在性能方面就Java、C++等老前輩還是沒得比的,另外python和nodejs一樣只能使用CPU單核,也是性能方面影響是因素之一。但python在特定領(lǐng)域表現(xiàn)突出,特別是腳本、爬蟲、科學(xué)算法等。
好了,還是說正事如何爬取1024網(wǎng)站的圖片
分析
列表頁面
首先進(jìn)入1024的導(dǎo)航網(wǎng)站,隨便點(diǎn)擊一個(gè)地址進(jìn)入選擇圖片區(qū)或者在網(wǎng)站地址后面添加thread0806.php?fid=16&search=&page=,這就是1024網(wǎng)站的圖片區(qū),這個(gè)爬蟲就是主要抓取這個(gè)區(qū)域的所有圖片,使用瀏覽器debug分析一下這個(gè)頁面發(fā)現(xiàn)基本都是列表頁,格式如下:
在地址欄http://xxxxxx.biz/thread0806.php?fid=16&search=&page=后面拼1、2、3等于就是訪問圖片區(qū)第一頁、第二頁、第三頁的列表頁。根據(jù)這些列表頁就可以爬出具體的每一個(gè)圖片頁的地址,類似上圖的地址:htm_data/16/1611/2114702.html 在地址的前面拼接上主站地址就是具體的圖片頁了。所以根據(jù)以上的分析:通過循環(huán)地址欄找到不同的列表頁在根據(jù)列表頁找到具體的圖片頁
延伸閱讀
學(xué)習(xí)是年輕人改變自己的最好方式
- ssh框架 2016-09-30
- 阿里移動(dòng)安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍(lán)牙鎖 2017-07-26
- 消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】 2017-07-26
- 詞向量-LRWE模型-更好地識(shí)別反義詞同義詞 2017-07-26
- 從棧不平衡問題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二) 2017-07-26