這兩年python特別火,火到博客園現(xiàn)在也是隔三差五的出現(xiàn)一些python的文章。各種開(kāi)源軟件、各種爬蟲(chóng)算法紛紛開(kāi)路,作為互聯(lián)網(wǎng)行業(yè)的IT狗自然看的我也是心癢癢,于是趁著這個(gè)霧霾橫行的周末瞅了兩眼,作為一名老司機(jī)覺(jué)得還是應(yīng)該以練帶學(xué),1024在程序員界這么流行的網(wǎng)站,當(dāng)然拿來(lái)先練一練。
python自稱是以自然語(yǔ)言的視角來(lái)編程,特點(diǎn)是開(kāi)發(fā)快,語(yǔ)言簡(jiǎn)潔,沒(méi)那么多技巧,大名鼎鼎的豆瓣、youtube都是使用python開(kāi)發(fā)的網(wǎng)站,看來(lái)python在大規(guī)模使用這個(gè)方面來(lái)講應(yīng)該沒(méi)有啥子問(wèn)題;python也不是沒(méi)有缺點(diǎn)在性能方面就Java、C++等老前輩還是沒(méi)得比的,另外python和nodejs一樣只能使用CPU單核,也是性能方面影響是因素之一。但python在特定領(lǐng)域表現(xiàn)突出,特別是腳本、爬蟲(chóng)、科學(xué)算法等。
好了,還是說(shuō)正事如何爬取1024網(wǎng)站的圖片
分析
列表頁(yè)面
首先進(jìn)入1024的導(dǎo)航網(wǎng)站,隨便點(diǎn)擊一個(gè)地址進(jìn)入選擇圖片區(qū)或者在網(wǎng)站地址后面添加thread0806.php?fid=16&search=&page=,這就是1024網(wǎng)站的圖片區(qū),這個(gè)爬蟲(chóng)就是主要抓取這個(gè)區(qū)域的所有圖片,使用瀏覽器debug分析一下這個(gè)頁(yè)面發(fā)現(xiàn)基本都是列表頁(yè),格式如下:
在地址欄http://xxxxxx.biz/thread0806.php?fid=16&search=&page=后面拼1、2、3等于就是訪問(wèn)圖片區(qū)第一頁(yè)、第二頁(yè)、第三頁(yè)的列表頁(yè)。根據(jù)這些列表頁(yè)就可以爬出具體的每一個(gè)圖片頁(yè)的地址,類似上圖的地址:htm_data/16/1611/2114702.html 在地址的前面拼接上主站地址就是具體的圖片頁(yè)了。所以根據(jù)以上的分析:通過(guò)循環(huán)地址欄找到不同的列表頁(yè)在根據(jù)列表頁(yè)找到具體的圖片頁(yè)
網(wǎng)友評(píng)論