在瀏覽器客戶端進行爬蟲開發(fā)
JS是個神奇的語言,借助Node.js的后端環(huán)境,我們可以進行相應的爬蟲開發(fā),如這篇 基于Node.js實現(xiàn)一個小小的爬蟲
但搭建后臺環(huán)境始終略為麻煩,拿到一臺新電腦,不用配環(huán)境,可不可以直接在瀏覽器客戶端直接實現(xiàn)呢?
可以可以,這里就簡單地說一下在瀏覽器客戶端實現(xiàn)的爬蟲抓取頁面數(shù)據(jù)
一、概念理解
爬蟲,簡單地說就是發(fā)一個請求,然后按一定邏輯解析獲取到的數(shù)據(jù)。
在Node環(huán)境下,可以用Request模塊請求一個地址,得到返回信息,再用正則匹配數(shù)據(jù),或者用Cheerio模塊包裝-方便定位相關(guān)的標簽項
在瀏覽器環(huán)境下,也類似,可以用標簽的src屬性或Ajax請求一個地址,得到返回信息,再用正則匹配數(shù)據(jù),或者用jQuery模塊包裝-方便定位相關(guān)的標簽項
二、實現(xiàn)
實現(xiàn)的本質(zhì)都是打開瀏覽器的開發(fā)者工具,寫一段JS代碼注入到頁面中,然后讓相關(guān)代碼自執(zhí)行地址請求,再通過代碼處理返回的數(shù)據(jù)
打開Chrome瀏覽器的開發(fā)者工具,選擇面板中的 sources 部分,選擇二級菜單的 script snippets 部分,然后右鍵新建一個腳本,在右方輸入想注入的代碼
然后右鍵script snippets腳本運行(或者使用快捷鍵 Ctrl + Enter 運行)就可以開始注入,并可以在下方 console 部分看到相應的結(jié)果
注入JS代碼的方式是使用一個script標簽,定義src指向的腳本地址,或者在標簽中直接定義JS代碼
在瀏覽器端的爬蟲實現(xiàn),這里分為兩個方面:一個是處理純頁面的請求,一個是處理Ajax的異步請求