在瀏覽器客戶端進行爬蟲開發(fā)

發(fā)布時間：2016年10月28日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除

在瀏覽器客戶端進行爬蟲開發(fā)

JS是個神奇的語言，借助Node.js的后端環(huán)境，我們可以進行相應(yīng)的爬蟲開發(fā)，如這篇基于Node.js實現(xiàn)一個小小的爬蟲

但搭建后臺環(huán)境始終略為麻煩，拿到一臺新電腦，不用配環(huán)境，可不可以直接在瀏覽器客戶端直接實現(xiàn)呢？

可以可以，這里就簡單地說一下在瀏覽器客戶端實現(xiàn)的爬蟲抓取頁面數(shù)據(jù)

一、概念理解

爬蟲，簡單地說就是發(fā)一個請求，然后按一定邏輯解析獲取到的數(shù)據(jù)。

在Node環(huán)境下，可以用Request模塊請求一個地址，得到返回信息，再用正則匹配數(shù)據(jù)，或者用Cheerio模塊包裝-方便定位相關(guān)的標簽項

在瀏覽器環(huán)境下，也類似，可以用標簽的src屬性或Ajax請求一個地址，得到返回信息，再用正則匹配數(shù)據(jù)，或者用jQuery模塊包裝-方便定位相關(guān)的標簽項

二、實現(xiàn)

實現(xiàn)的本質(zhì)都是打開瀏覽器的開發(fā)者工具，寫一段JS代碼注入到頁面中，然后讓相關(guān)代碼自執(zhí)行地址請求，再通過代碼處理返回的數(shù)據(jù)

打開Chrome瀏覽器的開發(fā)者工具，選擇面板中的 sources 部分，選擇二級菜單的 script snippets 部分，然后右鍵新建一個腳本，在右方輸入想注入的代碼

然后右鍵script snippets腳本運行（或者使用快捷鍵 Ctrl + Enter 運行）就可以開始注入，并可以在下方 console 部分看到相應(yīng)的結(jié)果

注入JS代碼的方式是使用一個script標簽，定義src指向的腳本地址，或者在標簽中直接定義JS代碼

在瀏覽器端的爬蟲實現(xiàn)，這里分為兩個方面：一個是處理純頁面的請求，一個是處理Ajax的異步請求

分類導航

在瀏覽器客戶端進行爬蟲開發(fā)

在瀏覽器客戶端進行爬蟲開發(fā)

一、概念理解

二、實現(xiàn)

網(wǎng)友評論

更多精彩分享

學習是年輕人改變自己的最好方式

網(wǎng)友評論

更多精彩分享

分類導航

在瀏覽器客戶端進行爬蟲開發(fā)

在瀏覽器客戶端進行爬蟲開發(fā)

一、概念理解

二、實現(xiàn)

網(wǎng)友評論

更多精彩分享

一、概念理解

二、實現(xiàn)