分類導(dǎo)航

Node.js 實現(xiàn)簡單小說爬蟲

發(fā)布時間：2016年11月19日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除 (該文來自筆記，點擊查看原文)

最近因為劇荒，老大追了愛奇藝的一部網(wǎng)劇，由丁墨的同名小說《美人為餡》改編，目前已經(jīng)放出兩季，雖然整部劇槽點滿滿，但是老大看得不亦樂乎，并且在看完第二季之后跟我要小說資源，直接要奔原著去看結(jié)局……
隨手搜了下，都是在線資源，下載的話需要登錄，注冊登錄好麻煩，寫個爬蟲玩玩也好，于是動手用 node 寫了一個，這里做下筆記

工作流程

獲取 URLs 列表(請求資源 request 模塊)
根據(jù) URLs 列表獲取相關(guān)頁面源碼(可能遇到頁面編碼問題，iconv-lite 模塊)
源碼解析，獲取小說信息( cheerio 模塊)
保存小說信息到 Markdown 文件，并且加適當修飾以及章節(jié)信息(寫文件 fs、同步請求資源 sync-request 模塊)
Markdown 轉(zhuǎn) PDF (使用 Pandoc 或者 Chrome 的打印功能)

獲取 URLs

根據(jù)小說的導(dǎo)航頁，獲取小說所有章節(jié)的 URL，并且以 JSON 數(shù)組的方式存儲。

首選通過 http.get() 方法獲取頁面源碼
獲取到源碼，打印發(fā)現(xiàn)中文亂碼，查看發(fā)現(xiàn) charset = 'gbk'，需要進行轉(zhuǎn)碼
使用 iconv-lite 模塊進行轉(zhuǎn)碼，中文顯示正常后開始解析源碼，獲取需要的 URL，為了更方便地解析，需要引進 cheerio 模塊，cheerio 可以理解為運行在后臺的 jQuery，用法與 jQuery 也十分相似，熟悉 jQuery 的同學(xué)可以很快的上手
將源碼加載進 cheerio，分析了源碼后得知所有章節(jié)信息都存于被 div 包裹的 a 標簽中，通過 cheerio 取出符合條件的 a 標簽組，進行遍歷，獲取章節(jié)的 title 和 URL，保存為對象，存進數(shù)組，(因為鏈接中存儲的 URL 不完整，所以存儲時需要補齊)
將對象數(shù)組序列化，寫進 list.json 文件

var http = require("http") var fs = require(
        		延伸閱讀
        		
        			
        			ssh框架
        			2016-09-30
        			
        			
        			
        			阿里移動安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍牙鎖
        			2017-07-26
        			
        			
        			
        			消息隊列NetMQ 原理分析4-Socket、Session、Option和Pipe
        			2024-03-26
        			
        			
        			
        			Selective Search for Object Recognition 論文筆記【圖片目標分割】
        			2017-07-26
        			
        			
        			
        			詞向量-LRWE模型-更好地識別反義詞同義詞
        			2017-07-26
        			
        			
        			
        			從棧不平衡問題 理解 calling convention
        			2017-07-26
        			
        			
        			
        			php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明
        			2017-07-26
        			
        			
        			
        			Swift實現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解
        			2017-07-26
        			
        			
        			
        			阿里移動安全 Android端惡意鎖屏勒索應(yīng)用分析
        			2017-07-26
        			
        			
        			
        			集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二)
        			2017-07-26
        			
        			
        			
        		
        		
        		學(xué)習(xí)是年輕人改變自己的最好方式

我想了解如何學(xué)習(xí)

<ul id="ycrsv"></ul>