百度云分享爬蟲(chóng)項(xiàng)目
github上有好幾個(gè)這樣的開(kāi)源項(xiàng)目,但是都只提供了爬蟲(chóng)部分,這個(gè)項(xiàng)目在爬蟲(chóng)的基礎(chǔ)上還增加了保存數(shù)據(jù),建立elasticsearch索引的模塊,可以用在實(shí)際生產(chǎn)環(huán)境中,不過(guò)web模塊還是需要自己開(kāi)發(fā)
安裝
安裝node.js和pm2,node用來(lái)運(yùn)行爬蟲(chóng)程序和索引程序,pm2用來(lái)管理node任務(wù)
安裝mysql和mongodb,mysql用來(lái)保存爬蟲(chóng)數(shù)據(jù),mongodb用來(lái)保存最終的百度云分享數(shù)據(jù),這些數(shù)據(jù)是json格式的,用mongodb保存更方便。
git clone https://github.com/callmelanmao/yunshare cnpm i
推薦使用cnpm命令安裝npm依賴,最簡(jiǎn)單的安裝方式
$ npm install -g cnpm --registry=https://registry.npm.taobao.org
更多安裝cnpm的命令可以去npm.taobao.org上面找。
初始化
爬蟲(chóng)數(shù)據(jù)(主要是url列表)都是保存在mysql數(shù)據(jù)庫(kù)的,yunshare使用sequelizejs做orm映射,源文件在src/models/index.js,默認(rèn)的mysql用戶名和密碼都是root,數(shù)據(jù)看是yun,你需要手動(dòng)創(chuàng)建yun數(shù)據(jù)庫(kù)
create database yun default charset utf8
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動(dòng)安全 [無(wú)線安全]玩轉(zhuǎn)無(wú)線電——不安全的藍(lán)牙鎖 2017-07-26
- 消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】 2017-07-26
- 詞向量-LRWE模型-更好地識(shí)別反義詞同義詞 2017-07-26
- 從棧不平衡問(wèn)題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來(lái)看看(二) 2017-07-26