百度云分享爬蟲(chóng)項(xiàng)目

github上有好幾個(gè)這樣的開(kāi)源項(xiàng)目,但是都只提供了爬蟲(chóng)部分,這個(gè)項(xiàng)目在爬蟲(chóng)的基礎(chǔ)上還增加了保存數(shù)據(jù),建立elasticsearch索引的模塊,可以用在實(shí)際生產(chǎn)環(huán)境中,不過(guò)web模塊還是需要自己開(kāi)發(fā)

安裝

安裝node.js和pm2,node用來(lái)運(yùn)行爬蟲(chóng)程序和索引程序,pm2用來(lái)管理node任務(wù)

安裝mysql和mongodb,mysql用來(lái)保存爬蟲(chóng)數(shù)據(jù),mongodb用來(lái)保存最終的百度云分享數(shù)據(jù),這些數(shù)據(jù)是json格式的,用mongodb保存更方便。

git clone https://github.com/callmelanmao/yunshare cnpm i

推薦使用cnpm命令安裝npm依賴,最簡(jiǎn)單的安裝方式

$ npm install -g cnpm --registry=https://registry.npm.taobao.org

更多安裝cnpm的命令可以去npm.taobao.org上面找。

初始化

爬蟲(chóng)數(shù)據(jù)(主要是url列表)都是保存在mysql數(shù)據(jù)庫(kù)的,yunshare使用sequelizejs做orm映射,源文件在src/models/index.js,默認(rèn)的mysql用戶名和密碼都是root,數(shù)據(jù)看是yun,你需要手動(dòng)創(chuàng)建yun數(shù)據(jù)庫(kù)

create database yun default charset utf8

延伸閱讀

學(xué)習(xí)是年輕人改變自己的最好方式-Java培訓(xùn),做最負(fù)責(zé)任的教育,學(xué)習(xí)改變命運(yùn),軟件學(xué)習(xí),再就業(yè),大學(xué)生如何就業(yè),幫大學(xué)生找到好工作,lphotoshop培訓(xùn),電腦培訓(xùn),電腦維修培訓(xùn),移動(dòng)軟件開(kāi)發(fā)培訓(xùn),網(wǎng)站設(shè)計(jì)培訓(xùn),網(wǎng)站建設(shè)培訓(xùn)學(xué)習(xí)是年輕人改變自己的最好方式