百度云分享爬蟲項目
github上有好幾個這樣的開源項目,但是都只提供了爬蟲部分,這個項目在爬蟲的基礎上還增加了保存數(shù)據(jù),建立elasticsearch索引的模塊,可以用在實際生產(chǎn)環(huán)境中,不過web模塊還是需要自己開發(fā)
安裝
安裝node.js和pm2,node用來運行爬蟲程序和索引程序,pm2用來管理node任務
安裝mysql和mongodb,mysql用來保存爬蟲數(shù)據(jù),mongodb用來保存最終的百度云分享數(shù)據(jù),這些數(shù)據(jù)是json格式的,用mongodb保存更方便。
git clone https://github.com/callmelanmao/yunshare cnpm i
推薦使用cnpm命令安裝npm依賴,最簡單的安裝方式
$ npm install -g cnpm --registry=https://registry.npm.taobao.org
更多安裝cnpm的命令可以去npm.taobao.org上面找。
初始化
爬蟲數(shù)據(jù)(主要是url列表)都是保存在mysql數(shù)據(jù)庫的,yunshare使用sequelizejs做orm映射,源文件在src/models/index.js,默認的mysql用戶名和密碼都是root,數(shù)據(jù)看是yun,你需要手動創(chuàng)建yun數(shù)據(jù)庫
create database yun default charset utf8