在知乎看到一個可視化話題的文章,所以一時心血來潮,打算用Java也寫一個爬蟲并且集成到Spring中,結(jié)合ECharts生成人物關(guān)系,當(dāng)然,既然爬一次,個人信息也都要獲取到。
那么今天起起(結(jié)束日未知,目錄也會根據(jù)實(shí)際情況進(jìn)行更新),我將寫一個系列的爬取知乎的爬蟲文章,一直到數(shù)據(jù)可視化完成(完成后,爬蟲部分將使用Scala重寫)。

1. 預(yù)計可視化部分包括

  1. 人物關(guān)系可視化

  2. 人員地理分布可視化

  3. 人員大學(xué)分布可視化

  4. 男女比例可視化

  5. 用戶點(diǎn)贊可視化

2. 預(yù)計內(nèi)容和目錄

  1. 開篇感言

  2. 爬蟲流程設(shè)計

    1. 如何過濾重復(fù)數(shù)據(jù)

    2. 如何在爬取時創(chuàng)建人物關(guān)系

  3. 請求分析

    1. 登陸請求分析

    2. 跟隨/關(guān)注請求分析

  4. 抓取頁面數(shù)據(jù)

    1. jsoup抽取頁面內(nèi)容

  5. 優(yōu)化

    1. 使用多線程加速

    2. 使用隊列減少數(shù)據(jù)庫訪問

      延伸閱讀

      學(xué)習(xí)是年輕人改變自己的最好方式-Java培訓(xùn),做最負(fù)責(zé)任的教育,學(xué)習(xí)改變命運(yùn),軟件學(xué)習(xí),再就業(yè),大學(xué)生如何就業(yè),幫大學(xué)生找到好工作,lphotoshop培訓(xùn),電腦培訓(xùn),電腦維修培訓(xùn),移動軟件開發(fā)培訓(xùn),網(wǎng)站設(shè)計培訓(xùn),網(wǎng)站建設(shè)培訓(xùn)學(xué)習(xí)是年輕人改變自己的最好方式