python爬蟲爬取指定用戶微博圖片及內(nèi)容，并進(jìn)行微博分類及使用習(xí)慣分析，生成可視化圖表

發(fā)布時(shí)間：2016年11月07日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除

雖然我是不用微博的，但由于某種原因，手機(jī)端的微博會(huì)時(shí)不時(shí)地推送幾條我必須看的消息過來。微博被看久了，前幾天又看到語亮 - 簡(jiǎn)書一年前的的微博爬蟲，就有了對(duì)某人微博深入挖掘的想法。

之前語亮的爬蟲不能抓取用戶一條微博的多張圖片，一年后微博界面也發(fā)生了一些變化，決定還是參考語亮爬取手機(jī)端界面的方法更新下代碼，同時(shí)加上一點(diǎn)小小的數(shù)據(jù)分析。

主要想法是抓取指定用戶的全部微博原創(chuàng)內(nèi)容和全部原創(chuàng)圖片保存到本地，然后對(duì)原創(chuàng)微博進(jìn)行分類，并統(tǒng)計(jì)用戶最愛使用的表情、最常使用的詞語和微博中提到的人名。

（經(jīng)過驗(yàn)證妹子的微博大多集中在美食類、購(gòu)物類、美妝類和旅游類）

下面說下爬取步驟、展示結(jié)果以及詳細(xì)代碼：

因?yàn)镻C端的微博是JS內(nèi)容不好爬取，所以還是選擇了chrome打開微博手機(jī)版進(jìn)行爬取，簡(jiǎn)單粗暴無障礙。

1、獲取自己的cookie，利用chrome瀏覽器。

在chrome 中打開微博手機(jī)版，F(xiàn)12打開開發(fā)者工具，勾選Network的Preserve log項(xiàng)，然后輸入賬號(hào)密碼登陸自己的微博。

在m.weibo.cn->Headers->Cookie 復(fù)制下自己的cookie，一會(huì)需要粘貼到代碼中運(yùn)行。

分類導(dǎo)航