1. 上篇回顧
上篇文章Python初學者之網絡爬蟲中我從花椒的熱門推薦頁面入手,進而獲取到主播個人信息和對應的直播歷史視頻。
首先看一下上一篇文章中對huajiao.com的主播和視頻的爬取成果:
# getUserCount10179# getLiveCount111574
到目前已收集了10179個主播信息,和這些主播的111574個視頻信息。這里數據量小的原因是我只收集了花椒熱門推薦下面的主播,這個頁面每次展示60個系統(tǒng)推薦的主播。
到目前為止我新做了如下事情:
對MySql的讀寫操作進行了封裝
編碼風格遵從PEP8
爬取沃米優(yōu)選網(http://video.51wom.com/)的主播信息
爬取一下網(http://www.yixia.com/)的主播信息和視頻信息
其中對MySql的封裝代碼單獨放到了文件mysql.py下,做為一個module使用,這個module雖然簡單,但已經實現了select,insert,delete等操作,對MySql封裝感興趣的同學可以參考, 但請不要用于生產環(huán)境。推薦去使用和閱讀數據庫類peewee。
接下來將繼續(xù)講述我在數據抓取上的開發(fā)經歷。
2. 爬取的數據源和邏輯
最終目標:收集到各大直播平臺的主播信息和歷史播放記錄,進而對數據進行聚合分析。
當前已完成:對花椒網的數據收集。
沃米優(yōu)選網(http://video.51wom.com/)是一個網紅數據聚合的網站,它收集了各個直播平臺(花椒,熊貓,秒拍,斗魚,映客,一直播,美拍)的熱門主播信息。所以我希望能從它這里獲取到各個平臺的熱門主播信息,之后拿著主播id去對應的直播平臺去爬取更詳細的信息。
3. 爬取沃米優(yōu)選網的主播列表頁
列表頁http://video.51wom.com/截圖如下: