1. 上篇回顧
上篇文章Python初學(xué)者之網(wǎng)絡(luò)爬蟲中我從花椒的熱門推薦頁面入手,進(jìn)而獲取到主播個人信息和對應(yīng)的直播歷史視頻。
首先看一下上一篇文章中對huajiao.com的主播和視頻的爬取成果:
# getUserCount10179# getLiveCount111574
到目前已收集了10179個主播信息,和這些主播的111574個視頻信息。這里數(shù)據(jù)量小的原因是我只收集了花椒熱門推薦下面的主播,這個頁面每次展示60個系統(tǒng)推薦的主播。
到目前為止我新做了如下事情:
對MySql的讀寫操作進(jìn)行了封裝
編碼風(fēng)格遵從PEP8
爬取沃米優(yōu)選網(wǎng)(http://video.51wom.com/)的主播信息
爬取一下網(wǎng)(http://www.yixia.com/)的主播信息和視頻信息
其中對MySql的封裝代碼單獨(dú)放到了文件mysql.py下,做為一個module使用,這個module雖然簡單,但已經(jīng)實(shí)現(xiàn)了select,insert,delete等操作,對MySql封裝感興趣的同學(xué)可以參考, 但請不要用于生產(chǎn)環(huán)境。推薦去使用和閱讀數(shù)據(jù)庫類peewee。
接下來將繼續(xù)講述我在數(shù)據(jù)抓取上的開發(fā)經(jīng)歷。
2. 爬取的數(shù)據(jù)源和邏輯
最終目標(biāo):收集到各大直播平臺的主播信息和歷史播放記錄,進(jìn)而對數(shù)據(jù)進(jìn)行聚合分析。
當(dāng)前已完成:對花椒網(wǎng)的數(shù)據(jù)收集。
沃米優(yōu)選網(wǎng)(http://video.51wom.com/)是一個網(wǎng)紅數(shù)據(jù)聚合的網(wǎng)站,它收集了各個直播平臺(花椒,熊貓,秒拍,斗魚,映客,一直播,美拍)的熱門主播信息。所以我希望能從它這里獲取到各個平臺的熱門主播信息,之后拿著主播id去對應(yīng)的直播平臺去爬取更詳細(xì)的信息。
3. 爬取沃米優(yōu)選網(wǎng)的主播列表頁
列表頁http://video.51wom.com/截圖如下: