<tr id="lsxr9"></tr>

分類(lèi)導(dǎo)航

Java豆瓣電影爬蟲(chóng)——使用Word2Vec分析電影短評(píng)數(shù)據(jù)

發(fā)布時(shí)間：2016年12月05日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除 (該文來(lái)自筆記，點(diǎn)擊查看原文)

　在上篇實(shí)現(xiàn)了電影詳情和短評(píng)數(shù)據(jù)的抓取。到目前為止，已經(jīng)抓了2000多部電影電視以及20000多的短評(píng)數(shù)據(jù)。

　　數(shù)據(jù)本身沒(méi)有規(guī)律和價(jià)值，需要通過(guò)分析提煉成知識(shí)才有意義。抱著試試玩的想法，準(zhǔn)備做一個(gè)有關(guān)情感分析方面的統(tǒng)計(jì)，看看這些評(píng)論里面的小伙伴都抱著什么態(tài)度來(lái)看待自己看過(guò)的電影，懷著何種心情寫(xiě)下的短評(píng)。

　　鑒于爬取的是短評(píng)數(shù)據(jù)，少則10來(lái)個(gè)字，多則百來(lái)個(gè)字，網(wǎng)上查找了下，發(fā)現(xiàn)Google開(kāi)源的Word2Vec比較合適，于是今天搗鼓了一天，把自己遇到的問(wèn)題和運(yùn)行的結(jié)果在這里做個(gè)總結(jié)。

　　Word2Ve是google 推出的做詞嵌入（word embedding）的開(kāi)源工具。簡(jiǎn)單的說(shuō)，它在給定的語(yǔ)料庫(kù)上訓(xùn)練一個(gè)模型，然后會(huì)輸出所有出現(xiàn)在語(yǔ)料庫(kù)上的單詞的向量表示，這個(gè)向量稱(chēng)為"word embedding"?；谶@個(gè)向量表示，可以計(jì)算詞與詞之間的關(guān)系，例如相似性(同義詞等)，語(yǔ)義關(guān)聯(lián)性（中國(guó) - 北京 = 英國(guó) - 倫敦）等。

　　算法的原理如果有興趣，可以找資料了解。

　　這里使用Word2Vec的大致流程如下：

　　　　1. 獲取數(shù)據(jù)（這里是豆瓣電影短評(píng)數(shù)據(jù)）

分類(lèi)導(dǎo)航

Java豆瓣電影爬蟲(chóng)——使用Word2Vec分析電影短評(píng)數(shù)據(jù)

延伸閱讀

我想了解如何學(xué)習(xí)