一. LSA

1. LSA原理

LSA(latent semantic analysis)潛在語義分析,也被稱為 LSI(latent semantic index),是 Scott Deerwester, Susan T. Dumais 等人在 1990 年提出來的一種新的索引和檢索方法。該方法和傳統(tǒng)向量空間模型(vector space model)一樣使用向量來表示詞(terms)和文檔(documents),并通過向量間的關(guān)系(如夾角)來判斷詞及文檔間的關(guān)系;不同的是,LSA 將詞和文檔映射到潛在語義空間,從而去除了原始向量空間中的一些“噪音”,提高了信息檢索的精確度。

大數(shù)據(jù)培訓(xùn),云培訓(xùn),數(shù)據(jù)挖掘培訓(xùn),云計(jì)算培訓(xùn),高端軟件開發(fā)培訓(xùn),項(xiàng)目經(jīng)理培訓(xùn)

引用吳軍老師在 “矩陣計(jì)算與文本處理中的分類問題” 中的總結(jié):

三個矩陣有非常清楚的物理含義。第一個矩陣 U 中的每一行表示意思相關(guān)的一類詞,其中的每個非零元素表示這類詞中每個詞的重要性(或者說相關(guān)性),數(shù)值越大越相關(guān)。最后一個矩陣 V 中的每一列表示同一主題一類文章,其中每個元素表示這類文章中每篇文章的相關(guān)性。中間的矩陣 D 則表示類詞和文章類之間的相關(guān)性。因此,我們只要對關(guān)聯(lián)矩陣 X 進(jìn)行一次奇異值分解,我們就可以同時完成了近義詞分類和文章的分類。(同時得到每類文章和每類詞的相關(guān)性)。

傳統(tǒng)向量空間模型使用精確的詞匹配,即精確匹配用戶輸入的詞與向量空間中存在的詞,無法解決一詞多義(polysemy)和一義多詞(synonymy)的問題。實(shí)際上在搜索中,我們實(shí)際想要去比較的不是詞,而是隱藏在詞之后的意義和概念

大數(shù)據(jù)培訓(xùn),云培訓(xùn),數(shù)據(jù)挖掘培訓(xùn),云計(jì)算培訓(xùn),高端軟件開發(fā)培訓(xùn),項(xiàng)目經(jīng)理培訓(xùn)

LSA 的核心思想是將詞和文檔映射到潛在語義空間,再比較其相似性。

舉個簡單的栗子,對一個 Term-Document 矩陣做SVD分解,并將左奇異向量和右奇異向量都取后2維(之前是3維的矩陣),投影到一個平面上(潛在語義空間),可以得到:

大數(shù)據(jù)培訓(xùn),云培訓(xùn),數(shù)據(jù)挖掘培訓(xùn),云計(jì)算培訓(xùn),高端軟件開發(fā)培訓(xùn),項(xiàng)目經(jīng)理培訓(xùn)

在圖上,每一個紅色的點(diǎn),都表示一個詞,每一個藍(lán)色的點(diǎn),都表示一篇文檔,這樣我們可以對這些詞和文檔進(jìn)行聚類,比如說 stock 和 market 可以放在一類,因?yàn)樗麄兝鲜浅霈F(xiàn)在一起,real 和 estate 可以放在一類,dads,guide 這種詞就看起來有點(diǎn)孤立了,我們就不對他們進(jìn)行合并了。按這樣聚類出現(xiàn)的效果,可以提取文檔集合中的近義詞,這樣當(dāng)用戶檢索文檔的時候,是用語義級別(近義詞集合)去檢索了,而不是之前的詞的級別。這樣一減少我們的檢索、存儲量,因?yàn)檫@樣壓縮的文檔集合和PCA是異曲同工的,二可以提高我們的用戶體驗(yàn),用戶輸入一個詞,我們可以在這個詞的近義詞的集合中去找,這是傳統(tǒng)的索引無法做到的。

2. LSA的優(yōu)點(diǎn)

1)低維空間表示可以刻畫同義詞,同義詞會對應(yīng)著相同或相似的主題。

2)降維可去除部分噪聲,是特征更魯棒。

3)充分利用冗余數(shù)據(jù)。

4)無監(jiān)督/完全自動化。

5)與語言無關(guān)。

3. LSA的缺點(diǎn)

1)LSA可以處理向量空間模型無法解決的一義多詞(synonymy)問題,但不能解決

網(wǎng)友評論