上一節(jié),我們介紹利用文本和知識(shí)庫融合訓(xùn)練詞向量的方法,如何更好的融合這些結(jié)構(gòu)化知識(shí)呢?使得訓(xùn)練得到的詞向量更具有泛化能力,能有效識(shí)別同義詞反義詞,又能學(xué)習(xí)到上下文信息還有不同級(jí)別的語義信息。

    基于上述目標(biāo),我們嘗試基于CBOW模型,將知識(shí)庫中抽取的知識(shí)融合共同訓(xùn)練,提出LRWE模型。模型的結(jié)構(gòu)圖如下:

電腦培訓(xùn),計(jì)算機(jī)培訓(xùn),平面設(shè)計(jì)培訓(xùn),網(wǎng)頁設(shè)計(jì)培訓(xùn),美工培訓(xùn),Web培訓(xùn),Web前端開發(fā)培訓(xùn)

    下面詳細(xì)介紹該模型的思想和求解方法。

1. LWE模型

    在Word2vec的CBOW模型中,通過上下文的詞預(yù)測目標(biāo)詞,目標(biāo)是讓目標(biāo)詞在其給定上下文出現(xiàn)的概率最大,所以詞向量訓(xùn)練的結(jié)果是與其上下文的詞相關(guān)聯(lián)的。然而 CBOW模型只考慮了詞語的局部上下文信息,無法很好的表達(dá)同義詞和反義詞等信息。例如下面的幾個(gè)case:

電腦培訓(xùn),計(jì)算機(jī)培訓(xùn),平面設(shè)計(jì)培訓(xùn),網(wǎng)頁設(shè)計(jì)培訓(xùn),美工培訓(xùn),Web培訓(xùn),Web前端開發(fā)培訓(xùn)

    為了解決上述問題,本文將同義詞和反義詞等詞匯信息以外部知識(shí)的形式,作為詞向量訓(xùn)練中的監(jiān)督數(shù)據(jù),讓訓(xùn)練得到的詞向量能學(xué)習(xí)到同義、反義等詞匯信息,從而能更好地區(qū)分同義詞和反義詞。

1.1 模型思想

   記 ???? 的同義詞和反義詞集合為( ???? , ?????????? , ?????????? ),其中 SYN 表示同義詞集合,ANT 表示反義詞集合,我們的目標(biāo)是已知目標(biāo)詞對(duì)應(yīng)的同義詞集合和反義詞集合,預(yù)測目標(biāo)詞,使得目標(biāo)詞和它的同義詞距離盡可能相近,與反義詞距離盡可能遠(yuǎn)。 

   例如“The cat sat on the mat.”,已知sat有同義詞seated,反義詞stand,來預(yù)測目標(biāo)詞為sat。

   該模型稱為詞匯信息模型,模型結(jié)構(gòu)圖如下:

電腦培訓(xùn),計(jì)算機(jī)培訓(xùn),平面設(shè)計(jì)培訓(xùn),網(wǎng)頁設(shè)計(jì)培訓(xùn),美工培訓(xùn),Web培訓(xùn),Web前端開發(fā)培訓(xùn)

   對(duì)于一個(gè)詞語,我們根據(jù)它的同義詞和反義詞預(yù)測目標(biāo)詞,最大化詞語和它的同義詞同時(shí)出現(xiàn)的概率, 并降低詞語和它反義詞同時(shí)出現(xiàn)的概率。根據(jù)這個(gè)目標(biāo),定義以下的目標(biāo)函數(shù): 

電腦培訓(xùn),計(jì)算機(jī)培訓(xùn),平面設(shè)計(jì)培訓(xùn),網(wǎng)頁設(shè)計(jì)培訓(xùn),美工培訓(xùn),Web培訓(xùn),Web前端開發(fā)培訓(xùn)

電腦培訓(xùn),計(jì)算機(jī)培訓(xùn),平面設(shè)計(jì)培訓(xùn),網(wǎng)頁設(shè)計(jì)培訓(xùn),美工培訓(xùn),Web培訓(xùn),Web前端開發(fā)培訓(xùn)

    我們目標(biāo)是在基于上下文的CBOW語言模型訓(xùn)練過程中,加入同義詞反義詞信息作為監(jiān)督,使得訓(xùn)練所得詞向量能學(xué)習(xí)到同義和反義知識(shí)。基于該想法,我們提出基于詞匯信息的詞向量模型(Lexical Information Word