1 簡介
關(guān)鍵詞抽取就是從文本里面把跟這篇文檔意義最相關(guān)的一些詞抽取出來。這個可以追溯到文獻(xiàn)檢索初期,當(dāng)時還不支持全文搜索的時候,關(guān)鍵詞就可以作為搜索這篇論文的詞語。因此,目前依然可以在論文中看到關(guān)鍵詞這一項。
除了這些,關(guān)鍵詞還可以在文本聚類、分類、自動摘要等領(lǐng)域中有著重要的作用。比如在聚類時將關(guān)鍵詞相似的幾篇文檔看成一個團簇,可以大大提高聚類算法的收斂速度;從某天所有的新聞中提取出這些新聞的關(guān)鍵詞,就可以大致了解那天發(fā)生了什么事情;或者將某段時間內(nèi)幾個人的微博拼成一篇長文本,然后抽取關(guān)鍵詞就可以知道他們主要在討論什么話題。
總之,關(guān)鍵詞就是最能夠反映出文本主題或者意思的詞語。但是網(wǎng)絡(luò)上寫文章的人不會像寫論文那樣告訴你本文的關(guān)鍵詞是什么,這個時候就需要利用計算機自動抽取出關(guān)鍵詞,算法的好壞直接決定了后續(xù)步驟的效果。
關(guān)鍵詞抽取從方法來說大致有兩種:
第一種是關(guān)鍵詞分配,就是有一個給定的關(guān)鍵詞庫,然后新來一篇文檔,從詞庫里面找出幾個詞語作為這篇文檔的關(guān)鍵詞;
第二種是關(guān)鍵詞抽取,就是新來一篇文檔,從文檔中抽取一些詞語作為這篇文檔的關(guān)鍵詞;
目前大多數(shù)領(lǐng)域無關(guān)的關(guān)鍵詞抽取算法(領(lǐng)域無關(guān)算法的意思就是無論什么主題或者領(lǐng)域的文本都可以抽取關(guān)鍵詞的算法)和它對應(yīng)的庫都是基于后者的。從邏輯上說,后者比前著在實際使用中更有意義。
從算法的角度來看,關(guān)鍵詞抽取算法主要有兩類:
有監(jiān)督學(xué)習(xí)算法,將關(guān)鍵詞抽取過程視為二分類問題,先抽取出候選詞,然后對于每個候選詞劃定標(biāo)簽,要么是關(guān)鍵詞,要么不是關(guān)鍵詞,然后訓(xùn)練關(guān)鍵詞抽取分類器。當(dāng)新來一篇文檔時,抽取出所有的候選詞,然后利用訓(xùn)練好的關(guān)鍵詞抽取分類器,對各個候選詞進行分類,最終將標(biāo)簽為關(guān)鍵詞的候選詞作為關(guān)鍵詞;
無監(jiān)督學(xué)習(xí)算法,先抽取出候選詞,然后對各個候選詞進行打分,然后輸出