1 簡介

關(guān)鍵詞抽取就是從文本里面把跟這篇文檔意義最相關(guān)的一些詞抽取出來。這個可以追溯到文獻(xiàn)檢索初期,當(dāng)時還不支持全文搜索的時候,關(guān)鍵詞就可以作為搜索這篇論文的詞語。因此,目前依然可以在論文中看到關(guān)鍵詞這一項。

除了這些,關(guān)鍵詞還可以在文本聚類、分類、自動摘要等領(lǐng)域中有著重要的作用。比如在聚類時將關(guān)鍵詞相似的幾篇文檔看成一個團簇,可以大大提高聚類算法的收斂速度;從某天所有的新聞中提取出這些新聞的關(guān)鍵詞,就可以大致了解那天發(fā)生了什么事情;或者將某段時間內(nèi)幾個人的微博拼成一篇長文本,然后抽取關(guān)鍵詞就可以知道他們主要在討論什么話題。

總之,關(guān)鍵詞就是最能夠反映出文本主題或者意思的詞語。但是網(wǎng)絡(luò)上寫文章的人不會像寫論文那樣告訴你本文的關(guān)鍵詞是什么,這個時候就需要利用計算機自動抽取出關(guān)鍵詞,算法的好壞直接決定了后續(xù)步驟的效果。

關(guān)鍵詞抽取從方法來說大致有兩種:

  • 第一種是關(guān)鍵詞分配,就是有一個給定的關(guān)鍵詞庫,然后新來一篇文檔,從詞庫里面找出幾個詞語作為這篇文檔的關(guān)鍵詞;

  • 第二種是關(guān)鍵詞抽取,就是新來一篇文檔,從文檔中抽取一些詞語作為這篇文檔的關(guān)鍵詞;

目前大多數(shù)領(lǐng)域無關(guān)的關(guān)鍵詞抽取算法(領(lǐng)域無關(guān)算法的意思就是無論什么主題或者領(lǐng)域的文本都可以抽取關(guān)鍵詞的算法)和它對應(yīng)的庫都是基于后者的。從邏輯上說,后者比前著在實際使用中更有意義。

從算法的角度來看,關(guān)鍵詞抽取算法主要有兩類: