1 簡(jiǎn)介

關(guān)鍵詞抽取就是從文本里面把跟這篇文檔意義最相關(guān)的一些詞抽取出來(lái)。這個(gè)可以追溯到文獻(xiàn)檢索初期,當(dāng)時(shí)還不支持全文搜索的時(shí)候,關(guān)鍵詞就可以作為搜索這篇論文的詞語(yǔ)。因此,目前依然可以在論文中看到關(guān)鍵詞這一項(xiàng)。

除了這些,關(guān)鍵詞還可以在文本聚類、分類、自動(dòng)摘要等領(lǐng)域中有著重要的作用。比如在聚類時(shí)將關(guān)鍵詞相似的幾篇文檔看成一個(gè)團(tuán)簇,可以大大提高聚類算法的收斂速度;從某天所有的新聞中提取出這些新聞的關(guān)鍵詞,就可以大致了解那天發(fā)生了什么事情;或者將某段時(shí)間內(nèi)幾個(gè)人的微博拼成一篇長(zhǎng)文本,然后抽取關(guān)鍵詞就可以知道他們主要在討論什么話題。

總之,關(guān)鍵詞就是最能夠反映出文本主題或者意思的詞語(yǔ)。但是網(wǎng)絡(luò)上寫(xiě)文章的人不會(huì)像寫(xiě)論文那樣告訴你本文的關(guān)鍵詞是什么,這個(gè)時(shí)候就需要利用計(jì)算機(jī)自動(dòng)抽取出關(guān)鍵詞,算法的好壞直接決定了后續(xù)步驟的效果。

關(guān)鍵詞抽取從方法來(lái)說(shuō)大致有兩種:

  • 第一種是關(guān)鍵詞分配,就是有一個(gè)給定的關(guān)鍵詞庫(kù),然后新來(lái)一篇文檔,從詞庫(kù)里面找出幾個(gè)詞語(yǔ)作為這篇文檔的關(guān)鍵詞;

  • 第二種是關(guān)鍵詞抽取,就是新來(lái)一篇文檔,從文檔中抽取一些詞語(yǔ)作為這篇文檔的關(guān)鍵詞;

目前大多數(shù)領(lǐng)域無(wú)關(guān)的關(guān)鍵詞抽取算法(領(lǐng)域無(wú)關(guān)算法的意思就是無(wú)論什么主題或者領(lǐng)域的文本都可以抽取關(guān)鍵詞的算法)和它對(duì)應(yīng)的庫(kù)都是基于后者的。從邏輯上說(shuō),后者比前著在實(shí)際使用中更有意義。

從算法的角度來(lái)看,關(guān)鍵詞抽取算法主要有兩類:

  • 有監(jiān)督學(xué)習(xí)算法,將關(guān)鍵詞抽取過(guò)程視為二分類問(wèn)題,先抽取出候選詞,然后對(duì)于每個(gè)候選詞劃定標(biāo)簽,要么是關(guān)鍵詞,要么不是關(guān)鍵詞,然后訓(xùn)練關(guān)鍵詞抽取分類器。當(dāng)新來(lái)一篇文檔時(shí),抽取出所有的候選詞,然后利用訓(xùn)練好的關(guān)鍵詞抽取分類器,對(duì)各個(gè)候選詞進(jìn)行分類,最終將標(biāo)簽為關(guān)鍵詞的候選詞作為關(guān)鍵詞;

  • 無(wú)監(jiān)督學(xué)習(xí)算法,先抽取出候選詞,然后對(duì)各個(gè)候選詞進(jìn)行打分,然后輸出

    網(wǎng)友評(píng)論