分類導(dǎo)航

結(jié)巴分詞5--關(guān)鍵詞抽取

發(fā)布時間：2016年12月14日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除 (該文來自筆記，點擊查看原文)

1 簡介

關(guān)鍵詞抽取就是從文本里面把跟這篇文檔意義最相關(guān)的一些詞抽取出來。這個可以追溯到文獻(xiàn)檢索初期，當(dāng)時還不支持全文搜索的時候，關(guān)鍵詞就可以作為搜索這篇論文的詞語。因此，目前依然可以在論文中看到關(guān)鍵詞這一項。

除了這些，關(guān)鍵詞還可以在文本聚類、分類、自動摘要等領(lǐng)域中有著重要的作用。比如在聚類時將關(guān)鍵詞相似的幾篇文檔看成一個團簇，可以大大提高聚類算法的收斂速度；從某天所有的新聞中提取出這些新聞的關(guān)鍵詞，就可以大致了解那天發(fā)生了什么事情；或者將某段時間內(nèi)幾個人的微博拼成一篇長文本，然后抽取關(guān)鍵詞就可以知道他們主要在討論什么話題。

總之，關(guān)鍵詞就是最能夠反映出文本主題或者意思的詞語。但是網(wǎng)絡(luò)上寫文章的人不會像寫論文那樣告訴你本文的關(guān)鍵詞是什么，這個時候就需要利用計算機自動抽取出關(guān)鍵詞，算法的好壞直接決定了后續(xù)步驟的效果。

關(guān)鍵詞抽取從方法來說大致有兩種：

第一種是關(guān)鍵詞分配，就是有一個給定的關(guān)鍵詞庫，然后新來一篇文檔，從詞庫里面找出幾個詞語作為這篇文檔的關(guān)鍵詞；
第二種是關(guān)鍵詞抽取，就是新來一篇文檔，從文檔中抽取一些詞語作為這篇文檔的關(guān)鍵詞；

目前大多數(shù)領(lǐng)域無關(guān)的關(guān)鍵詞抽取算法（領(lǐng)域無關(guān)算法的意思就是無論什么主題或者領(lǐng)域的文本都可以抽取關(guān)鍵詞的算法）和它對應(yīng)的庫都是基于后者的。從邏輯上說，后者比前著在實際使用中更有意義。

從算法的角度來看，關(guān)鍵詞抽取算法主要有兩類：

有監(jiān)督學(xué)習(xí)算法，將關(guān)鍵詞抽取過程視為二分類問題，先抽取出候選詞，然后對于每個候選詞劃定標(biāo)簽，要么是關(guān)鍵詞，要么不是關(guān)鍵詞，然后訓(xùn)練關(guān)鍵詞抽取分類器。當(dāng)新來一篇文檔時，抽取出所有的候選詞，然后利用訓(xùn)練好的關(guān)鍵詞抽取分類器，對各個候選詞進行分類，最終將標(biāo)簽為關(guān)鍵詞的候選詞作為關(guān)鍵詞；
無監(jiān)督學(xué)習(xí)算法，先抽取出候選詞，然后對各個候選詞進行打分，然后輸出
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍(lán)牙鎖 2017-07-26
- 消息隊列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】 2017-07-26
- 詞向量-LRWE模型-更好地識別反義詞同義詞 2017-07-26
- 從棧不平衡問題理解 calling convention 2017-07-26
- php imagemagick 處理圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二) 2017-07-26
學(xué)習(xí)是年輕人改變自己的最好方式

我想了解如何學(xué)習(xí)

分類導(dǎo)航

結(jié)巴分詞5--關(guān)鍵詞抽取

1 簡介

延伸閱讀

我想了解如何學(xué)習(xí)