0 起因

由于博主之前做了一些文本挖掘的項(xiàng)目,在項(xiàng)目中或多或少的用到了分詞模塊,對(duì)于中文分詞,博主一般使用Python開發(fā)的jieba分詞組件。最近,博主想閱讀一些開源系統(tǒng),就先從jieba開始,一是因?yàn)閖ieba實(shí)現(xiàn)了NLP的一些基礎(chǔ)技術(shù),例如分詞、詞性標(biāo)注;二是因?yàn)橄雽W(xué)習(xí)學(xué)習(xí)大神們的編碼規(guī)范。

1 jieba系統(tǒng)簡(jiǎn)介

"結(jié)巴"中文分詞:做最好的Python中文分詞組件。

特點(diǎn):

  1. 支持三種分詞模式
  2. 支持繁體分詞
  3. 支持自定義詞典
  4. MIT授權(quán)協(xié)議

涉及算法:

  1. 基于前綴詞典實(shí)現(xiàn)詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無(wú)環(huán)圖(DAG),采用動(dòng)態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合;
  2. 對(duì)于未登錄詞,采用了基于漢字成詞能力的 HMM模型,采用Viterbi算法進(jìn)行計(jì)算;
  3. 分別基于tfidf和textrank模型抽取關(guān)鍵詞;

2 jieba系統(tǒng)框架

jieba分詞系統(tǒng),主要實(shí)現(xiàn)三個(gè)模塊,

  1. 分詞
  2. 詞性標(biāo)注
  3. 關(guān)鍵詞抽取

其中,分詞有三種模式,默認(rèn)是精確模式,

延伸閱讀

學(xué)習(xí)是年輕人改變自己的最好方式-Java培訓(xùn),做最負(fù)責(zé)任的教育,學(xué)習(xí)改變命運(yùn),軟件學(xué)習(xí),再就業(yè),大學(xué)生如何就業(yè),幫大學(xué)生找到好工作,lphotoshop培訓(xùn),電腦培訓(xùn),電腦維修培訓(xùn),移動(dòng)軟件開發(fā)培訓(xùn),網(wǎng)站設(shè)計(jì)培訓(xùn),網(wǎng)站建設(shè)培訓(xùn)學(xué)習(xí)是年輕人改變自己的最好方式