1. 前言

ICTCLAS是張華平在2000年推出的中文分詞系統(tǒng),于2009年更名為NLPIR。ICTCLAS是中文分詞界元老級工具了,作者開放出了free版本的源代碼(1.0整理版本在此). 作者在論文[1] 中宣稱ICTCLAS是基于HHMM(Hierarchical Hidden Markov Model)實(shí)現(xiàn),后在論文[2]中改成了基于層疊隱馬爾可夫模型CHMM(Cascaded Hidden Markov Model)。我把HHMM的原論文[3]讀了一遍,對照ICTCLAS源碼,發(fā)現(xiàn)ICTCLAS本質(zhì)上就是一個(gè)Bigram的Word-Based Generative Model,用HMM來做未登錄詞識別(修正分詞)與詞性標(biāo)注,與HHMM沒有半毛錢關(guān)系。Biagram語法模型對應(yīng)于1階Markov假設(shè),則ICTCLAS分詞模型的聯(lián)合概率為

延伸閱讀

學(xué)習(xí)是年輕人改變自己的最好方式-Java培訓(xùn),做最負(fù)責(zé)任的教育,學(xué)習(xí)改變命運(yùn),軟件學(xué)習(xí),再就業(yè),大學(xué)生如何就業(yè),幫大學(xué)生找到好工作,lphotoshop培訓(xùn),電腦培訓(xùn),電腦維修培訓(xùn),移動軟件開發(fā)培訓(xùn),網(wǎng)站設(shè)計(jì)培訓(xùn),網(wǎng)站建設(shè)培訓(xùn)學(xué)習(xí)是年輕人改變自己的最好方式