在做文本挖掘的時候,首先要做的預(yù)處理就是分詞。英文單詞天然有空格隔開容易按照空格分詞,但是也有時候需要把多個單詞做為一個分詞,比如一些名詞如“New York”,需要做為一個詞看待。而中文由于沒有空格,分詞就是一個需要專門去解決的問題了。無論是英文還是中文,分詞的原理都是類似的,本文就對文本挖掘時的分詞原理做一個總結(jié)。

1. 分詞的基本原理

    現(xiàn)代分詞都是基于統(tǒng)計的分詞,而統(tǒng)計的樣本內(nèi)容來自于一些標(biāo)準(zhǔn)的語料庫。假如有一個句子:“小明來到荔灣區(qū)”,我們期望語料庫統(tǒng)計后分詞的結(jié)果是:"小明/來到/荔灣/區(qū)",而不是“小明/來到/荔/灣區(qū)”。那么如何做到這一點呢?

    從統(tǒng)計的角度,我們期望"小明/來到/荔灣/區(qū)"這個分詞后句子出現(xiàn)的概率要比“小明/來到/荔/灣區(qū)”大。如果用數(shù)學(xué)的語言來說說,如果有一個句子S

延伸閱讀

學(xué)習(xí)是年輕人改變自己的最好方式-Java培訓(xùn),做最負(fù)責(zé)任的教育,學(xué)習(xí)改變命運,軟件學(xué)習(xí),再就業(yè),大學(xué)生如何就業(yè),幫大學(xué)生找到好工作,lphotoshop培訓(xùn),電腦培訓(xùn),電腦維修培訓(xùn),移動軟件開發(fā)培訓(xùn),網(wǎng)站設(shè)計培訓(xùn),網(wǎng)站建設(shè)培訓(xùn)學(xué)習(xí)是年輕人改變自己的最好方式