摘要:結巴中文分詞的特點如下:支持三種分詞模式:(精確模式,試圖將句子最精確地切開,適合文本分析;全模式,把句子中所有的可以成詞的詞語都掃描出來, 速度非??欤遣荒芙鉀Q歧義;搜索引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。)、支持繁體分詞、支持自定義詞典、MIT 授權協(xié)議。本文系列文章一是對官方文檔的介紹,文章二是引用收集網(wǎng)友對結巴分詞源碼的分析,文章三是對基本操作代碼示例演示。(本文原創(chuàng)匯編而成,轉載請標明出處:結巴分詞官方文檔分析(1)
目錄:
1 結巴中文分詞:基于Python的中文分詞
1 特點
-
支持三種分詞模式:
- 精確模式,試圖將句子最精確地切開,適合文本分析;
- 全模式,把句子中所有的可以成詞的詞語都掃描出來, 速度非??欤遣荒芙鉀Q歧義;
- 搜索引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。
-
支持繁體分詞
- 支持自定義詞典
- MIT 授權協(xié)議
在線演示:http://jiebademo.ap01.aws.af.cm/
網(wǎng)站代碼:https://github.com/fxsjy/jiebademo