摘要:結(jié)巴中文分詞的特點(diǎn)如下:支持三種分詞模式:(精確模式,試圖將句子最精確地切開(kāi),適合文本分析;全模式,把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái), 速度非???,但是不能解決歧義;搜索引擎模式,在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適合用于搜索引擎分詞。)、支持繁體分詞、支持自定義詞典、MIT 授權(quán)協(xié)議。本文系列文章一是對(duì)官方文檔的介紹,文章二是引用收集網(wǎng)友對(duì)結(jié)巴分詞源碼的分析,文章三是對(duì)基本操作代碼示例演示。(本文原創(chuàng)匯編而成,轉(zhuǎn)載請(qǐng)標(biāo)明出處結(jié)巴分詞官方文檔分析(1)

目錄:

【結(jié)巴分詞資料匯編】結(jié)巴中文分詞官方文檔分析(1)

【結(jié)巴分詞資料匯編】結(jié)巴中文分詞源碼分析(2)

【結(jié)巴分詞資料匯編】結(jié)巴中文分詞基本操作(3)

1 結(jié)巴中文分詞:基于Python的中文分詞


 1 特點(diǎn)

  • 支持三種分詞模式:

    • 精確模式,試圖將句子最精確地切開(kāi),適合文本分析;
    • 全模式,把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái), 速度非??欤遣荒芙鉀Q歧義;
    • 搜索引擎模式,在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適合用于搜索引擎分詞。
  • 支持繁體分詞

  • 支持自定義詞典
  • MIT 授權(quán)協(xié)議

在線演示:http://jiebademo.ap01.aws.af.cm/

網(wǎng)站代碼https://github.com/fxsjy/jiebademo

2 安裝說(shuō)明:代碼對(duì) Py