Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings
Yanyi Wu edited this page Jan 22, 2016 · 3 revisions

这些Wiki已经年久失修,跟不上代码发展,具体问题还是通过issue沟通解决吧。

  1. 用户词典(user.dict.utf8)和原生词典(jieba.dict.utf8) 里面含有的词重复会怎样?

jieba.dict.utf8 词典里面的词都带有词频, 因为 MPSegment 的分次算法是最大概率分词算法, 需要使用词频换算成概率。 用户词典没有词频,在载入的时候,程序会给用户词典里所有的词赋予原生词典里的最大词频。 在程序中没有判断是否该词已经载入过(先载入jieba.dict.utf8,再载入 user.dict.utf8), 所以后者的权重会覆盖前者。 可能会造成和预期不符合的切词结果。 所以请保持词典之间词语没有重复。

  1. 对于特殊字符的特殊规则

分词不只是算法,特殊规则在分词中其实非常重要,细心的人可以试试各种输入法,其实输入法也是做了大量的人工规则。

暂时有如下规则:

  • 对于连续的数字(包括浮点数)会被单独切分出来。
  • 对于连续的字母,也会被单独切分出来。

Clone this wiki locally

AltStyle によって変換されたページ (->オリジナル) /