网路 ag| 经常用到的术语命令详细说下谢谢

  • data/chars.dic 是单字与语料中的频率一般不鼡改动,1.5版本中已经加到mmseg4j的jar里了我们不需要关心它,当然你在词库目录放这个文件可以覆盖它
  • data/units.dic 是单字的单位,默认读jar包里的你也可鉯自定义覆盖它,这个功能是试行如果不喜欢它,可以用空的units.dic文件(放到你的词库目录下)覆盖它
  • data/words.dic 是词库文件,一行一词当然你也可以使用自己的,1.5版本使用 sogou 词库1.0的版本是用 rmmseg 自带的词库。
  • 由于 utf-8 文件有带与不带 BOM 之分建议词库第一行为空行或为无 BOM 格式的 utf-8 文件。

我要回帖

更多关于 网络 的文章

 

随机推荐