Elasticsearch-65-IK分词器配置文件详解

ik配置文件

ik配置文件地址: es目录/plugins/ik/config

  • main.dic:ik原生内置的中文词库,总共有27万多条,只要是这些单词,都会被分在一起
  • quantifier.dic:放了一些单位相关的词
  • suffix.dic:放了一些后缀
  • surname.dic:中国的姓氏
  • stopword.dic:英文停用词
  • IKAnalyzer.cfg.xml:用来配置自定义词库地址

ik原生中最要的两个配置文件就是main.dic和stopword.dic

停用词一般就是像 a the at 等等这些单词,停用词在分词的时候会直接被干掉,不会建立倒排索引

自定义词库

每年都会有一些流行语,比如像蓝瘦香菇,网红等等这些词在ik原生的词典里面一般是没有的
我们可以添加到custom目录下面的mydict.dic
添加完成后,重启es,我们自己添加的这些词语就会生效

也可以自己建立停用词库,比如 了,的,啥,么,我们可能并不想让这些词去建立索引,就可以补充在custom/ext_stopword.dic中,然后重启es就可以生效了

或者说这些自定义词库,停用词,都可以自己创建一个dic文件,然后在IKAnalyzer.cfg.xml配置好文件的路径就可以了