ik配置文件
ik配置文件地址: es目录/plugins/ik/config
- main.dic:ik原生内置的中文词库,总共有27万多条,只要是这些单词,都会被分在一起
- quantifier.dic:放了一些单位相关的词
- suffix.dic:放了一些后缀
- surname.dic:中国的姓氏
- stopword.dic:英文停用词
- IKAnalyzer.cfg.xml:用来配置自定义词库地址
ik原生中最要的两个配置文件就是main.dic和stopword.dic
停用词一般就是像 a the at 等等这些单词,停用词在分词的时候会直接被干掉,不会建立倒排索引
自定义词库
每年都会有一些流行语,比如像蓝瘦香菇,网红等等这些词在ik原生的词典里面一般是没有的
我们可以添加到custom目录下面的mydict.dic
添加完成后,重启es,我们自己添加的这些词语就会生效
也可以自己建立停用词库,比如 了,的,啥,么,我们可能并不想让这些词去建立索引,就可以补充在custom/ext_stopword.dic中,然后重启es就可以生效了
或者说这些自定义词库,停用词,都可以自己创建一个dic文件,然后在IKAnalyzer.cfg.xml配置好文件的路径就可以了