分词规则

查看分词结果

GET /表名/_analyze
{
  "field": "字段名",
  "text": "Eating an apple a day & keeps the doctor away"
}

默认分词

英语分词

PUT /movie
{
  "mappings": {
    "properties": {
      "name": {
        "type": "text",
        "analyzer": "english"
      }
    }
  }
}

中文分词

安装中文分词器（Ik插件）

命令行安装

cd bin
elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.11.1/elasticsearch-analysis-ik-7.11.1.zip

在官网中的 release 中下载对应版本的压缩包
到 elasticSearch 的 plugins 下解压

2种分词规则

ik_smart：尽最精简的分出词语。一般用于搜索关键词的分词
ik_max_word：只要匹配词库的，就选出。一般用于索引分词

例子：中华人民共和国国歌
ik_smart：中华人民共和国、国歌
ik_max_word：中华人民共和国、中华人民、中华、华人、人民共和国、人民、共和国、共和、国、国歌

词库扩展
在 ik/config 创建新的词库文件 xx.dic
在 xx.dic 加入词，每个词一行
你好
你不好
把 xx.dic 用 utf-8 编码
在 IKAnalyzer.cfg.xml 中加入词库文件


<entry key="ext_dict">xxx1.dic;xxx2.dic</entry>