elasticsearch中文分词集成怎么实现

本篇内容介绍了“elasticsearch中文分词集成怎么实现”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

创新互联是一家专业提供溆浦企业网站建设,专注与成都网站设计、网站建设、HTML5建站、小程序制作等业务。10年已为溆浦众多企业、政府机构等服务。创新互联专业网站制作公司优惠进行中。

对于索引可能最关系的就是分词了一般对于es 来说默认的smartcn 但效果不是很好

一个是ik的，一个是mmseg的，下面分别介绍下两者的用法，其实都差不多的，先安装插件，命令行：

安装ik插件

plugin -install medcl/elasticsearch-analysis-ik/1.1.0

下载ik相关配置词典文件到config目录

elasticsearch中文分词集成怎么实现

unzip ik.zip

rm ik.zip

分词配置

ik分词配置，在elasticsearch.yml文件中加上

index:
  analysis:                   
    analyzer:      
      ik:
          alias: [ik_analyzer]
          type: org.elasticsearch.index.analysis.IkAnalyzerProvider

或

index.analysis.analyzer.ik.type : “ik”

安装mmseg插件：

bin/plugin -install medcl/elasticsearch-analysis-mmseg/1.1.0

下载相关配置词典文件到config目录

cd config

wget http://github.com/downloads/medcl/elasticsearch-analysis-mmseg/mmseg.zip --no-check-certificate

unzip mmseg.zip

rm mmseg.zip

mmseg分词配置，也是在在elasticsearch.yml文件中

index:
  analysis:
    analyzer:
      mmseg:
          alias: [news_analyzer, mmseg_analyzer]
          type: org.elasticsearch.index.analysis.MMsegAnalyzerProvider

或

index.analysis.analyzer.default.type : "mmseg"

mmseg分词还有些更加个性化的参数设置如下

index:
  analysis:
    tokenizer:
      mmseg_maxword:
          type: mmseg
          seg_type: "max_word"
      mmseg_complex:
          type: mmseg
          seg_type: "complex"
      mmseg_simple:
          type: mmseg
          seg_type: "simple"

这样配置完后插件安装完成，启动es就会加载插件。

定义mapping

在添加索引的mapping时就可以这样定义分词器

{
   "page":{
      "properties":{
         "title":{
            "type":"string",
            "indexAnalyzer":"ik",
            "searchAnalyzer":"ik"
         },
         "content":{
            "type":"string",
            "indexAnalyzer":"ik",
            "searchAnalyzer":"ik"
         }
      }
   }
}

indexAnalyzer为索引时使用的分词器，searchAnalyzer为搜索时使用的分词器。

java mapping代码如下：

XContentBuilder content = XContentFactory.jsonBuilder().startObject()
        .startObject("page")
          .startObject("properties")       
            .startObject("title")
              .field("type", "string")           
              .field("indexAnalyzer", "ik")
              .field("searchAnalyzer", "ik")
            .endObject() 
            .startObject("code")
              .field("type", "string")         
              .field("indexAnalyzer", "ik")
              .field("searchAnalyzer", "ik")
            .endObject()     
          .endObject()
         .endObject()
       .endObject()

测试分词可用调用下面api，注意indexname为索引名，随便指定一个索引就行了

“elasticsearch中文分词集成怎么实现”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注创新互联网站，小编将为大家输出更多高质量的实用文章！

本文名称：elasticsearch中文分词集成怎么实现
浏览路径：http://bzwzjz.com/article/pdhhgg.html

用户体验为先导为品牌带来生命力

elasticsearch中文分词集成怎么实现

安装ik插件

安装mmseg插件：

其他资讯

用户体验为先导 为品牌带来生命力

elasticsearch中文分词集成怎么实现

安装ik插件

安装mmseg插件：

其他资讯

用户体验为先导为品牌带来生命力