Elasticsearch分词器介绍、内置分词器及配置中文分词器

程序员文章站 2022-07-04 22:12:47

...

1、分词器、

分词器是从一串文本中切分一个个的词条，并对每个词条进行标准化，包含三个部分：

character filter：分词之前的预处理，过滤掉HTML标签、特殊符号转换（例如，将&符号转换成and、将|符号转换成or）等。
tokenizer：分词
token filter：标准化

2、内置分词器

standard分词器：（默认的）它将词汇单元转换成小写形式，并去掉停用词（a、an、the等没有实际意义的词）和标点符号，支持中文采用的方法为单字切分（例如，‘你好’切分为‘你’和‘好’）。
simple分词器：首先通过非字母字符来分割文本信息，然后将词汇单元同一为小写形式。该分析器会去掉数字类型的字符。
Whitespace分词器：仅仅是去除空格，对字符没有lowcase（大小写转换）化，不支持中文；并且不对生成的词汇单元进行其他的标准化处理。
language分词器：特定语言的分词器，不支持中文。

3、配置中文分词器（ayalysis-ik）

//下载中文分词器https://github.com/medcl/elasticsearch-ayalysis-ik
git clone https://github.com/medcl/elasticsearch-ayalysis-ik

//解压elasticsearch-ayalysis-ik-master.zip
unzip elasticsearch-ayalysis-ik-master.zip

//进入elasticsearch-ayalysis-ik-master，编译源码(这里使用maven进行编译（需要提前安装配置maven），Dmaven.test.skip=true是跳过测试)
mvn clean install —Dmaven.test.skip=true

//在es的plugins目录下创建ik目录
mkdir ik

//将编译后生成的elasticsearch-analysis-ik-版本.zip移动至ik目录下，并解压即可
cp elasticsearch-analysis-ik-版本.zip /opt/elasticsearch/plugins/ik
unzip elasticsearch-analysis-ik-版本.zip

Centos7-Minimal 版编译安装maven

上一篇： golang 使用 elasticsearch ik 分词器

下一篇：《原神》侧目！《王者荣耀》蝉联全球手游销冠：月吸金超16亿

Elasticsearch分词器介绍、内置分词器及配置中文分词器

1、分词器、

2、内置分词器

3、配置中文分词器（ayalysis-ik）

docker 部署 Elasticsearch kibana及ik分词器详解

ElasticSearch学习 - （八）安装中文分词器IK和拼音分词器

白话Elasticsearch28-IK中文分词器的安装和使用

Elasticsearch的IK分词器配置说明

Elasticsearch7.5配置IK中文分词器+拼音分词

solr配置中文分词器 IK分词器

elasticSearch~中文分词器安装及使用

elasticsearch analysis ansj分词器的安装及使用

Elasticsearch 系列文章（一）：Elasticsearch 默认分词器和中分分词器之间的比较及使用方法

Elasticsearch分词器介绍、内置分词器及配置中文分词器