Elasticsearch分词器介绍、内置分词器及配置中文分词器
程序员文章站
2022-07-04 22:12:47
...
1、分词器、
分词器是从一串文本中切分一个个的词条,并对每个词条进行标准化,包含三个部分:
- character filter:分词之前的预处理,过滤掉HTML标签、特殊符号转换(例如,将&符号转换成and、将|符号转换成or)等。
- tokenizer:分词
- token filter:标准化
2、内置分词器
- standard分词器:(默认的)它将词汇单元转换成小写形式,并去掉停用词(a、an、the等没有实际意义的词)和标点符号,支持中文采用的方法为单字切分(例如,‘你好’切分为‘你’和‘好’)。
- simple分词器:首先通过非字母字符来分割文本信息,然后将词汇单元同一为小写形式。该分析器会去掉数字类型的字符。
- Whitespace分词器:仅仅是去除空格,对字符没有lowcase(大小写转换)化,不支持中文;并且不对生成的词汇单元进行其他的标准化处理。
- language分词器:特定语言的分词器,不支持中文。
3、配置中文分词器(ayalysis-ik)
//下载中文分词器https://github.com/medcl/elasticsearch-ayalysis-ik
git clone https://github.com/medcl/elasticsearch-ayalysis-ik
//解压elasticsearch-ayalysis-ik-master.zip
unzip elasticsearch-ayalysis-ik-master.zip
//进入elasticsearch-ayalysis-ik-master,编译源码(这里使用maven进行编译(需要提前安装配置maven),Dmaven.test.skip=true是跳过测试)
mvn clean install —Dmaven.test.skip=true
//在es的plugins目录下创建ik目录
mkdir ik
//将编译后生成的elasticsearch-analysis-ik-版本.zip移动至ik目录下,并解压即可
cp elasticsearch-analysis-ik-版本.zip /opt/elasticsearch/plugins/ik
unzip elasticsearch-analysis-ik-版本.zip
推荐阅读
-
docker 部署 Elasticsearch kibana及ik分词器详解
-
ElasticSearch学习 - (八)安装中文分词器IK和拼音分词器
-
白话Elasticsearch28-IK中文分词器的安装和使用
-
Elasticsearch的IK分词器配置说明
-
Elasticsearch7.5配置IK中文分词器+拼音分词
-
solr配置中文分词器 IK分词器
-
elasticSearch~中文分词器安装及使用
-
elasticsearch analysis ansj分词器的安装及使用
-
Elasticsearch 系列文章(一):Elasticsearch 默认分词器和中分分词器之间的比较及使用方法
-
Elasticsearch分词器介绍、内置分词器及配置中文分词器