欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

elasticsearch分词器-analyzer

程序员文章站 2024-02-21 22:33:28
...

这里写自定义目录标题

一,分词器

分词器由三部分构成:character filter、tokenizer、tokenizer filter

二,主要的分词器

GET /_analyze
{
  "analyzer": "standard",
  "text":"I am a student"
}
// 使用某个索引的某个字段的分词器
POST lcy_test/_analyze
{
  "field": "name",
  "text":"Lebron James"
}
// 标准分词器,按词切分,转小写,不过滤助词等
GET /_analyze
{
  "analyzer": "standard",
  "text":"I am a good boy"
}
// 简单分词器,按非字符切分,转小写,不过滤助词等
GET /_analyze
{
  "analyzer": "simple",
  "text":"I am a-good boy"
}
// 空格分词器,按空格切分
GET /_analyze
{
  "analyzer": "whitespace",
  "text":"I am A-good boy"
}
// stop分词器,按非字符进行,去除助词等
GET /_analyze
{
  "analyzer": "stop",
  "text":"I am A-good boy"
}
// keyword分词器,不切分
GET /_analyze
{
  "analyzer": "keyword",
  "text":"I am A-good boy"
}
// pattern分词器,按正则表达式切分,可自定义正则表达式,默认按非字符切分
GET /_analyze
{
  "analyzer": "pattern",
  "text":"I am A-good boy"
}
相关标签: java