Elasticsearch

程序员文章站 2022-06-24 12:09:36

文章目录1、ES核心概念1.1、概述1.2、索引1.3、字段类型（mapping）1.4、文档（documents）1.5、倒排索引2、IK分词器2.1、下载2.2、安装2.3、查看插件列表2.4、使用Kibana进行测试2.5、编写我们对应字典3、Rest风格说明3.1、创建索引规则并添加数据3.2、创建索引规则3.3、获得规则信息3.4、修改索引规则3.5、删除索引规则3.6、打印ES的相关信息4、文档的基本操作（重点）4.1、添加数据4.2、查询数据4.3、更新数据4.4、删除数据4.5、复杂查询...

1、ES核心概念

ES是如何存储数据？其数据结构是什么？具体又是怎么实现搜索的呢？

1.1、概述

Elasticsearch是面向文档，一切都是JSON。

关系型数据库和Elasticsearch客观的对比：

Elasticsearch	Relational DB
索引（indices）	数据库（database）
字段类型（types）	表（tables）
文档（documents）	行（rows）
fields	字段（columns）

Elasticsearch（集群）中可以包含多个索引（数据库），每个索引中可以包含多个类型（表），每个类型下又包含多个文档（行），每个文档中又包含多个列（字段）。

物理设计： Elasticsearch在后台把每个索引划分成多个分片，每分分片可以在集群中的不同服务器间迁移一个人就是一个集群！默认的集群名称就是Elaticsearh

Elasticsearch

逻辑设计：一个索引类型中，包含多个文档，比如说文档1，文档2。当我们索引一篇文档时，可以通过这样的一各顺序找到它：索引 --> 类型 --> 文档ID ，通过这个组合我们就能索引到某个具体的文档。注意:ID不必是整数，实际上它是个字符串。

1.2、索引

索引是映射类型的容器，Elasticsearch中的索引是一个非常大的文档集合。索引存储了映射类型的字段和其他设置。然后它们被存储到了各个分片上了。我们来研究下分片是如何工作的。

节点和分片如何工作？

Elasticsearch

一个集群至少有一个节点，而一个节点就是一个Elasticsearch进程，节点可以有多个默认的索引。如果创建索引，那么索引将会有5个分片 ( primary shard ，又称主分片 ) 构成的，每一个主分片会有一个副本 ( replica shard ,又称复制分片 )

1.3、字段类型（mapping）

类比于关系型数据库中字段的类型

类型是文档的逻辑容器，就像关系型数据库一样，表格是行的容器。类型中对于字段的定义称为映射，比如 name映射为字符串类型。我们说文档是无模式的，它们不需要拥有映射中所定义的所有字段，比如新增一个字段，那么Elasticsearch是怎么做的呢？Elasticsearch会自动的将新字段加入映射，但是这个字段的不确定它是什么类型，Elasticsearch就开始猜，如果这个值是18，那么Elasticsearch会认为它是整形。但是Elasticsearch也可能猜不对，所以最安全的方式就是提前定义好所需要的映射，这点跟关系型数据库殊途同归了，先定义好字段，然后再使用。

1.4、文档（documents）

//这就是我们的一条数据
people
    pan 20
    mobian 22

之前说Elasticsearch是面向文档的，那么就意味着索引和搜索数据的最小单位是文档，Elasticsearch中，文档有几个重要属性：

自我包含，一篇文档同时包含字段和对应的值，也就是同时包含 key：value
可以是层次型的，一个文档中包含自文档，复杂的逻辑实体就是这么来的。 {就是一个JSON对象， Fastjson进行自动转换}
灵活的结构，文档不依赖预先定义的模式，我们知道关系型数据库中，要提前定义字段才能使用，在Elasticsearch中，对于字段是非常灵活的，有时候，我们可以忽略该字段，或者动态的添加一个新的字段

尽管我们可以随意的新增或者忽略某个字段，但是，每个字段的类型非常重要，比如一个年龄字段类型，可以是字符串也可以是整形。因为Elasticsearch会保存字段和类型之间的映射及其他的设置。这种映射具体到每个映射的每种类型，这也是为什么在Elasticsearch中，类型有时候也称为映射类型。

1.5、倒排索引

Elasticsearch使用的是一种称为倒排索引的结构，采用Lucene倒排索作为底层。这种结构适用于快速的全文搜索，一个索引由文档中所有不重复的列表构成，对于每一个词，都有一个包含它的文档列表。

例如，现在有两个文档，每个文档包含如下内容：

Study every day, good good up to forever   //文档1包含的内容
To forever, study every day, good good up  //文档2包含的内容

为了创建倒排索引，我们首先要将每个文档拆分成独立的词（或称为词条或者tokens），然后创建一个包含所有不重复的词条的排序列表，然后列出每个词条出现在哪个文档，分别为doc_1和doc_2

term	doc_1	doc_2
Study	√	×
To	×	×
every	√	√
forever	√	√
day	√	√
study	×	√
good	√	√
every	√	√
to	√	×
up	√	√

当我们去搜索to forever时，只需要查看包含每个词条的文档权重，就能够快速查询到结果。

term	doc_1	doc_2
to	√	×
forever	√	√
total	2	1

两个文档都匹配，但是第一个文档比第二个匹配程度更高。如果没有别的条件，现在，这两个包含关键字的文档都将返回。

Elasticsearch的索引和Lucene的索引对比

在Elasticsearch中，索引（库）这个词被频繁使用，这就是术语的使用。在Elasticsearch中，索引被分为多个分片，每份分片是一个Lucene的索引。所以一个Elasticsearch索引是由多个Lucene索引组成的。

一般情况下，我们所说的索引都是指Elasticsearch的索引。

2、IK分词器

分词：即把一段中文或者别的划分成一个个的关键字，我们在搜索时候会把自己的信息进行分词，会把数据库中或者索引库中的数据进行分词，然后进行一个匹配操作，默认的中文分词是将每个字看成一个词，比如 “请叫我默辨” 会被分为"请",“叫”,“我”,“默”，“辨”。这显然是不符合要求的，所以我们需要安装中文分词器IK来解决这个问题。

如果要使用中文，建议使用IK分词器！ IK提供了两个分词算法：ik_smart 和 ik_max_word，其中 ik_smart 为最少切分，ik_max_word为最细粒度划分。

2.1、下载

下载地址：https://github.com/medcl/elasticsearch-analysis-ik

2.2、安装

下载完后，将文件解压到Elasticsearch的plugins文件夹中（可以自己新建一个ik文件夹）

2.3、查看插件列表

1、找到ES的bin目录下的插件处理文件
Elasticsearch

使用list命令，即可查看对应的插件列表
Elasticsearch

2、当然我们在启动ES的列表中也可以查看到 Elasticsearch

2.4、使用Kibana进行测试

ik_smart和ik_max_word的区别：

ik_smart 为最少切分

Elasticsearch

ik_max_word为最细粒度划分。（穷尽所有的可能，类比为一个字典）

Elasticsearch

2.5、编写我们对应字典

如果我们希望出现自己组合的词语，我们可以在配置文件中自行配置

配置前的效果：
Elasticsearch

配置步骤：

在指定目录下添加我们的希望出现的词语
在配置文件中引入我们添加的字典文件
重启ES

配置后的效果：
Elasticsearch

3、Rest风格说明

一种软件架构风格，而不是标准，只是提供了一组设计原则和约束条件。它主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁，更有层次，更易于实现缓存等机制。

method	url地址	描述
PUT	localhost:9200/索引名称/类型名称/文档id	创建文档（指定文档id）
POST	localhost:9200/索引名称/类型名称	创建文档（随机文档id）
POST	localhost:9200/索引名称/类型名称/文档id/_update	修改文档
DELETE	localhost:9200/索引名称/类型名称/文档id	删除文档
GET	localhost:9200/索引名称/类型名称/文档id 查询	查询文档通过文档id
POST	localhost:9200/索引名称/类型名称/_search	查询所有数据

3.1、创建索引规则并添加数据

在Kibana命令行中输入如下命令：

PUT /mobian/type/1
{
  "name":"默辨",
  "age":"22"
}

右边返回相应的创建成功后的信息：
Elasticsearch

在可视化界面中查看对应的数据信息：
Elasticsearch

3.2、创建索引规则

我们可以给对应的字段指定类型：

字符串类型：text 、 keyword
数值类型 long, integer, short, byte, double, float, half_float, scaled_float
日期类型 date PUT /索引名/_类型名/文档id {请求体}
布尔值类型 boolean
二进制类型 binary
等等…

区别去我们创建索引（类比于创建数据库的时候直接添加了数据），此处的索引规则我们可以类比于创建数据库的字段类型，不添加数据。

Elasticsearch

3.3、获得规则信息

我们可以通过GET请求，获取对应的信息

Elasticsearch

获取我们默认的规则（获取的是我们之前没有指定类型的索引）

Elasticsearch

3.4、修改索引规则

常规情况下，使用PUT方式

Elasticsearch

使用改方式是会报错的。正常的修改索引规则的方式为：

新建一个备份索引 --> 数据备份 --> 删除原索引 --> 新建一个期望的索引 --> 数据恢复

3.5、删除索引规则

直接使用DELETE命令即可删除索引

Elasticsearch

通过DELETE命令实现删除，根据我们的请求来判断是删除索引还是删除文档记录。

ES也推荐我们使用RESTFUL风格。

3.6、打印ES的相关信息

打印ES的健康值

Elasticsearch

打印ES的其他信息

Elasticsearch

4、文档的基本操作（重点）

4.1、添加数据

使用PUT命令
Elasticsearch

在可视化界面中可以进行相应的查看
Elasticsearch

4.2、查询数据

使用GET命令

直接查询出一整条数据

Elasticsearch

结合_search命令，根据条件进行查询

//查询name属性值里面含有3的数据信息
GET /mobian/user/_search?q=name:3

Elasticsearch

查询结果：
Elasticsearch

4.3、更新数据

1、使用PUT名命令

PUT的方式可以等价为全文修改，而非指定项的修改

Elasticsearch

2、如果我们希望的是修改部分数据，则更建议使用POST命令配合_update命令来操作（推荐）

注意：被修改的字段需要放置在doc下

Elasticsearch

索引中的信息也发生了改变
Elasticsearch

4.4、删除数据

直接使用DELETE命令
Elasticsearch

4.5、复杂查询

排序、分页、高亮、模糊查询、精准查询

1、使用JSON格式进行数据查询

Elasticsearch

其中：

_score：表示最大的分数，即查询的匹配度，匹配度越高可以在展示时越靠前。
hits：索引和文档信息，显示的是查询结果总数。我们在Java中就可以根据查询出来的具体文档，遍历出相应的数据。

2、输出需要的数据列信息

使用_source命令，进行信息的过滤

Elasticsearch

3、根据数据信息排序显示

使用sort命令

Elasticsearch

这里有一个坑，之前我自己在定义的age规则的时候，带上了引号，所以导致我的age规则是text类型。对于text类型的数据，是不能直接进行排序的，在我的多方百度下，最终找到了方法。如果我们最开始直接就是定义的数字类型，那么我们这里就可以直接使用sort进行排序，不需要带上keyword。

解决方法

4、分页查询

配合from和size使用（类比limit的使用）

Elasticsearch

from：从第几个开始

size：每一页的数据量

Elasticsearch

5、布尔值查询

通过关键字bool，进行一个精确的查询。

bool与must配合使用：表示and

（名字含有默辨，并且年龄为21）

Elasticsearch

bool与should配合使用：表示or

（名字包含默辨，或者年龄为11）

Elasticsearch

bool与must_not配合使用：表示not

（名字不含有默辨，年龄不等于12）

Elasticsearch

过滤器filter的配合查询

（名字中含有默辨，并且年龄大于20）

Elasticsearch

gt 大于
gte 大于等于
lt 小于
lte 小于等于

可以多个条件配合使用，进行数据的过滤

Elasticsearch

6、匹配多个条件查询

（多个条件使用空格分隔，只要满足其中一个结果就可以被查出。可以通过_score分数的高低进行排序显示）

Elasticsearch

PUT /mobian/user/4
{
  "name":"李四33",
  "age":"13",
  "desc":"好吃懒做",
  "hobbys":["不吃饭","不睡觉","打人"]
}


GET mobian/user/_search 
{
 "query": {
   "match": {
     "hobbys": "吃饭 睡觉"
   }
 }
}

7、精确查询

（term查询是直接通过倒排索引指定的词条进行精确查找的）

关于分词：

term：直接查询精确
match：会使用分词器解析（先分析文档，然后再通过分析的文档进行查询）

补充：keyword、text两个类型下不同的解析情况

测试步骤：

新建含有指定规则的索引，并添加数据

PUT testdb
{
  "mappings": {
    "properties": {
      "name":{
        "type": "text"
      },
      "desc":{
        "type": "keyword"
      }
    }
  }
}

PUT testdb/_doc/1 
{
  "name" : "默辨学Java name",
  "desc":"默辨学Java desc"
}

PUT testdb/_doc/2 
{
  "name" : "默辨学Java name",
  "desc":"默辨学Java desc2"
}

GET _analyze
{
  "analyzer": "keyword",
  "text": "默辨学Java name"
}

Elasticsearch

查询keyword时
查询text时

使用keyword时，查询时就是一个简单的字符串，没有被分析。使用普通的分词器时，默认会将词语分割为一个一个字，可以被分析。两者使用了不同的分词器去解析。

查询的是name，由于其是规则是text，所以会被拆分为一个一个的字，即我们后面使用精确查询时，依然能够查询到

Elasticsearch

由于desc的规则是keyword，所以我们在查询且进行匹配的时候，desc是一个整体的。所以此时的查询是没有结果的

Elasticsearch

由于keyword无法被拆分，我们在使用精确查询时，必须要输入完整的整体

Elasticsearch

8、多个值匹配查询

（查询desc数据与两者中任意一个匹配的信息）
Elasticsearch

9、高亮查询

通过hightlight关键字进行处理

（查询结果中找到对应的name值，并且高亮显示）
Elasticsearch

当然我们也可以自定义高亮的前缀和后缀标签：
Elasticsearch

本文地址：https://blog.csdn.net/qq_44377709/article/details/107450101

Elasticsearch

文章目录

1、ES核心概念

1.1、概述

1.2、索引

1.3、字段类型（mapping）

1.4、文档（documents）

1.5、倒排索引

2、IK分词器

2.1、下载

2.2、安装

2.3、查看插件列表

2.4、使用Kibana进行测试

2.5、编写我们对应字典

3、Rest风格说明

3.1、创建索引规则并添加数据

3.2、创建索引规则

3.3、获得规则信息

3.4、修改索引规则

3.5、删除索引规则

3.6、打印ES的相关信息

4、文档的基本操作（重点）

4.1、添加数据

4.2、查询数据

4.3、更新数据

4.4、删除数据

4.5、复杂查询

解决Elasticsearch因jdk版本问题启动失败的问题

elasticsearch-Elasticsearch修改集群名字后索引数据失败

elasticsearch 使用快照进行备份

Elasticsearch实战系列(四)--索引数据简述

Elasticsearch——》es近义词(同义词)配置

docker容器间使用network通信，示例：elasticsearch & kibana

ElasticSearch7笔记：基本操作and批量操作

elasticsearch启动警告无法锁定JVM内存

springboot2.0+elasticsearch5.5+rabbitmq搭建搜索服务的坑

使用java操作elasticsearch的具体方法