【原】无脑操作:ElasticSearch学习笔记(01)
开篇来自于经典的“保安的哲学三问”(你是谁,在哪儿,要干嘛)
问题一、elasticsearch是什么?有什么用处?
答:截至2018年12月28日,从elasticsearch官网()上,得知:elasticsearch是基于 json 的分布式搜索和分析引擎,专为实现水平扩展、高可靠性和管理便捷性而设计。用于搜索、分析和存储您的数据。
问题二、elasticsearch的由来?
答:大约在2010年,一个叫shay banon的待业工程师跟随他的新婚妻子来到伦敦,他的妻子想在伦敦学习做一名厨师。而他在伦敦寻找工作的期间,接触到了lucene的早期版本,他想为自己的妻子开发一个方便搜索菜谱的应用。直接使用lucene构建搜索会有很多的坑以及重复性的工作,所以shay便在lucene的基础上不断进行抽象来让java程序嵌入搜索变得更容易一些,经过一段时间的打磨,就诞生了他的第一个开源作品,他给自己的这个作品起了个名字,叫 “compass”,中文即“指南针”的意思。之后,shay找到了一份新工作,新工作是处在一个高性能分布式的开发环境中。他在工作中渐渐发现,越来越需要一个易用的高性能、实时、分布式搜索服务,于是他决定重写compass,将它从一个库打造成了一个独立的server,并将其改名为elasticsearch。elasticsearch发布的第一个版本是在2010年的二月份,从那之后,elasticsearch便成了github上最受人瞩目的项目之一,并且很快就有超过300名开发者加入进来贡献了自己的代码。后来shay和另一位合伙人成立了公司专注打造elasticsearch,他们对elasticsearch进行了一些商业化的包装和支持。但是,elasticsearch承诺,永远都将是开源并且免费的。不过悲剧的是,shay承诺为妻子开发的菜谱搜索应用,到现在还没做出来……(划重点:elasticsearch基于lucene)
问题三、elasticsearch有什么功能?有什么优势?
答:截至2018年12月28日,从elasticsearch官网()上,得知:elasticsearch 是一个分布式、restful风格的搜索和数据分析引擎,能够解决不断涌现出的各种用例。作为 elastic stack 的核心,它集中存储您的数据,帮助您发现意料之中以及意料之外的情况。具备存储、查询和分析功能。具备速度、可扩展性、弹性、灵活性、操作友好、客户端库丰富等优势,是开源的、分布式、基于 restful api、支持 pb 甚至更高数量级的搜索引擎工具。
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
1、elasticsearch的安装及结构
elasticsearch支持windows安装,直接到官网的下载页面()下载即可。
注意,如果使用elk全家桶,官方建议elasticsearch、logstash、kibana三个产品选择同一版本号。截至2018年12月28日,elasticsearch的最新版本是6.5.4。本篇笔记使用的是6.5.0。下载后放在d:\elk目录下。
bin:elasticsearch的启动脚本等
config:配置文件目录
data:当前节点的分片数据
lib:运行依赖的jar包
logs:日志文件目录
modules:模块库
plugins:插件目录
2、elasticsearch的运行
windows版本的elasticsearch运行还是很简单的,直接在bin目录下,找到elasticsearch.bat这个批处理文件,双击运行就可以了。当然也可以通过命令行窗口进入到该目录下,输入elasticsearch回车进行执行。
出现如下信息说明elasticsearch已经启动起来了,并且运行在本机的9200端口上。
在浏览器的地址栏中输入:localhost:9200,如果能看到如下信息,说明启动成功
{
"name" : "hanf71f",
"cluster_name" : "elasticsearch",
"cluster_uuid" : "kyp2rooftwwn1-kj7qjw_a",
"version" : {
"number" : "6.5.0",
"build_flavor" : "default",
"build_type" : "zip",
"build_hash" : "816e6f6",
"build_date" : "2018-11-09t18:58:36.352602z",
"build_snapshot" : false,
"lucene_version" : "7.5.0",
"minimum_wire_compatibility_version" : "5.6.0",
"minimum_index_compatibility_version" : "5.0.0"
},
"tagline" : "you know, for search"
}
cluster_name: elasticsearch配置的集群名称,默认是elasticsearch,es服务会通过广播方式自动连接在同一网段下的es服务,通过多播方式进行通信,同一网段下可以有多个集群,通过集群名称这个属性来区分不同的集群。
cluster_uuid:elasticsearch配置的集群唯一编号
build_flavor:编译特点
lucene_version:elasticsearch基于lucene的,lucene的版本号
3、elasticsearch的工具
① 结合chrome浏览器的elasticsearchhead插件使用
下载名为chromefor.com_elasticsearch-head_v0.1.3.crx的chrome插件,安装后,在chrome浏览器的右上角点击elastic search head这个图标即可使用
② 结合kibana工具使用
个人觉得kibana是和elasticsearch结合是很好的,毕竟都是一家的产品。windows下的kibana使用也很简单,直接下载同elasticsearch一样版本的kibana()
直接在bin目录下,找到kibana.bat这个批处理文件,双击运行就可以了。当然也可以通过命令行窗口进入到该目录下,输入kibana回车进行执行。
出现如下信息说明kibana已经启动起来了,并且运行在本机的5601端口上。
在浏览器的地址栏中输入:localhost:5601,如果能看到如下信息,说明kibana启动成功。
4、 elasticsearch的基本术语
将elasticsearch和关系型数据库做一个类比
关系型数据库 | → | 数据库(database) | → | 表(table) | → | 行(rows) | → | 列(columns) |
elasticsearch | → | 索引(index) | → | 类型(type) | → | 文档(docments) | → | 字段(fields) |
一个elasticsearch集群可以包含多个索引(数据库),一个索引中可以包含多个类型(表),一个类型中可以包含多个文档(行),一个文档中可以包含多个字段(列)。
elasticsearch可以理解为是面向文档型数据库。数据用json作为文档序列化的格式。
① near realtime(nrt):近实时的意思,表示从写入数据到数据可以被搜索有一个小延迟(大概1秒);基于es执行搜索和分析可以达到秒级。
② cluster:集群,包含多个节点,每个节点属于哪个集群是通过配置(集群名称,默认是elasticsearch)来决定的,对于中小型应用来说,开始阶段常常一个集群对应一个节点。
③ node:节点,集群中的一个节点,节点也有一个名称(默认是随机分配的),在执行运维管理操作时节点名称很重要,默认节点会加入一个名称为“elasticsearch”的集群,如果直接启动一堆节点,那么它们会自动组成一个elasticsearch集群,当然一个节点也可以组成一个elasticsearch集群。
④ document&field:文档,es中的最小数据单元,一个document可以是一条客户数据,一条商品分类数据,一条订单数据,通常用json数据结构表示,每个index下的type中,都可以去存储多个document。一个document里面有多个field,每个field就是一个数据字段。
⑤ index:索引,包含一堆有相似结构的文档数据,比如可以有一个客户索引,商品分类索引,订单索引,索引有一个名称。一个index包含很多document,一个index就代表了一类类似的或者相同的document。比如说建立一个product index,商品索引,里面可能就存放了所有的商品数据,所有的商品document。
⑥ type:类型,每个索引里都可以有一个或多个type,type是index中的一个逻辑数据分类,一个type下的document,都有相同的field,比如博客系统,有一个索引,可以定义用户数据type,博客数据type,评论数据type。
⑦ shard:单台机器无法存储大量数据,es可以将一个索引中的数据切分为多个shard,分布在多台服务器上存储。有了shard就可以横向扩展,存储更多数据,让搜索和分析等操作分布到多台服务器上去执行,提升吞吐量和性能。每个shard都是一个lucene index。
⑧ replica:任何一个服务器随时可能故障或宕机,此时shard可能就会丢失,因此可以为每个shard创建多个replica副本。replica可以在shard故障时提供备用服务,保证数据不丢失,多个replica还可以提升搜索操作的吞吐量和性能。primary shard(建立索引时一次设置,不能修改,默认5个),replica shard(随时修改数量,默认1个),默认每个索引10个shard,5个primary shard,5个replica shard,最小的高可用配置,是2台服务器。
5、elasticsearch的基本使用(crud)
首先对restful风格的动作有一个了解:get(查询操作),post(新增/修改操作),put(修改操作),delete(删除操作)
下列命令均在kibana的devtools中执行,devtools中输入关键字有相应的提示,很不错。
① 检查集群的健康状况
get /_cat/health?v
epoch timestamp cluster status node.total node.data shards pri relo init unassign pending_tasks max_task_wait_time active_shards_percent 1546176515 13:28:35 elasticsearch green 1 1 1 1 0 0 0 0 - 100.0%
② 查看集群中所有的索引
get /_cat/indices?v
health status index uuid pri rep docs.count docs.deleted store.size pri.store.size green open .kibana_1 qqzceskytvcwjjf7toyuww 1 0 1 0 5.1kb 5.1kb
③ 创建索引(可以使用elasticsearchhead插件的图形化创建方式,也可以手写命令)
put /study_elasticsearch?pretty
#! deprecation: the default number of shards will change from [5] to [1] in 7.0.0; if you wish to continue using the default of [5] shards,
you must manage this on the create index request or with an index template { "acknowledged" : true, "shards_acknowledged" : true, "index" : "study_elasticsearch" }
创建后再次执行查看索引的命令,可以看到这时有两个索引存在了。
get /_cat/indices?v
health status index uuid pri rep docs.count docs.deleted store.size pri.store.size green open .kibana_1 qqzceskytvcwjjf7toyuww 1 0 1 0 5.1kb 5.1kb yellow open study_elasticsearch p1ycgfqis1si2nc0ilzfla 5 1 0 0 1.1kb 1.1kb
④ 删除索引
delete /study_elasticsearch?pretty
{ "acknowledged" : true }
删除后再次执行查看索引的命令,可以看到这时剩一个索引存在了。
get /_cat/indices?v
health status index uuid pri rep docs.count docs.deleted store.size pri.store.size green open .kibana_1 qqzceskytvcwjjf7toyuww 1 0 1 0 5.1kb 5.1kb
⑤ 新增文档
put /study_elasticsearch/person/1 { "name" : "zhang yang", "age" : 21, "job" : "boss" }
{ "error": { "root_cause": [ { "type": "cluster_block_exception", "reason": "blocked by: [forbidden/12/index read-only / allow delete (api)];" } ], "type": "cluster_block_exception", "reason": "blocked by: [forbidden/12/index read-only / allow delete (api)];" }, "status": 403 }
从错误信息清晰的看到是索引只读的提示,所以考虑放开索引的只读设置。
put _settings { "index": { "blocks": { "read_only_allow_delete": "false" } } }
{ "acknowledged" : true }
再次尝试新增文档
put /study_elasticsearch/person/1 { "name" : "zhang yang", "age" : 21, "job" : "boss" }
{ "_index" : "study_elasticsearch", "_type" : "person", "_id" : "1", "_version" : 1, "result" : "created", "_shards" : { "total" : 2, "successful" : 1, "failed" : 0 }, "_seq_no" : 0, "_primary_term" : 1 }
put /study_elasticsearch/person/2 { "name" : "zhang xiong jia", "age" : 20, "job" : "employee" }
{ "_index" : "study_elasticsearch", "_type" : "person", "_id" : "2", "_version" : 1, "result" : "created", "_shards" : { "total" : 2, "successful" : 1, "failed" : 0 }, "_seq_no" : 0, "_primary_term" : 1 }
put /study_elasticsearch/person/3 { "name" : "wu qing qing", "age" : 22, "job" : "manager" }
{ "_index" : "study_elasticsearch", "_type" : "person", "_id" : "3", "_version" : 1, "result" : "created", "_shards" : { "total" : 2, "successful" : 1, "failed" : 0 }, "_seq_no" : 0, "_primary_term" : 1 }
注意,此时的文档版本version为1
⑥ 查询文档数量
get /study_elasticsearch/person/_count
{ "count" : 3, "_shards" : { "total" : 5, "successful" : 5, "skipped" : 0, "failed" : 0 } }
⑦ 查询文档(不加任何查询条件,本篇用的都是search lite api的写法)
get /study_elasticsearch/person/_search
{ "took" : 2, "timed_out" : false, "_shards" : { "total" : 5, "successful" : 5, "skipped" : 0, "failed" : 0 }, "hits" : { "total" : 3, "max_score" : 1.0, "hits" : [ { "_index" : "study_elasticsearch", "_type" : "person", "_id" : "2", "_score" : 1.0, "_source" : { "name" : "zhang xiong jia", "age" : 20, "job" : "employee" } }, { "_index" : "study_elasticsearch", "_type" : "person", "_id" : "1", "_score" : 1.0, "_source" : { "name" : "zhang yang", "age" : 21, "job" : "boss" } }, { "_index" : "study_elasticsearch", "_type" : "person", "_id" : "3", "_score" : 1.0, "_source" : { "name" : "wu qing qing", "age" : 22, "job" : "manager" } } ] } }
注意:对某个索引(index)下某个类型(type)没加任何条件的查询,结果默认会展示出前20条文档(documents)
⑧ 查询文档(带查询条件,本篇用的都是search lite api的写法)
直接通过id获取文档:
get /study_elasticsearch/person/1
{ "_index" : "study_elasticsearch", "_type" : "person", "_id" : "1", "_version" : 1, "found" : true, "_source" : { "name" : "zhang yang", "age" : 21, "job" : "boss" } }
通过查询字段的值获取文档:(按age赋值22查询,找到了吴局)
get /study_elasticsearch/person/_search?q=age:22
{ "took" : 10, "timed_out" : false, "_shards" : { "total" : 5, "successful" : 5, "skipped" : 0, "failed" : 0 }, "hits" : { "total" : 1, "max_score" : 1.0, "hits" : [ { "_index" : "study_elasticsearch", "_type" : "person", "_id" : "3", "_score" : 1.0, "_source" : { "name" : "wu qing qing", "age" : 22, "job" : "manager" } } ] } }
通过查询字段的值获取文档:(按name赋值zhang查询,找到了名字中有zhang的大小张行长)
get /study_elasticsearch/person/_search?q=name:zhang
{ "took" : 3, "timed_out" : false, "_shards" : { "total" : 5, "successful" : 5, "skipped" : 0, "failed" : 0 }, "hits" : { "total" : 2, "max_score" : 0.2876821, "hits" : [ { "_index" : "study_elasticsearch", "_type" : "person", "_id" : "2", "_score" : 0.2876821, "_source" : { "name" : "zhang xiong jia", "age" : 20, "job" : "employee" } }, { "_index" : "study_elasticsearch", "_type" : "person", "_id" : "1", "_score" : 0.2876821, "_source" : { "name" : "zhang yang", "age" : 21, "job" : "boss" } } ] } }
⑨ 更新文档(替换)
put /study_elasticsearch/person/1 { "name" : "hong zi jun", "age" : 21, "job" : "ceo" }
{ "_index" : "study_elasticsearch", "_type" : "person", "_id" : "1", "_version" : 2, "result" : "updated", "_shards" : { "total" : 2, "successful" : 1, "failed" : 0 }, "_seq_no" : 1, "_primary_term" : 1 }
注意:此时id为1的这条文档的版本version变成了2,文档的内容也变成了洪行长
get /study_elasticsearch/person/1
{ "_index" : "study_elasticsearch", "_type" : "person", "_id" : "1", "_version" : 2, "found" : true, "_source" : { "name" : "hong zi jun", "age" : 21, "job" : "ceo" } }
这种替换的方式做更新,需要替换的内容和原先的内容字段一致,如果不一致就会用替换内容替换掉原先的内容
put /study_elasticsearch/person/1 { "name" : "ye yu", "gender" : "female" }
{ "_index" : "study_elasticsearch", "_type" : "person", "_id" : "1", "_version" : 3, "result" : "updated", "_shards" : { "total" : 2, "successful" : 1, "failed" : 0 }, "_seq_no" : 2, "_primary_term" : 1 }
再次查询,发现person的字段和内容均发生了变化,变成叶阿姨了。显然,这种替换方式的缺点在于全量替换了,不想替换的也被替换了。
get /study_elasticsearch/person/1
{ "_index" : "study_elasticsearch", "_type" : "person", "_id" : "1", "_version" : 3, "found" : true, "_source" : { "name" : "ye yu", "gender" : "female" } }
⑩ 更新文档(更新)
先把id为1的数据替换回去
put /study_elasticsearch/person/1 { "name" : "zhang yang", "age" : 21, "job" : "boss" }
{ "_index" : "study_elasticsearch", "_type" : "person", "_id" : "1", "_version" : 4, "result" : "updated", "_shards" : { "total" : 2, "successful" : 1, "failed" : 0 }, "_seq_no" : 3, "_primary_term" : 1 }
get /study_elasticsearch/person/1
{ "_index" : "study_elasticsearch", "_type" : "person", "_id" : "1", "_version" : 4, "found" : true, "_source" : { "name" : "zhang yang", "age" : 21, "job" : "boss" } }
使用post结合_update做更新
post /study_elasticsearch/person/1/_update { "doc" : { "job" : "cto" } }
{ "_index" : "study_elasticsearch", "_type" : "person", "_id" : "1", "_version" : 5, "result" : "noop", "_shards" : { "total" : 0, "successful" : 0, "failed" : 0 } }
再查询一下,发现id为1的文档的job字段发生了改变,其他的字段及内容没有变化
get /study_elasticsearch/person/1
{ "_index" : "study_elasticsearch", "_type" : "person", "_id" : "1", "_version" : 5, "found" : true, "_source" : { "name" : "zhang yang", "age" : 21, "job" : "cto" } }
⑪ 删除文档
delete /study_elasticsearch/person/1
{ "_index" : "study_elasticsearch", "_type" : "person", "_id" : "1", "_version" : 6, "result" : "deleted", "_shards" : { "total" : 2, "successful" : 1, "failed" : 0 }, "_seq_no" : 5, "_primary_term" : 1 }
再查询一下,找不到该条文档了
get /study_elasticsearch/person/1
{ "_index" : "study_elasticsearch", "_type" : "person", "_id" : "1", "found" : false }
如果是想删除所有的文档,可以如下操作
post /study_elasticsearch/person/_delete_by_query { "query": { "match_all": {} } }
{ "took" : 42, "timed_out" : false, "total" : 2, "deleted" : 2, "batches" : 1, "version_conflicts" : 0, "noops" : 0, "retries" : { "bulk" : 0, "search" : 0 }, "throttled_millis" : 0, "requests_per_second" : -1.0, "throttled_until_millis" : 0, "failures" : [ ] }
再查询一下,发现没有数据了
get /study_elasticsearch/person/_search
{ "took" : 0, "timed_out" : false, "_shards" : { "total" : 5, "successful" : 5, "skipped" : 0, "failed" : 0 }, "hits" : { "total" : 0, "max_score" : null, "hits" : [ ] } }
至此,最简单基本的操作就讲完了,是不是特别无脑啊(*^_^*)
上一篇: 人机大战引关注 人工智能概念股有望受追捧
下一篇: ADSL掉线的八招应对方法