Elasticsearch实战——Setting
Elasticsearch实战——Setting
文章目录
索引的配置项按是否可以更改分为static属性与动态属性,所谓的静态配置即索引创建后不能修改。
1. 索引静态配置
-
index.number_of_shards
索引分片的数量。默认值5,ES支持的最大分片数默认为1024,可以通过修改
index.max_number_of_shards
属性修改。 -
index.shard.check_on_startup
分片在打开之前是否检查该分片是否损坏。当检测到分片损坏时,将阻止打开。
可选值:
-
false
:不检测,默认值 -
checksum
:只检查物理结构 -
true
:检查物理结构和路基损坏,相对比较消耗CPU -
fix
:类同false,7.0版本后将废弃
-
-
index.codec
数据存储的压缩算法,默认值
LZ4
,可选值best_compression
,比LZ4
可以获得更好的压缩比例(占用较小的磁盘空间,但是存储性能比LZ4
低)。 -
index.routing_partition_size
路由分区数
如果设置了该参数,其路由算法为:
(hash(_routing) + hash(_id) % index.routing_parttion_size ) % number_of_shards
如果没有设置,路由算法为:
hash(_routing) % number_of_shardings
_routing
默认值为_id
2. 索引动态配置
-
index.number_of_replicas
索引复制分片的个数,默认值1,该值必须大于等于0,创建索引后该值可以变更。
-
index.auto_expand_replicas
基于可用节点的数量自动分配副本数量,默认为 false(即禁用此功能),可设置为:0-all
-
index.refresh_interval
执行刷新操作的频率,该操作可以对索引的最新更改对搜索可见。默认1s。可以设置**-1**禁止刷新。
-
index.max_result_window
控制分页搜索的总记录数,from+size的大小不能超过该值,默认为10000。
-
index.max_inner_result_window
用于控制top aggregations,默认100。内部命中和顶部命中聚合占用堆内存,并且时间与from+size成正比,这限制了内存。
-
index.max_rescore_window
在
rescore
搜索中,rescore
请求的window_size
的最大值。 -
index.max_docvalue_fields_search
一次查询最多包含开启
doc_values
字段的个数,默认100。 -
index.max_script_fields
查询中允许的最大
script_fields
数量。默认为32。 -
index.max_ngram_diff
NGramTokenizer
和NGramTokenFilter
的min_gram
和max_gram
之间允许的最大差异。默认为1。 -
index.max_shingle_diff
对于
ShingleTokenFilter
,max_shingle_size
和min_shingle_size
之间允许的最大差异。默认为3。 -
index.blocks.read_only
索引数据、索引元数据是否只读,如果设置为true,则不能修改索引数据,也不能修改索引元数据。
-
index.blocks.read_only_allow_delete
与index.blocks.read_only基本类似,唯一的区别是允许删除动作。
-
index.blocks.read
设置为true以禁用对索引数据的读取操作。
-
index.blocks.write
设置为true以禁用对索引数据的写操作。(针对索引数据,而不是索引元数据)
-
index.blocks.metadata
设置为true,表示不允许对索引元数据进行读与写。
-
index.max_refresh_listeners
索引的每个分片上当刷新索引时最大的可用监听器数量。这些侦听器用于实现refresh=wait_for。
-
index.highlight.max_analyzed_offset
高亮显示的最大字符数。此设置仅在对没有偏移或词向量的索引的文本上适用。默认情况下,此设置在6.x中未设置,默认为-1。
-
index.max_terms_count
Term查询中可以使用的最大Term数。默认为65536。
-
index.routing.allocation.enable
控制此索引的分片分配,可选值:
-
all
:默认,允许分片所有的分片 -
primaries
:只允许分配主分片 -
new_primaries
:仅允许分配新创建的主分片 -
none
:不允许分配
-
-
index.routing.rebalance.enable
为此索引启用分片重新平衡,可选值:
-
all
:默认,允许分片重新平衡 -
primaries
:只允许主分片重新平衡 -
replicas
:只允许副本分片重新平衡 -
none
:不允许分片重新平衡
-
-
index.gc_deletes
允许已删除文档的版本号,扔可用于进一步版本化操作的时间长度。默认60s。
-
index.max_regex_length
Regexp Query
中可以使用的正则表达式的最大长度,默认为1000。 -
mapping.coerce
-
true
:默认值,强制类型转换,把json中的值转为ES中字段的数据类型,譬如,把字符串"5"转为integer的5。 -
false
:当json的值与ES字段类型不匹配将会拒绝。
-
3. Merging
-
index.merge.scheduler.max_thread_count
当个分片节点合并的最大线程数,默认值
Math.max(1, Math.min(4, Runtime.getRuntime().availableProcessors() / 2))
如果是非SSD盘,建议设置为1。
-
index.merge.policy.max_merged_segment
指定单个segment的最大容量,默认值5GB,可以考虑适当降低此值。
-
index.merge.policy.segments_per_tier
该属性指定了每层分段的数量,取值越小则segment越少,因此需要merge的操作更多,可以考虑适当增加此值。默认为10,其应该大于等于
index.merge.poliycy.max_merge_at_once
。
4. Show Log
4.1 Search Show Log
ES提供在查询阶段(Query
)和数据获取阶段(Fetch
)设置阈值,超过改阈值则记录日志。
4.1.1 查询阶段支持参数
index.search.slowlog.threshold.query.warn: 10s
index.search.slowlog.threshold.query.info: 5s
index.search.slowlog.threshold.query.debug: 2s
index.search.slowlog.threshold.query.trace: 500ms
上述定义查询阶段(Query
)阈值,分别表示执行超过10s,打印警告日志。超过5s打印info日志。
4.1.2 数据获取阶段支持参数
index.search.slowlog.threshold.fetch.warn: 1s
index.search.slowlog.threshold.fetch.info: 800ms
index.search.slowlog.threshold.fetch.debug: 500ms
index.search.slowlog.threshold.fetch.trace: 200ms
上述定义数据获取阶段(Fetch
)阈值,分别表示执行超过1s,打印警告日志。超过800ms打印info日志。
4.1.3 日志输出级别
定义日志输出级别为info,不输出debug、trace级别的日志。
index.search.slowlog.level: info
注意:上述日志级别为分片日志。
4.1.4 log4j配置
在log4j中定义日志输出器和输出路径等,相关配置如下:
appender.index_search_slowlog_rolling.type = RollingFile
appender.index_search_slowlog_rolling.name = index_search_slowlog_rolling
appender.index_search_slowlog_rolling.fileName = ${sys:es.logs}_index_search_slowlog.log
appender.index_search_slowlog_rolling.layout.type = PatternLayout
appender.index_search_slowlog_rolling.layout.pattern = [%d{ISO8601}][%-5p][%-25c] [%node_name]%marker %.10000m%n
appender.index_search_slowlog_rolling.filePattern = ${sys:es.logs}_index_search_slowlog-%d{yyyy-MM-dd}.log
#文件切割方案,属于log4j的语法
appender.index_search_slowlog_rolling.policies.type = Policies
#基于时间切割,log4j还支持按大小切割,其类为SizeBasedTriggeringPolicy。
appender.index_search_slowlog_rolling.policies.time.type = TimeBasedTriggeringPolicy
#1小时切割成一个文件
appender.index_search_slowlog_rolling.policies.time.interval = 1
#是否修正时间范围, 如果设置为true,则从0时开始计数
appender.index_search_slowlog_rolling.policies.time.modulate = true
logger.index_search_slowlog_rolling.name = index.search.slowlog
logger.index_search_slowlog_rolling.level = trace
logger.index_search_slowlog_rolling.appenderRef.index_search_slowlog_rolling.ref = index_search_slowlog_rolling
logger.index_search_slowlog_rolling.additivity = false
4.2 Index Show Log
4.2.1 索引慢日志配置
index.indexing.slowlog.threshold.index.warn: 10s
index.indexing.slowlog.threshold.index.info: 5s
index.indexing.slowlog.threshold.index.debug: 2s
index.indexing.slowlog.threshold.index.trace: 500ms
index.indexing.slowlog.level: info
index.indexing.slowlog.source: 1000
index.indexing.slowlog.source
参数用来记录文档 _source
字段字符的个数,默认1000,表示只记录_source
的前1000个字符,可以设置为true
,表示输出_source
字段全部内容,设置为false
,表示不记录_source
字段的内容。
默认情况下,会对_source
字段的输出进行格式化,通常使用一行输出,如果想阻止格式化,可以通过index.indexing.slowlog.reformat
设置为false
来避免。
4.2.2 log4j配置
在logg4j配置文件中定义日志的输出。
appender.index_indexing_slowlog_rolling.type = RollingFile
appender.index_indexing_slowlog_rolling.name = index_indexing_slowlog_rolling
appender.index_indexing_slowlog_rolling.fileName = ${sys:es.logs}_index_indexing_slowlog.log
appender.index_indexing_slowlog_rolling.layout.type = PatternLayout
appender.index_indexing_slowlog_rolling.layout.pattern = [%d{ISO8601}][%-5p][%-25c] [%node_name]%marker %.-10000m%n
appender.index_indexing_slowlog_rolling.filePattern = ${sys:es.logs}_index_indexing_slowlog-%d{yyyy-MM-dd}.log
appender.index_indexing_slowlog_rolling.policies.type = Policies
appender.index_indexing_slowlog_rolling.policies.time.type = TimeBasedTriggeringPolicy
appender.index_indexing_slowlog_rolling.policies.time.interval = 1
appender.index_indexing_slowlog_rolling.policies.time.modulate = true
logger.index_indexing_slowlog.name = index.indexing.slowlog.index
logger.index_indexing_slowlog.level = trace
logger.index_indexing_slowlog.appenderRef.index_indexing_slowlog_rolling.ref = index_indexing_slowlog_rolling
logger.index_indexing_slowlog.additivity = false
5. Store
-
index.store.type
,表示存储类型,该值为静态参数,在索引创建时指定,无法更改。可选值:
-
fs
默认文件系统实现,根据当前操作系统选择最佳存储方式
-
simplefs
简单的FS类型,使用随机访问文件实现文件系统存储(映射到
Lucene SimpleFsDirectory
)。并发性能很差(多线程会出现瓶颈)。当需要索引持久性时,通常最好使用niofs
。 -
niofs
基于
NIO
实现的文件系统,该类型使用NIO
在文件系统上存储碎片索引(映射到Lucene NIOFSDirectory
)。它允许多个线程同时从同一个文件中读取数据。 -
mmapfs
基于文件内存映射机制实现的文件系统实现,该方法将文件映射到内存(
MMap
)来存储文件系统上的碎片索引(映射到Lucene MMapDirectory
)。内存映射使用进程中与被映射文件大小相同的部分虚拟内存地址空间。可通过
node.store.allow_mmapfs
属性来禁用基于内存映射机制,如果节点所在的操作系统没有大量虚拟内存,则可以使用该属性明确禁止使用该文件实现。
-
-
index.store.preload
,预加载数据到文件系统缓存如果ES主机重启,则文件系统缓存将清空,此时搜索会比较慢,可以使用
index.store.preload
设置,通过指定文件扩展名,显示的告诉操作系统应该将哪些文件加载到内存中。例如,配置到
elasticsearch.yml
文件中:index.store.preload: ["nvd","dvd"]
或者在创建索引的时候设置:
{ "settings":{ "index.store.preload":["nvd","dvd"] } }
6. Translog
由于Lucene
提交的开销很大,不能每个变更就提交一次(刷写磁盘),所以每个分片复制都有一个事务日志,称为translog
。所有索引和删除操作都是在被内部Lucene
索引处理只会写入translog
的。在发生崩溃的情况下,当索引恢复的时候,可以通过回放translog
中的数据进行恢复。
Translog
日志有点类似于mysql
的redo
日志。
6.1 Translog相关配置(索引级别)
-
index.translog.durability
translog
刷盘方式,可选值:request
、async
。-
request
:即每请求一次刷盘,也就是客户端发起一个增删改操作时,会在主分片和副本分片全部刷盘成功后,才会返回成功,是ES
的默认模式。 -
async
:异步刷盘模式,此模式频率由index.translog.sync_interval
设置,其默认值为5s
,该模式会存在数据丢失的可能。
-
-
index.translog.sync_interval
如果
index.translog.durability
设置为async
,用该值来设置刷盘的频率,默认为5s
。 -
index.translog.flush_threshold_size
ES
强制刷新的另外一个维度,如果translog
的大小达到该值,则强制将为刷盘的数据强制刷新到Lucene
中,默认512M
。 -
index.translog.retention.size
保存跨日志文件的总大小。也就是
translog
日志文件flush
后,并不马上删除,而是保留一段时间,但最新的translog
文件已经存储的内容与待删除的文件的间隔不超过改参数设置的值,默认为512M
。 -
index.translog.retention.age
保存
translog
文件的最大持续时间,默认12h
。