欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

solr重启后大批量core处于down状态且无法恢复

程序员文章站 2024-02-15 19:26:53
...

solr集群:11台机器,46个solrserver,442个collection,每个collection30到40个shard不等,每个shard2个replica。每个solrserver上大约880个core,总计880*46≈4W个core

 

问题:solr集群重启后无法恢复

涉及版本:6.2

问题排查:

重启整个solr集群后,所有的collection都处于down状态,大量replica处于down和recovering状态,重启down状态的replica所在的solrserver没有任何作用。

solr重启后,每个replica都需要经过注册ZK、选举leader、恢复等一系列操作,这些操作都需要和zk交互,所有这些任务都会在zk上的/solr/overseer/queue上建立一个znode。在我们的重启场景下,4w个core会导致这个队列有大量的任务积压,在zk客户端查看znode个数,已经达到9W+

stat /solr/overseer/queue

恢复方案:

重启ZK清理znode,之后大量core恢复active,但一小时后集群仍未恢复,再次重启ZK,队列中znode数量不断减少,solr集群恢复active。

关于overseer队列的问题很多,后续研究。

相关标签: solr