solr重启后大批量core处于down状态且无法恢复

程序员文章站 2024-02-15 19:26:53

...

solr集群：11台机器，46个solrserver，442个collection，每个collection30到40个shard不等，每个shard2个replica。每个solrserver上大约880个core，总计880*46≈4W个core

问题：solr集群重启后无法恢复

涉及版本：6.2

问题排查：

重启整个solr集群后，所有的collection都处于down状态，大量replica处于down和recovering状态，重启down状态的replica所在的solrserver没有任何作用。

solr重启后，每个replica都需要经过注册ZK、选举leader、恢复等一系列操作，这些操作都需要和zk交互，所有这些任务都会在zk上的/solr/overseer/queue上建立一个znode。在我们的重启场景下，4w个core会导致这个队列有大量的任务积压，在zk客户端查看znode个数，已经达到9W+

stat /solr/overseer/queue

恢复方案：

重启ZK清理znode，之后大量core恢复active，但一小时后集群仍未恢复，再次重启ZK，队列中znode数量不断减少，solr集群恢复active。

关于overseer队列的问题很多，后续研究。