solr重启后大批量core处于down状态且无法恢复
程序员文章站
2024-02-15 19:26:53
...
solr集群:11台机器,46个solrserver,442个collection,每个collection30到40个shard不等,每个shard2个replica。每个solrserver上大约880个core,总计880*46≈4W个core
问题:solr集群重启后无法恢复
涉及版本:6.2
问题排查:
重启整个solr集群后,所有的collection都处于down状态,大量replica处于down和recovering状态,重启down状态的replica所在的solrserver没有任何作用。
solr重启后,每个replica都需要经过注册ZK、选举leader、恢复等一系列操作,这些操作都需要和zk交互,所有这些任务都会在zk上的/solr/overseer/queue上建立一个znode。在我们的重启场景下,4w个core会导致这个队列有大量的任务积压,在zk客户端查看znode个数,已经达到9W+
stat /solr/overseer/queue
恢复方案:
重启ZK清理znode,之后大量core恢复active,但一小时后集群仍未恢复,再次重启ZK,队列中znode数量不断减少,solr集群恢复active。
关于overseer队列的问题很多,后续研究。
上一篇: yaf 框架