记录：解决后端server因一个timeout导致的雪崩

程序员文章站 2022-06-14 08:46:57

...

问题描述

问题分析

这里有三个问题：

1. httpclient超时后，一直retry，nginx会把请求分发到后端的所有webservice里，导致所有webservice全都去执行全表扫描，无法再对外服务。

2. httpclient的超时设置和nginx的超时设置不一致，导致nginx返回了结果，但是httpclient却始终无法接收到。

3. webservice被一个全表扫描的请求阻塞时，并没有被nginx的upstream策略剔除，会有新的请求分配到这个webservice，导致新的请求也timeout。

问题解决

对于三个问题，分别的解决方式如下：

1. 对于可能执行全表扫描这种危险操作的请求，通过添加索引等方式进行优化，缩短查询时间，并且禁止进行retry。

2. 将proxy_read_timeout设置成19秒（也就是小于等于httpclient的超时时间），保证超时的统一性。避免httpclient超时，而nginx还没有超时的情况。

3. nginx有max_fails和fail_timeout两个设置，max_fails=1 fail_timeout=120s; 表示server如果在120s内发生一次失败（超时或者拒绝连接）则将该server剔除出去，不再向其分发请求，120秒后再恢复服务。

如下例子：

upstream webService {
server 127.0.0.1:9001 max_fails=1 fail_timeout=120s;
server 127.0.0.1:9002 max_fails=1 fail_timeout=120s;
server 127.0.0.1:9003 max_fails=1 fail_timeout=120s;
}

这表示，如果webservice中的server发生一次超时，就停止服务2分钟。2分钟以后再恢复服务。

上一篇： centos之systemtap安装

下一篇： Firefox代理服务器，排除地址设置与IE的异同