ab压测Http Server时TCP连接TIME_WAIT状态研究
当ab压测工具和http server在同一台(centos)机器时,为何不会出现端口不够用的情况呢?
假设压测参数如下:
ab -n100000 -c5000 http://localhost
- 我们都知道tcp有四元组的概念,server_ip:server_port <=> client_ip:client_port,对于server端,只需要一个固定端口,而client端每个连接需要使用不同的随机端口,在linux下随机端口是有限的,执行命令查看:
cat /proc/sys/net/ipv4/ip_local_port_range
,默认一般是32768~60999,也就是说只有2.8w+左右的随机可用端口数,
- 现在开始分析,上述ab压测不加keep-alive(-k)参数,则是短连接的情况,此时由http server主动close连接,所以这时产生的大量TIME_WAIT 也只是影响http client端,因为http server端永远只需要一个80端口,所以对于server端来说,不需要担心端口数耗尽的问题。但是问题来了,ab和http_server在同一台的,ab压测时的http client是需要使用随机端口的,按照上述5000并发,而time_wait存在时长大约是1分钟左右,那么30秒内就可以产生15万个短连接,如果这些短连接很快就执行结束,那么1分钟内至少可以产生10万个time_wait状态的连接,也就是需要10万个本地随机端口,按理说ab应该报错退出了,可是压测的时候使用如下命令:
netstat -anp | grep 'TIME_WAIT' | wc -l
会发现time_wait的数量到16384以后就上不去了。why???
其实是linux对本地随机端口数超过上限有个保护策略,在/etc/sysctl.conf中修改:
net.ipv4.tcp_max_tw_buckets = 16384 这个值,即TIME_WAIT连接数超过这个阈值时,linux会直接
关闭并清除这个连接,所以ab压测不会太轻易的就出现端口数不够用的情况,当你把net.ipv4.tcp_max_tw_buckets改的够大,net.ipv4.ip_local_port_range改小一些,就会发现ab报错:
cannot assign requested address
为何time_wait 必须存在呢?
- 查阅关于tcp四次挥手的资料,可以看到说明,此处只想浓缩成一句话:
tcp主动关闭端为了保证tcp被动关闭端,能收到最后一个ACK。(让子弹飞一会)
- 我们举个例子:你使用公共电话和114客服中心打电话,最后你要说的都说完了,你准备挂电话(主从close连接,产生TIME_WAIT),如下:
你说: 我要挂电话了,
对方:好的,感谢你的来电。请问还有什么问题吗?
你说:没了
这个“没了”就是最后一个ACK
,因为你素质比较高,你要确保对方收到“没了”这个ACK。就是你要等一会直到听到对方挂断电话(嘟嘟嘟)的声音,这个等待的时间就是一个MSL(MSL就是一个tcp包在网络上最长可存在的时间,打个比方,某句话是昨天说的话,今天才收到,那就是可以忽略的数据),一个MSL在linux上是1分钟。
如果没有time_wait,也就是你素质不想那么高,当对方说:好的,感谢你的来电。请问还有什么问题吗?你刚说:没了,立马挂机,假设这时候信号不好,对方可能还没听到 “没了” 或者最后这个ACK丢了,那对方等待一会之后,肯定会以为你还在,会再次问你:“好的,感谢你的来电。请问还有什么问题吗?” 结果对面传来 “嘟嘟嘟” 挂机的声音。这个类似收到tcp RST了。然后客服无奈也挂机了。四次挥手就这样不太愉快的结束了。
- 上述情况只是没有并发的情况,实际情况是,一个公共电话坐机就相当于一个linux本地端口号,由于端口号是有限的资源,所以是不断的复用,就好比N台公共电话亭,提供给大量的用户使用,如果一个用户没有完整的通话结束,其他客户端复用这个电话机的时候,就有可能收到上一个用户的数据,比如上述的情况,用户A对客服说 “没了” 之后立即挂断,然后用户B马上复用这个线路,就有可能收到客服的消息:“好的,感谢你的来电。请问还有什么问题吗?” 此时用户B肯定问号脸,什么情况?
总结:
time_wait就是为了四次挥手正确的完成,保证前后复用同一个端口的连接之间数据没有错乱的情况发生。
上一篇: KMP之Power Strings
下一篇: 用JS代码做出弹幕效果