网站突发大流量怎么做预警?
程序员文章站
2024-02-09 20:54:34
...
比如双11活动
预警是指网站系统运行期间,当各项技术指标超过警戒阈值时,监控系统通过发送报警信息给相关人员的一种监控行为,让技术人员及时参与,防患于未然。所以预警是网站监控系统应有的功能。
双11活动是淘宝有计划的一次营销活动,双11活动期间,网站服务器会比通常时候要增加一些,以使单台服务器仍然运行在警戒值以下,保证活动顺利进行。所以双11活动从设计角度是不需要预警的。
但是当然因为当天流量太大,必然会有部分服务器运行超过警戒,触发报警,所以11.11当天,淘宝技术部(包括支付宝)是高度戒备的,零点活动的开始的时候,技术部灯火通明。
=======以下内容引用自《大型网站技术架构》一书===========
我说一个比较容易实现的方案组合:cacti+nagios,前者做CPU、磁盘等系统的监控,后者做报警提醒,可以讲报警级别分为多级,按级告警。
当然在事前,要做好预案,比如是增加服务器,还是关闭某些不重要的feature,不再赘述。 munin + Munin for Android +v信wzdhan12345 移动 1G流量35 !代理拿货27!绝对正规流量!爱流量平台出货! 流量可以很便宜的
回复内容:
谢瑶。预警是指网站系统运行期间,当各项技术指标超过警戒阈值时,监控系统通过发送报警信息给相关人员的一种监控行为,让技术人员及时参与,防患于未然。所以预警是网站监控系统应有的功能。
双11活动是淘宝有计划的一次营销活动,双11活动期间,网站服务器会比通常时候要增加一些,以使单台服务器仍然运行在警戒值以下,保证活动顺利进行。所以双11活动从设计角度是不需要预警的。
但是当然因为当天流量太大,必然会有部分服务器运行超过警戒,触发报警,所以11.11当天,淘宝技术部(包括支付宝)是高度戒备的,零点活动的开始的时候,技术部灯火通明。
=======以下内容引用自《大型网站技术架构》一书===========
7.1 监控管理
监控数据采集后,除了用作系统性能评估、集群规模伸缩性预测等,还可以根据实时监控数据进行风险预警,并对服务器进行失效转移,自动负载调整,最大化利用集群所有机器的资源。
系统报警
服务器运行正常的情况下,其各项监控指标基本稳定在一个特定水平,如果这些指标超过某个阈值,就意味着系统可能将要出现故障,这时候就需要对相关人员报警,及时采取措施,在故障还未真正发生就将其扼杀在萌芽状态。
监控管理系统可以配置报警阈值和值守人员的联系方式,报警方式除了邮件,即时通讯工具,还可以配置手机短信,语音报警,系统发生报警时,工程师即使在千里之外、夜里睡觉也能及时通知,迅速响应。
失效转移
除了应用程序访问失败时进行失效转移,监控系统也可以在发现故障的情况下主动通知应用,进行失效转移。
自动优雅降级
优雅降级是指网站为了应付突然爆发的访问高峰,主动关闭部分功能,释放部分系统资源,保证网站核心功能正常访问的一个手段。淘宝每年一次的双十一促销活动就属于突然爆发的非常规访问高峰,淘宝的工程师每年都会关闭一部分非核心功能,如评价、确认收货等功能,保证交易功能的正常进行。
网站在流动计算基础之上实现自动优雅降级,是网站柔性架构的理想状态:监控系统实时监控所有服务器的运行状况,根据监控参数判断应用访问负载情况,如果发现部分应用负载过高,而部分应用负载过低,就会适当卸载低负载应用部分服务器,重新安装启动部分高负载应用,使应用负载总体均衡,如果所有应用负载都很高,而且负载压力还在继续增加,就会自动关闭部分非重要功能,保证核心功能正常运行。
@李智慧 说的已经很完整了,但受邀不得不答。我说一个比较容易实现的方案组合:cacti+nagios,前者做CPU、磁盘等系统的监控,后者做报警提醒,可以讲报警级别分为多级,按级告警。
当然在事前,要做好预案,比如是增加服务器,还是关闭某些不重要的feature,不再赘述。 munin + Munin for Android +v信wzdhan12345 移动 1G流量35 !代理拿货27!绝对正规流量!爱流量平台出货! 流量可以很便宜的