我对互联网监控的理解
程序员文章站
2022-07-09 13:20:46
...
互联网服务是否运行正常,从监控的角度需要考虑以下几个方面。
1 业务监控。业务数据是否正常。比如流量是否正常 商品价格是否异常 销售量是否异常....这类数据跟业务统计关联很紧密,侧重于从业务数据的角度进行监控。建议在数据统计的基础上增加监控报警功能。 业务监控数据面向的人群主要是各业务负责人 运营人员 以及业务开发人员
2 应用监控。侧重服务的角度进行监控,响应是否及时 是否有异常 QPS..... 对于应用的监控,美团开源的CAT是个不错的。
监控只是暴露问题,大致定位问题,要对问题进行跟踪,还需要分布式链路跟踪系统。很多人以为CAT是,实际上CAT的跟踪系统比较弱。当前呼声较高的分布式跟踪系统有skywalking pinpoint zipkin,尤其前两者。二者比较,skywalking的查询能力更强,由于开发人员是中国人,沟通更顺畅,个人更喜欢。至于日志分析的问题,没得说,首选ELK。
3 系统监控。主要是对系统一级的软硬件资源使用情况 服务质量进行监控。如果网卡 cpu 内存的使用情况,比如nginx 数据库的运行数据,比如域名的使用情况。对于长期没有访问量的域名及时回收,根据监控的数据对服务器的资源及时作出调整。常规的选项有zabbix open-falcon prometheus,zabbix是老牌监控,可以满足一般公司的需求,prometheus适合云服务监控,openfalcon是小米开源的监控系统,国内很多互联网公司在使用。
1 业务监控。业务数据是否正常。比如流量是否正常 商品价格是否异常 销售量是否异常....这类数据跟业务统计关联很紧密,侧重于从业务数据的角度进行监控。建议在数据统计的基础上增加监控报警功能。 业务监控数据面向的人群主要是各业务负责人 运营人员 以及业务开发人员
2 应用监控。侧重服务的角度进行监控,响应是否及时 是否有异常 QPS..... 对于应用的监控,美团开源的CAT是个不错的。
监控只是暴露问题,大致定位问题,要对问题进行跟踪,还需要分布式链路跟踪系统。很多人以为CAT是,实际上CAT的跟踪系统比较弱。当前呼声较高的分布式跟踪系统有skywalking pinpoint zipkin,尤其前两者。二者比较,skywalking的查询能力更强,由于开发人员是中国人,沟通更顺畅,个人更喜欢。至于日志分析的问题,没得说,首选ELK。
3 系统监控。主要是对系统一级的软硬件资源使用情况 服务质量进行监控。如果网卡 cpu 内存的使用情况,比如nginx 数据库的运行数据,比如域名的使用情况。对于长期没有访问量的域名及时回收,根据监控的数据对服务器的资源及时作出调整。常规的选项有zabbix open-falcon prometheus,zabbix是老牌监控,可以满足一般公司的需求,prometheus适合云服务监控,openfalcon是小米开源的监控系统,国内很多互联网公司在使用。
上一篇: 消息压缩和解压缩