OpenTSDB 造成 Hbase 整点压力过大问题的排查和解决

程序员文章站 2022-05-14 13:57:37

...

业务背景 OpenTSDB 是一款非常适合存储海量时间序列数据的开源软件，使用 HBase 作为存储让它变的非常容易扩展。我们在建设美团性能监控平台的过程中，每天需要处理数以亿计的数据，经过几番探索和调研，最终选取了 OpenTSDB 作为数据存储层的重要组件。Open

相关mysql视频教程推荐：《mysql教程》

业务背景

OpenTSDB 是一款非常适合存储海量时间序列数据的开源软件，使用 HBase 作为存储让它变的非常容易扩展。我们在建设美团性能监控平台的过程中，每天需要处理数以亿计的数据，经过几番探索和调研，最终选取了 OpenTSDB 作为数据存储层的重要组件。OpenTSDB 的安装和配置过程都比较简单，但是在实际的业务应用中，还是会出现这样那样的问题，本文详细介绍我们在OpenTSDB 实际使用过程中遇到的 HBase 整点压力过大的问题，期望对大家有些参考意义。

问题的出现

性能监控平台使用 OpenTSDB 负责存储之后不久（创建的表名称是 tsdb-perf），数据平台组的同事发现，tsdb-perf 这个表在最近这段时间每天上午 10 点左右有大量的读操作，造成 HBase 集群压力过大，但是想去分析问题的时候发现读操作又降为 0 了，为了避免类似情况未来突然发生，需要我来排查下原因。

于是我就想：性能监控平台目前只是个内部系统，用户使用量不大，并且只有在用户需要查看数据时去查询，数据读取量不应该造成 HBase 的压力过大。

重现问题

如果要解决这个问题，稳定重现是个必要条件，根据数据平台组同事的反馈，我们做了更详细的监控，每隔两分钟采集性能监控平台所用的 HBase 集群的读操作数量，发现是下面的变化趋势：

13:00:05    0
13:02:01    66372
13:04:01    96746
13:06:02    101784
13:08:01    99254
13:10:02    2814
13:12:01    93668
13:14:02    93224
13:16:02    90118
13:18:02    11376
13:20:01    85134
13:22:01    81880
13:24:01    80916
13:26:01    77694
13:28:02    76312
13:30:01    73310
13:32:02    0
13:34:01    0
13:36:01    0
13:38:02    0
13:40:01    0
13:42:02    0
13:44:01    0
13:46:02    0
13:48:01    0
13:50:02    0
13:52:01    0
13:54:02    0
13:56:01    0
13:58:02    0
14:00:01    0
14:02:01    36487
14:04:01    43946
14:06:01    53002
14:08:02    51598
14:10:01    54914
14:12:02    95784
14:14:04    53866
14:16:02    54868
14:18:01    54122
14:20:04    0
14:22:01    0
14:24:02    0
14:26:01    0
14:28:01    0
14:30:01    0
14:32:02    0
14:34:01    0

从图上不难看出，每到整点开始 tsdb-perf 这个表的读操作飚的很高，大约持续半个小时，之后恢复到 0 。到下个整点又出现类似的问题，并没有像数据平台组同事观察到的突然回复正常了，可能他们连续两次观察的时间点刚好错开了。

于是，真正的问题就变成了：OpenTSDB 到 HBase 的读操作每到整点开始飚的很高，持续大约半小时后回复正常，这种类脉冲式的流量冲击会给 HBase 集群的稳定性带来负面影响。