数据存储之HBase的RowKey设计

程序员文章站 2022-05-27 16:13:59

...

HBase的RowKey设计需要根据具体的数据进行设计，一般来说需要依据的设计原则有三个：

长度原则：避免没有必要的资源消耗
散列原则：避免热点问题，也是RowKey设计主要考虑的地方
唯一原则：保证RowKey不重复

RowKey长度原则

RowKey的长度一般设计为定长，越短越好。如果RowKey设计得过长容易引发以下问题：

 第一、RowKey太长容易过多占用memorystore和磁盘空间，导致我们需要存储的数据使用的资源减少 
 
 第二、RowKey过长Client缓存元数据的条数会变少，导致需要频繁请求读取元数据

RowKey散列原则

如果单纯使用时间或有规律的字符串作为RowKey，往往容易使资源集中存储在单个或少数几个RegionServer中，在大量数据需要被访问时，单个RegionServer响应不过来，就会造成检索效率降低。所以在设计RowKey时，我们常常使用一些方法将RowKey尽量均匀的分布在每一个RegionServer中，具体的方法列举以下几个：

1.预分区+加盐
不设置预分区就默认只有一个region，我们可以在建表时设置预分区，并指定每个region的rowkey范围。
所谓加盐，就是给rowkey添加随机数前缀，预分区时就将产生随机数的范围按照每个region平均划分，使每个rowkey对应的数据去到每个region的概率一样

2.字符串反转
将时间或者数字等前面不改变后面几位经常改变的rowkey进行反正，使这种大量连续的rowkey不会被分到同一个region中

3.hash
哈希会使同一行永远用一个前缀散列。哈希也可以使负载分散到整个集群，但是读却是可以预测的。
使用确定的哈希可以让客户端重构完整的rowkey，可以使用get操作准确获取某一个行数据

RowKey唯一原则

每条数据的RowKey不能重复

RowKey是每一条数据的唯一标志，Hbase检索数据只能通过三种方式：
第一、单个rowkey检索
第二、rowkey range检索
第三、全表检索
所以我们必须保证rowkey设计时的唯一性

数据存储之HBase的RowKey设计

RowKey长度原则

RowKey散列原则

RowKey唯一原则

android之存储篇_SQLite数据库_让你彻底学会SQLite的使用

C语言数据结构之线性表的链式存储结构

Android开发之使用SQLite存储数据的方法分析

Python3爬虫学习之MySQL数据库存储爬取的信息详解

JavaEE课程设计：数据库的增删改查之添加页（图书）

数据结构之---C语言实现串的顺序存储

hbase rowkey 的设计

如何在MongoDB设计存储你的数据（JSON化）？

MySQL 学习总结之初步了解 InnoDB 存储引擎的架构设计

阿里HBase超详实践总结 | 一文读懂大数据时代的结构化存储 hbasehadoop阿里巴巴

数据存储之HBase的RowKey设计

RowKey长度原则

RowKey散列原则

RowKey唯一原则

android之存储篇_SQLite数据库_让你彻底学会SQLite的使用

C语言数据结构之线性表的链式存储结构

Android开发之使用SQLite存储数据的方法分析

Python3爬虫学习之MySQL数据库存储爬取的信息详解

JavaEE课程设计：数据库的增删改查之添加页（图书）

数据结构之---C语言实现串的顺序存储

hbase rowkey 的设计

如何在MongoDB设计存储你的数据（JSON化）？

MySQL 学习总结 之 初步了解 InnoDB 存储引擎的架构设计

阿里HBase超详实践总结 | 一文读懂大数据时代的结构化存储 hbasehadoop阿里巴巴

MySQL 学习总结之初步了解 InnoDB 存储引擎的架构设计