Hbase过滤器
hbase过滤器简介
hbase的基本api,包括增、删、改、查等,增、删都是相对简单的操作,与传统的rdbms相比,这里的查询操作略显苍白,只能根据特性的行键进行查询(get)或者根据行键的范围来查询(scan)。 hbase不仅提供了这些简单的查询,而且提供了更加高级的过滤器(filter)来查询。通过这些过滤器可以在hbase中的数据的多个维度(行,列,数据版本)上进行对数据的筛选操作,也就是说过滤器最终能够筛选的数据能够细化到具体的一个存储单元格上(由行键,列明,时间戳定位)。
hbase过滤器的类型很多,但是可以分为两大类:比较过滤器,专用过滤器。
1. 比较过滤器 - 通用比较器
比较器作为过滤器的核心组成之一,用于处理具体的比较逻辑,例如字节级的比较,字符串级的比较等。
- binarycomparator
二进制比较器,用于按字典顺序比较 byte 数据值
- binaryprefixcomparator
前缀二进制比较器,按前缀比较
- nullcomparator
判断给定的是否为空
- bitcomparator
按位比较
- regexstringcomparator
支持正则表达式的值比较,仅支持 equal 和非equal
- substringcomparator
判断提供的子串是否出现在value中,不区分大小写
2. 比较过滤器 - 通用操作符
hbase提供了枚举类型的变量来表示我们常用的抽象操作符。
- less <
- less_or_equal <=
- equal =
- not_equal <>
- greater_or_equal >=
- greater >
- no_op 排除所有
3.比较过滤器 - 行健过滤器
- rowfilter 筛选出行健匹配的所有的行
- 语法 rowfilter(操作符,比较器)
- 性能 一般来讲,执行 scan 使用 startrow/stoprow 方式比较好
- 示例代码
new rowfilter(comparefilter.compareop.equal, new binarycomparator( bytes.tobytes("testrowkey1"))) 筛选出行健等于testrowkey1的行 new rowfilter( comparefilter.compareop.less_or_equal, new binarycomparator( bytes.tobytes("testrowkey20"))) 筛选出行健小于等于testrowkey20的行
- 调用示例
connection connection = connectionfactory.createconnection( configfactory.getinstance().gethbaseconf()); table table = connection.gettable(tablename.valueof(tablename)); scan scan = new scan(); filter filter = new rowfilter(comparefilter.compareop.equal, new binarycomparator(bytes.tobytes(rowkey))); scan.setfilter(filter); resultscanner results = table.getscanner(scan);
4.比较过滤器 - 列簇过滤器
- familyfilter 筛选出列簇匹配的数据 返回数据的单位是cell,而不是整行数据
- 语法 familyfilter(操作符,比较器)
- 性能 通常在 scan 过程中通过设定某些列族来实现该功能,而不是直接使用该过滤器
- 示例代码
new familyfilter(comparefilter.compareop.equal, new binarycomparator( bytes.tobytes("family1"))) 筛选出列簇等于family1的cell new familyfilter(comparefilter.compareop.less, new binarycomparator(bytes.tobytes("family20"))) 筛选出列簇小于family20的cell
5.比较过滤器 - 子列过滤器
- qualifierfilter 筛选出子列匹配的数据 返回数据的单位是cell,而不是整行数据
- 语法 qualifierfilter(操作符,比较器)
- 示例代码
new qualifierfilter(compareop.equal, new regexstringcomparator("you.")); 筛选出子列以you开头,不止是you,以及空的cell new qualifierfilter(compareop.not_equal, new binarycomparator(bytes.tobytes("column1"))) 筛选出子列不等于column1的cell
6.比较过滤器 - 子列范围过滤器
- columnrangefilter 该过滤器用于获取一个指定子列范围内的所有cell。
- 语法 columnrangefilter(子列起始值、是否包含起始值,子列结束值,是否包含结束值)
- 性能 该过滤器可以进行高效的子列内部扫描(因为子列是已经按字典排序好的),hbase-0.9.2 版本引入该功能。
- 示例代码
new columnrangefilter( bytes.tobytes("column1"), true, bytes.tobytes("column10"), true) 筛选出子列大于等于column1,小于等于column10的 所有cell
7.比较过滤器 -列值过滤器
- valuefilter 筛选出列值匹配的数据 返回数据的单位是cell,而不是整行数据
- 语法 valuefilter(操作符,比较器)
- 示例代码
new valuefilter(comparefilter.compareop.equal, new substringcomparator("value")) 筛选出所有列值中包含value的cell
8.专用过滤器 - 行健前缀过滤器
- prefixfilter 筛选出行健前缀匹配的所有的行
- 语法 prefixfilter(行健前缀)
- 示例代码
new prefixfilter(bytes.tobytes("testrowkey")) 筛选出行健前缀等于testrowkey的所有行
9.专用过滤器 - 子列前缀过滤器
- columnprefixfilter 筛选出包含前缀的所有子列 返回数据的单位是cell,而不是整行数据一般来讲
- 语法 columnprefixfilter(前缀)
- 示例代码
new columnprefixfilter(bytes.tobytes("column")) 筛选出所有以column开头子列的cellnew columnprefixfilter(bytes.tobytes("column")) 筛选出所有以column开头子列的cell
10.专用过滤器 - 多子列前缀过滤器
- multiplecolumnprefixfilter multiplecolumnprefixfilter 与 columnprefixfilter 的行为类似,但可以指定多个子列前缀
- 语法 multiplecolumnprefixfilter(前缀byte二维数组)
- 示例代码
byte[][] prefixes = new byte[][]{bytes.tobytes("column 1"), bytes.tobytes("column2")} new multiplecolumnprefixfilter (prefixes) 筛选出所有以column1和column2开头子列的cell
11.专用过滤器 - 列综合过滤器
- dependentcolumnfilter 该过滤器尝试找到该列簇、子列所在的cell。
- 语法 dependentcolumnfilter(列簇、子列)
- 示例代码
new dependentcolumnfilter( bytes.tobytes("family1"), bytes.tobytes("column1")) 筛选出所有列簇family1、子列column1的所有cell
12.专用过滤器 - 结构过滤器
- filterlist 该过滤器代表一个过滤器链 ,它可以包含一组即将应用于目标数据集的过滤器,过滤器间具有“与”和“或”关系。
- 语法
filterlist(列关系、过滤器集合)
filterlist.operator.must_pass_ all 关系与
filterlist.operator.must_pass_ one 关系或
- 示例代码
connection connection = connectionfactory.createconnection( configfactory.getinstance().gethbaseconf()); table table = connection.gettable(tablename.valueof(tablename)); scan scan = new scan(); filter filter1 = new rowfilter(comparefilter.compareop.equal, new binarycomparator(bytes.tobytes(rowkey))); filter filter2 = new dependentcolumnfilter( bytes.tobytes(“family1”), bytes.tobytes(“column1”)); list<filter> filters = new arraylist<>(2); filters.add(filter1); filters.add(filter2); filterlist filterlist = new filterlist(filterlist.operator.must_pass_all, filters); scan.setfilter(filterlist); resultscanner results = table.getscanner(scan);