HBase数据导入的几种操作方式

程序员文章站 2022-03-29 15:53:50

数据导入有如下几种方式： 1．利用HBase提供的ImportTsv将csv文件导入到HBase 2．利用HBase提供的completebulkload将数据导入到HBase 3．利用...

数据导入有如下几种方式：
1．利用HBase提供的ImportTsv将csv文件导入到HBase
2．利用HBase提供的completebulkload将数据导入到HBase
3．利用HBase提供的Import将数据导入到HBase

利用ImportTsv将csv文件导入到HBase

命令：

格式：hbase [类] [分隔符] [行键，列族] [表] [导入文件]
bin/hbase  org.apache.hadoop.hbase.mapreduce.ImportTsv  -Dimporttsv.separator="," 
-Dimporttsv.columns=HBASE_ROW_KEY,cf hbase-tb1-001 /simple.csv

simple.csv内容如下：

1,"Tony"
2,"Ivy"
3,"Tom"
4,"Spark"
5,"Storm"

eg:

创建文件
[root@hadoop1 datamove]# cat simple.csv
1,"Tony"
2,"Ivy"
3,"Tom"
4,"Spark"
5,"Storm"


上传文件
[root@hadoop1 datamove]# hdfs dfs -put simple.csv /liguodong
[root@hadoop1 datamove]# hdfs dfs -ls /liguodong
Found 5 items
-rw-r--r--   3 root supergroup         45 2015-07-06 11:13 /liguodong/simple.csv

创建表
hbase(main):001:0> create 'hbase-tb1-001','cf'
0 row(s) in 3.1120 seconds

=> Hbase::Table - hbase-tb1-001


执行mapreduce
[root@hadoop1 datamove]# hbase  org.apache.hadoop.hbase.mapreduce.ImportTsv  -Dimporttsv.separator="," 
-Dimporttsv.columns=HBASE_ROW_KEY,cf hbase-tb1-001 /liguodong/simple.csv


查看是否成功导入
hbase(main):003:0> scan 'hbase-tb1-001'
ROW                  COLUMN+CELL
 1                   column=cf:, timestamp=1436152834178, value="Tony"
 2                   column=cf:, timestamp=1436152834178, value="Ivy"
 3                   column=cf:, timestamp=1436152834178, value="Tom"
 4                   column=cf:, timestamp=1436152834178, value="Spark"
 5                   column=cf:, timestamp=1436152834178, value="Storm"
5 row(s) in 0.1490 seconds

利用completebulkload将数据导入到HBase

HBase支持bulkload的入库方式，它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理，直接在HDFS中生成持久化的HFile数据格式文件，然后上传至合适位置，即完成巨量数据快速入库的办法。配和mapreduce完成，高效便捷，而且不占用region资源，增添负载，在大数据量写入时，能极大的提高写入效率，并降低对HBase节点的写入压力。
通过使用先生成HFile，然后再BulkLoad到HBase的方式来替代之前直接调用HTableOutputFormat的方法有如下的好处：
1、消除了对HBase集群的插入压力
2、提高了Job的运行速度，降低了Job的执行时间

利用completebulkload将数据导入到HBase
1、先通过lmportTsv生成HFile
命令：

hbase [类] [分隔符] [输出存储路径] [行键,列族] [表] [导入原始数据文件]
bin/hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator="," -Dimporttsv.bulk.output=/hfile_tmp 
-Dimporttsv.columns=HBASE_ROW_KEY,cf hbase-tbl-002 /simple.csv

2、通过completebulkload将数据导入表hbase-tbl-002
命令：

hadoop jar lib/hbase-server-0.96.0.jar completebulkload
 /hfile_tmp hbase-tbl-002

eg:

[root@hadoop1 datamove]# hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator="," 
-Dimporttsv.bulk.output=/liguodong/hfile_tmp -Dimporttsv.columns=HBASE_ROW_KEY,cf hbase-tbl-002 /liguodong/simple.csv

以上的指令，它会主动创建表hbase-tbl-002和文件夹hfile_tmp。
[root@hadoop1 datamove]# hdfs dfs -ls /liguodong
drwxr-xr-x   - root supergroup          0 2015-07-06 11:54 /liguodong/hfile_tmp

[root@hadoop1 datamove]# hdfs dfs -ls -R  /liguodong/hfile_tmp
-rw-r--r--   3 root supergroup          0 2015-07-06 11:54 /liguodong/hfile_tmp/_SUCCESS
drwxr-xr-x   - root supergroup          0 2015-07-06 11:54 /liguodong/hfile_tmp/cf
-rw-r--r--   3 root supergroup       1196 2015-07-06 11:54 /liguodong/hfile_tmp/cf/e20e3fe899de47a88ca476e05da2c9d7

hbase(main):008:0> scan 'hbase-tbl-002'
ROW                  COLUMN+CELL
0 row(s) in 0.0310 seconds


将数据导入表hbase-tbl-002
[root@hadoop1 datamove]# hadoop jar /opt/cloudera/parcels/CDH/lib/hbase/hbase-server-0.98.6-cdh5.3.4.jar completebulkload 
/liguodong/hfile_tmp hbase-tbl-002

利用Import将数据导入到HBase

1、HBase export工具导出的数据的格式是sequence file。
比如，在执行完命令bin/hbase org.apache.hadoop.hbase.mapreduce.Export hbase-tbl-002 /test-output后，hbase会启动一个MapReduce作业，作业完成后会在hdfs上面会生成sequence file格式的数据文件。 2、对于这类Sequence file格式的数据文件，HBase是可以通过Import工具直接将它导入到HBase的表里面的。执行命令: bin/hbase org.apache.hadoop.hbase.mapreduce.Import hbase-tbl-003 /test-output 随后hbase会启动一个MapReduce作业，然后表test会成功入数据。

导出到hdfs
[root@hadoop1 lib]# hbase org.apache.hadoop.hbase.mapreduce.Export hbase-tb1-001 /liguodong/test-output


创建新表
hbase(main):010:0> create 'hbase-tb1-003','cf'
0 row(s) in 0.4290 seconds

=> Hbase::Table - hbase-tb1-003

导入到hbase
[root@hadoop1 lib]# hbase org.apache.hadoop.hbase.mapreduce.Import hbase-tb1-003 /liguodong/test-output


验证
hbase(main):011:0> scan 'hbase-tb1-003'
ROW                  COLUMN+CELL
 1                   column=cf:, timestamp=1436152834178, value="Tony"
 2                   column=cf:, timestamp=1436152834178, value="Ivy"
 3                   column=cf:, timestamp=1436152834178, value="Tom"
 4                   column=cf:, timestamp=1436152834178, value="Spark"
 5                   column=cf:, timestamp=1436152834178, value="Storm"
5 row(s) in 0.0580 seconds

上一篇： ECSHOP php商城系统过滤不严导致SQL注入漏洞

下一篇：黑客谈对一台BT主机的入侵过程

HBase数据导入的几种操作方式

利用ImportTsv将csv文件导入到HBase

利用completebulkload将数据导入到HBase

利用Import将数据导入到HBase

Hive中导入Amazon S3中的分区表数据的操作

MySQL db方式操作数据库的实例详解

Oracle导入导出数据的几种方式

【转载】Sqlserver数据库备份的几种方式

深入探讨:PHP使用数据库永久连接方式操作MySQL的是与非

php使用redis的几种常见操作方式和用法示例

浅谈分布式锁的几种使用方式（redis、zookeeper、数据库）

MySQL 表数据的导入导出操作示例

tensorflow实现对张量数据的切片操作方式

对Python3 解析html的几种操作方式小结