Hbase入门(二)——安装与配置
本文讲述如何安装,部署,启停hbase集群,如何通过命令行对hbase进行基本操作。
并介绍hbase的配置文件。
在安装前需要将所有先决条件安装完成。
一、先决条件
1、jdk
和hadoop一样,hbase需要jdk1.6或者更高的版本,所以请安装好jdk并配置环境变量。
hbase版本与jdk版本
hbase version | jdk 7 | jdk 8 | jdk 9 (non-lts) | jdk 10 (non-lts) | jdk 11 |
---|---|---|---|---|---|
2.0+ | hbase-20264 | hbase-20264 | hbase-21110 | ||
1.2+ | hbase-20264 | hbase-20264 | hbase-21110 |
2、zookeeper
zookeeper是hbase集群的协调器,负责解决hmaster的单点问题,所以必须先安装好一个zookeeper。
3、hadoop
集群模式下,我们需要hadoop环境
hadoop 版本支持
- t = 支持
- f = 不支持
- n = 未测试
hbase-1.2.x, hbase-1.3.x | hbase-1.4.x | hbase-2.0.x | hbase-2.1.x | |
---|---|---|---|---|
hadoop-2.4.x | t | f | f | f |
hadoop-2.5.x | t | f | f | f |
hadoop-2.6.0 | f | f | f | f |
hadoop-2.6.1+ | t | f | t | f |
hadoop-2.7.0 | f | f | f | f |
hadoop-2.7.1+ | t | t | t | t |
hadoop-2.8.[0-1] | f | f | f | f |
hadoop-2.8.2 | n | n | n | n |
hadoop-2.8.3+ | n | n | t | t |
hadoop-2.9.0 | f | f | f | f |
hadoop-2.9.1+ | n | n | n | n |
hadoop-3.0.[0-2] | f | f | f | f |
hadoop-3.0.3+ | f | f | t | t |
hadoop-3.1.0 | f | f | f | f |
hadoop-3.1.1+ | f | f | t | t |
二、安装与部署
hbase有两种运行模式,单机模式和分布式模式。
1、单机模式
下载
首先在这里下载hbase的一个稳定版本,
建议点击顶部链接,进入 hbase releases 点击 stable 的文件夹,然后下载将以 tar.gz 结尾的二进制文件到本地。暂时不要下载以 src.tar.gz 结尾的文件。
解压
进入到那个要解压的目录
$ tar xzvf hbase-1.3.5-bin.tar.gz $ cd hbase-1.3.5/
java_home
在启动 hbase 之前,您需要设置java_home
环境变量。您可以通过操作系统的常用设置来设置变量,hbase 也提供了一个中心机制 conf/hbase-env.sh。编辑此文件,取消注释以java_home
开头的行,并将其设置为适合您的操作系统的路径。
java_home=/usr
hbase-site.xml
编辑 hbase 主配置文件 conf/hbase-site.xml.
您需要在本地文件系统上指定 hbase 和 zookeeper 数据存储目录.
<configuration> <property> <name>hbase.rootdir</name> <value>file:///home/testuser/hbase</value> </property> <property> <name>hbase.zookeeper.property.datadir</name> <value>/home/testuser/zookeeper</value> </property> <property> <name>hbase.unsafe.stream.capability.enforce</name> <value>false</value> <description> controls whether hbase will check for stream capabilities (hflush/hsync). disable this if you intend to run on localfilesystem, denoted by a rootdir with the 'file://' scheme, but be mindful of the note below. warning: setting this to false blinds you to potential data loss and inconsistent system state in the event of process and/or node failures. if hbase is complaining of an inability to use hsync or hflush it's most likely not a false positive. </description> </property> </configuration>
启停
bin/start-hbase.sh 为启动 hbase
bin/start-hbase.sh为停止 hbase
可以使用 jps
确认 hmaster 和 hregionserver 进程是否开启关闭。
2、集群模式
2.1 伪分布式模式
伪分布模式意味着 hbase 仍然在单个主机上完全运行,但是每个 hbase 守护进程(hmaster,hregionserver 和 zookeeper)作为一个单独的进程运行.
使用集群模式前,要保证hdfs可以正常运行。
hbase-site.xml
编辑 hbase 主配置文件 conf/hbase-site.xml.
需要将分布式模式开启 指定hdfs的uri
<property> <name>hbase.cluster.distributed</name> <value>true</value> </property> <property> <name>hbase.rootdir</name> <value>hdfs://localhost:8020/hbase</value> </property>
使用 bin/start-hbase.sh 启动 hbase. 如果您的系统配置正确,该jps
命令应显示 hmaster 和 hregionserver 进程正在运行。
启动和停止备份 hbase 主(hmaster)服务器
你可以启动最多 9 个备份 hmaster 服务器,这个服务器总共有 10 个 hmaster 计算主服务器。
$ ./bin/local-master-backup.sh start 2 3 5
启动和停止其他 regionservers
$ .bin/local-regionservers.sh start 2 3 4 5
2.2 完全分布式
实际上,您需要一个完全分布式的配置来全面测试 hbase,并将其用于实际场景中。在分布式配置中,集群包含多个节点,每个节点运行一个或多个 hbase 守护进程。这些包括主要和备份主实例,多个 zookeeper 节点和多个 regionserver 节点。
架构如下:
node name | master | zookeeper | regionserver |
---|---|---|---|
node-a.example.com | yes | yes | no |
node-b.example.com | backup | yes | yes |
node-c.example.com | no | yes | yes |
要保证节点有通讯权限,比如配置ssh免密和防火墙权限,并将zookeeper配置好启动。
将hbase下载并解压,将配置文件同步到各个机器上。
启动集群
$ bin/start-hbase.sh node-c.example.com: starting zookeeper, logging to /home/hbuser/hbase-0.98.3-hadoop2/bin/../logs/hbase-hbuser-zookeeper-node-c.example.com.out node-a.example.com: starting zookeeper, logging to /home/hbuser/hbase-0.98.3-hadoop2/bin/../logs/hbase-hbuser-zookeeper-node-a.example.com.out node-b.example.com: starting zookeeper, logging to /home/hbuser/hbase-0.98.3-hadoop2/bin/../logs/hbase-hbuser-zookeeper-node-b.example.com.out starting master, logging to /home/hbuser/hbase-0.98.3-hadoop2/bin/../logs/hbase-hbuser-master-node-a.example.com.out node-c.example.com: starting regionserver, logging to /home/hbuser/hbase-0.98.3-hadoop2/bin/../logs/hbase-hbuser-regionserver-node-c.example.com.out node-b.example.com: starting regionserver, logging to /home/hbuser/hbase-0.98.3-hadoop2/bin/../logs/hbase-hbuser-regionserver-node-b.example.com.out node-b.example.com: starting master, logging to /home/hbuser/hbase-0.98.3-hadoop2/bin/../logs/hbase-hbuser-master-nodeb.example.com.out
3、web ui
在 hbase 0.98.x 以上, hbase web ui 的端口从主节点的 60010 和 regionserver 的 60030 变化为 16010 和 16030
在hbase启动以后可以通过页面查看。
三、hbase shell
在 hbase 安装目录 bin/ 目录下使用hbase shell
命令连接正在运行的 hbase 实例。
$ ./bin/hbase shell hbase(main):001:0>
预览 hbase shell 的帮助文本
输入help
并回车, 可以看到 hbase shell 的基本信息和一些示例命令.
创建表
使用 create
创建一个表 必须指定一个表名和列族名
hbase(main):001:0> create 'test', 'cf' 0 row(s) in 0.4170 seconds => hbase::table - test
表信息
使用 list
查看存在表
hbase(main):002:0> list 'test' table test 1 row(s) in 0.0180 seconds => ["test"]
使用 describe
查看表细节及配置
hbase(main):003:0> describe 'test' table test is enabled test column families description {name => 'cf', versions => '1', evict_blocks_on_close => 'false', new_version_behavior => 'false', keep_deleted_cells => 'false', cache_data_on_write => 'false', data_block_encoding => 'none', ttl => 'forever', min_versions => '0', replication_scope => '0', bloomfilter => 'row', cache_index_on_write => 'f alse', in_memory => 'false', cache_blooms_on_write => 'false', prefetch_blocks_on_open => 'false', compression => 'none', blockcache => 'true', blocksize => '65536'} 1 row(s) took 0.9998 seconds
插入数据
使用 put
插入数据
hbase(main):003:0> put 'test', 'row1', 'cf:a', 'value1' 0 row(s) in 0.0850 seconds hbase(main):004:0> put 'test', 'row2', 'cf:b', 'value2' 0 row(s) in 0.0110 seconds hbase(main):005:0> put 'test', 'row3', 'cf:c', 'value3' 0 row(s) in 0.0100 seconds
扫描全部数据
从 hbase 获取数据的途径之一就是 scan
。使用 scan 命令扫描表数据。你可以对扫描做限制。
hbase(main):006:0> scan 'test' row column+cell row1 column=cf:a, timestamp=1421762485768, value=value1 row2 column=cf:b, timestamp=1421762491785, value=value2 row3 column=cf:c, timestamp=1421762496210, value=value3 3 row(s) in 0.0230 seconds
获取一条数据
使用 get
命令一次获取一条数据
hbase(main):007:0> get 'test', 'row1' column cell cf:a timestamp=1421762485768, value=value1 1 row(s) in 0.0350 seconds
禁用表
使用 disable
命令禁用表
hbase(main):008:0> disable 'test' 0 row(s) in 1.1820 seconds hbase(main):009:0> enable 'test' 0 row(s) in 0.1770 seconds
使用 enable
命令启用表
hbase(main):010:0> disable 'test' 0 row(s) in 1.1820 seconds
删除表
hbase(main):011:0> drop 'test' 0 row(s) in 0.1370 seconds
退出 hbase shell
使用quit
命令退出命令行并从集群断开连接。
四、配置文件详解
apache hbase 使用与 apache hadoop 相同的配置系统。所有配置文件都位于 conf/ 目录中,需要保持群集中每个节点的同步。
backup-masters 默认情况下不存在。这是一个纯文本文件,其中列出了主服务器应在其上启动备份主进程的主机,每行一台主机。 hadoop-metrics2-hbase.properties 用于连接 hbase hadoop 的 metrics2 框架。默认情况下只包含注释出的示例。 hbase-env.cmd and hbase-env.sh 用于 windows 和 linux/unix 环境的脚本,以设置 hbase 的工作环境,包括 java、java 选项和其他环境变量的位置。该文件包含许多注释示例来提供指导。 hbase-policy.xml rpc 服务器使用默认策略配置文件对客户端请求进行授权决策。仅在启用 hbase安全模式下使用。 hbase-site.xml 主要的 hbase 配置文件。该文件指定覆盖 hbase 的默认配置的配置选项。您可以在 docs/hbase-default.xml 中查看(但不要编辑)默认配置文件。您还可以在 hbase web ui 的 hbase 配置选项卡中查看群集的整个有效配置(默认和覆盖)。 log4j.properties 通过log4j进行 hbase 日志记录的配置文件。 regionservers 包含应该在 hbase 集群中运行 regionserver 的主机列表的纯文本文件。默认情况下,这个文件包含单个条目localhostt。它应该包含主机名或 ip 地址列表,每行一个,如果集群中的每个节点将在其localhost接口上运行 regionserver 的话,则只应包含localhost
更多实时计算,hbase,flink,kafka等相关技术博文,欢迎关注实时流式计算