HBase基础


1、hbase

google:
gfs –> hdfs
mapreduce –> mapreduce
bigtable –> hbase

Apache HBase™是Hadoop数据库,是一个分布式,可扩展的大数据存储

当您需要对大数据进行随机,实时读/写访问时,请使用Apache HBase™。该项目的目标是托管非常大的表 - 数十亿行X百万列 - 在商品硬件集群上。Apache HBase是一个开源的,分布式的,版本化的非关系数据库nosql,模仿Google的Bigtable: Chang等人的结构化数据分布式存储系统。正如Bigtable利用Google文件系统提供的分布式数据存储一样,Apache HBase在Hadoop和HDFS之上提供类似Bigtable的功能

2、hbase集群角色

hdfs: NameNode DataNode
yarn: ResourceManager NodeManager
zookeeper: QuorumPeerMain
hbase: HMaster RegionServer

主从结构
HMaster
1)对RegionServer监控
2)处理一些元数据的变更
3)对RegionServer进行故障转移
4)空闲时对数据进行负载均衡
5)对region进行管理
6)发布位置到客户端借助于zookeeper

RegionServer
1)存储hbase实际的数据
2)刷新缓存数据到hdfs
3)处理Region
4)可以进行压缩
5)对Hlog进行维护
6)对region分片

3、hbase集群安装部署

1)需要安装好zookeeper集群

2)需要安装好hadoop集群
hdfs
yarn

3)解压hbase压缩包
tar -zxvf hbase-1.3.0-bin.tar.gz

4)修改配置hbase-env.sh
export JAVA_HOME=/root/hd/jdk1.8.0_192
export HBASE_MANAGES_ZK=false

5)配置hbase-site.xml
cd /root/hd/hbase-1.3.0
vi hbase-site.xml

<configuration>
    <!-- 设置namenode所在位置 通过rootdir设置 也就是设置hdfs中存放的路径 -->
    <property>
        <name>hbase.rootdir</name>
        <value>hdfs://hsiehchou121:9000/hbase</value>
    </property>

    <!-- 是否开启集群 -->
    <property>
        <name>hbase.cluster.distributed</name>
        <value>true</value>
    </property>

    <!-- 0.98 后的新变动,之前版本没有.port,默认端口为 60000 -->
    <property>
        <name>hbase.master.port</name>
        <value>16000</value>
    </property>

    <!-- zookeeper集群的位置 -->
    <property>
        <name>hbase.zookeeper.quorum</name>
        <value>hsiehchou121:2181,hsiehchou122:2181,hsiehchou123:2181,hsiehchou124:2181</value>
    </property>

    <!-- hbase的元数据信息存储在zookeeper的位置 -->
    <property>
        <name>hbase.zookeeper.property.dataDir</name>
        <value>/root/hd/zookeeper-3.4.10/zkData</value>
    </property>
</configuration>

指定从节点regionservers

vi regionservers

hsiehchou122
hsiehchou123
hsiehchou124

6)解决依赖问题
HBase依赖于Hadoop,换成2.8.4的hadoop依赖包
hadoop-annotations-2.8.4.jar
hadoop-auth-2.8.4.jar
hadoop-common-2.8.4.jar
hadoop-hdfs-2.8.4.jar
hadoop-hdfs-client-2.8.4.jar
hadoop-mapreduce-client-app-2.8.4.jar
hadoop-mapreduce-client-common-2.8.4.jar
hadoop-mapreduce-client-core-2.8.4.jar
hadoop-mapreduce-client-hs-2.8.4.jar
hadoop-mapreduce-client-hs-plugins-2.8.4.jar
hadoop-mapreduce-client-jobclient-2.8.4.jar
hadoop-mapreduce-client-jobclient-2.8.4-tests.jar
hadoop-mapreduce-client-shuffle-2.8.4.jar
hadoop-yarn-api-2.8.4.jar
hadoop-yarn-applications-distributedshell-2.8.4.jar
hadoop-yarn-applications-unmanaged-am-launcher-2.8.4.jar
hadoop-yarn-client-2.8.4.jar
hadoop-yarn-common-2.8.4.jar
hadoop-yarn-server-applicationhistoryservice-2.8.4.jar
hadoop-yarn-server-common-2.8.4.jar
hadoop-yarn-server-nodemanager-2.8.4.jar
hadoop-yarn-server-resourcemanager-2.8.4.jar
hadoop-yarn-server-web-proxy-2.8.4.jar

zookeeper-3.4.10.jar

7)软连接core-site.xml hdfs-site.xml
ln -s /root/hd/hadoop-2.8.4/etc/hadoop/hdfs-site.xml
ln -s /root/hd/hadoop-2.8.4/etc/hadoop/core-site.xml

8)发送到其他机器
scp -r hbase-1.3.0 hsiehchou122:/root/hd
scp -r hbase-1.3.0 hsiehchou123:/root/hd
scp -r hbase-1.3.0 hsiehchou124:/root/hd

find /root/hd/hadoop-2.8.4/ -name hadoop-a*

9)访问ui界面
http://192.168.116.121:16010/master-status

启动hbase
bin/hbase-daemon.sh start master
bin/hbase-daemon.sh start regionserver

关闭hbase
bin/hbase-daemon.sh stop master
bin/hbase-daemon.sh stop regionserver

4、hbase设计架构

Rowkey行键 类似 id
列式存储
hbase操作
0)启动终端
bin/hbase shell

1)查看表操作
list

2)显示当前服务器状态
status ‘hsiehchou121’
1 active master, 0 backup masters, 3 servers, 0 dead, 0.5000 ave
rage load
1 active master: 1个存活的master
0 backup masters: 0个备份master
3 servers: 3个regionserver
0 dead: 没有挂掉的
0.5000 average load:平均加载

3)显示当前用户
whoami

4)创建表
create ‘表名’,’列族’
create ‘user’,’info1’

5)添加数据
put ‘表名’,’rowkey’,’列族:列’,’值’
put ‘user’,’1001’,’info1:name’,’xie’
put ‘user’,’1001’,’info1:age’,’19’

删除需要ctrl+<-

6)全表扫描
scan ‘表名’
scan ‘user’

ROW COLUMN+CELL
1001 column=info1:age, timestamp=1552579563486, value=19
1001 column=info1:name, timestamp=1552579531260, value=xie

7)hbase没有修改,只有覆盖
put ‘user’,’1001’,’info1:name’,’mi’
只要对应上表名、rowkey、列族、列即可

8)查看表结构
describe ‘user’

9)变更表结构信息
alter ‘user’,{NAME => ‘info1’,VERSIONS=>’8’}

10)查看指定的数据信息
指定具体的rowkey
get ‘user’,’1001’
指定具体的列
get ‘user’,’1001’,’info1:name’

11)清空表
truncate ‘user1’

12)删除表
需要先指定不可用
disable ‘表名’
drop ‘表名’
disable ‘user1’
drop ‘user1’

13)扫描指定范围
指定从某一rowkey扫描
scan ‘user’,{STARTROW => ‘1002’}

包含头不包含尾(1001保留,1002不扫描)
scan ‘user’,{STARTROW => ‘1001’, STOPROW => ‘1002’}

14)统计rowkey的个数
count ‘user’

15)退出hbase shell
quit


文章作者: 谢舟
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 谢舟 !
 上一篇
HBase 操作 HBase 操作
1、HBase API操作1)首先将core-site.xml、hbase-site.xml、hdfs-site.xml引入maven工程的resources下面 2)配置pom.xml文件增加hbase依赖 <dependencie
2019-03-15
下一篇 
Azkaban Azkaban
1、Azkaban官网:https://azkaban.github.io/Azkaban是一款开源工作流管理器 Azkaban是在LinkedIn上创建的批处理工作流作业调度程序,用于运行Hadoop作业 Azkaban通过作业依赖性解决
2019-03-08
  目录