HBase使用教程

1 基本介绍

1.1 前言

HBase – Hadoop Database。是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样。HBase在Hadoop之上提供了相似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。

HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

还有一个不同的是HBase基于列的而不是基于行的模式。

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。利用HBase技术可在便宜PC
Server上搭建起大规模结构化存储集群。

2 安装和使用

2.1 下载

HBase的官方站点http://www.apache.org/dyn/closer.cgi/hbase/上面能够下载到各种版本号。眼下用最新版本号是0.98.2，建议下载stable文件夹下的稳定版本号。

2.2 安装

安装依赖基础要求

1. Linux操作系统

依据HBase的官方介绍。HBase没有在windows下測试过，因而，我们都是将HBase安装在Linux操作系统上。

我本机安装的Ubuntu 12.04的虚拟机。

2. Jdk

HBase须要jdk支持其运行。jdk版本号要求是1.6及其以上。

这里暂且把Linux虚拟机的安装和虚拟机上jdk的安装过程跳过，能够參照网上其它相关资料运行。

HBase的安装方法比較简单，将我们下载的HBase的安装包hbase-0.94.20.tar.gz复制到Linux的根文件夹下。

接着运行下面命令和配置。之后启动HBase：

1. 解压缩安装包

root@ubuntu:/# tar xfz hbase-0.94.20.tar.gz

root@ubuntu:/# cd hbase-0.94.20

2. 配置数据存储文件夹

正如官方文档描写叙述的那样，这时我们能够直接启动HBase，这种话，使用的数据存储文件夹为 /tmp/hbase-${user.name}，也就意味着，我们一旦重新启动Linux。我们先前存储的数据就将丢失。

Linux下运行下面命令：

root@ubuntu:/# cd /hbase-0.94.20/conf/

root@ubuntu:/hbase-0.94.20/conf# vi hbase-site.xml

之后，改动配置文件内容为：

<?xml version=”1.0″?>

<?xml-stylesheet type=”text/xsl”href=”configuration.xsl”?

<name>hbase.rootdir</name>

<value>file:///hbase_data/hbase</value>

</property>

</configuration>

3. 启动HBase

root@ubuntu:/hbase-0.94.20/conf# ../bin/start-hbase.sh

starting master, logging to/hbase-0.94.20/bin/../logs/hbase-root-master-ubuntu.out

至此。单机模式启动HBase已经完毕了。HBase的停止脚本是同样文件夹下的stop-hbase.sh。

2.3 HBase安装模式

在上一节中我们提到，我们安装的是单机模式。单机模式表示，我们全部的服务都运行在一个JVM上，包含HBase和Zookeeper。

另外，HBase还有两种安装模式：伪分布式模式和分布式模式。

伪分布式模式是把进程运行在一台机器上。但不是一个JVM。

全然分布式模式就是把整个服务被分布在各个节点上了。

伪分布式模式和分布式模式依赖安装较多其它组件和服务。安装过程较为复杂。将会在还有一篇文章中专门介绍。

3 開始一个样例

大多数技术人员happy的时候開始了。

我们開始一个简单的Helloworld。

3.1 使用HBase shell连接HBase

使用HBase自带的client连接工具。连接到HBase：

3.2 创建User表

输入下面命令并运行：

3.3 对User表简单地增删改查

往User表中插入一条信息：

查询刚才插入的信息：

3.4 检查数据存储文件夹

我们看一下之前我们配置的数据存储文件夹的变化：

我们能够看到，在之前配置的数据存储文件夹下。已经新加入了一些用于存储我们刚才存入的数据的文件了。

4 HBase基础定义和概念

4.1 表

HBase是一个数据库，数据以表的形式存储在Hbase中。

正如我们在hello world中定义中的User表相似，HBase的表的结构例如以下所看到的：

Row Key	Time Stamp	ColumnFamily contents	ColumnFamily anchor
“com.cnn.www”	t9		anchor:cnnsi.com = “CNN”
“com.cnn.www”	t8		anchor:my.look.ca = “CNN.com”
“com.cnn.www”	t6	contents:html = “<html>…”
“com.cnn.www”	t5	contents:html = “<html>…”
“com.cnn.www”	t3	contents:html = “<html>…”