hbase存储

jessica888 2021-08-07 原文

HBase存储格式

HBase中的所有数据文件都存储在Hadoop HDFS文件系统上，主要包括上述提出的两种文件类型：

1.HFile， HBase中KeyValue数据的存储格式，HFile是Hadoop的二进制格式文件

2. HLog File，HBase中WAL（Write Ahead Log）的存储格式

HFile格式图

HMaster

HMaster没有单点问题，HBase中可以启动多个HMaster，通过Zookeeper的Master Election机制保证总有一个Master运行，HMaster在功能上主要负责Table和Region的管理工作：

1.管理用户对Table的增、删、改、查操作

2.管理HRegionServer的负载均衡，调整Region分布

3.在Region Split后，负责新Region的分配

4.在HRegionServer停机后，负责失效HRegionServer 上的Regions迁移

HRegionServer

HRegionServer主要负责响应用户I/O请求，向HDFS文件系统中读写数据，是HBase中最核心的模块。

HRegionServer内部管理了一系列HRegion对象，每个HRegion对应了Table中的一个Region，HRegion中由多个HStore组成。每个HStore对应了Table中的一个Column Family的存储，可以看出每个Column Family其实就是一个集中的存储单元，因此最好将具备共同IO特性的column放在一个Column Family中。

HStore:

HStore存储是HBase存储的核心了，其中由两部分组成，一部分是MemStore，一部分是StoreFiles。MemStore是Sorted Memory Buffer，用户写入的数据首先会放入MemStore，当MemStore满了以后会Flush成一个StoreFile（底层实现是HFile），当StoreFile文件数量增长到一定阈值，会触发Compact合并操作，将多个StoreFiles合并成一个StoreFile，合并过程中会进行版本合并和数据删除，因此可以看出HBase其实只有增加数据，所有的更新和删除操作都是在后续的compact过程中进行的，这使得用户的写操作只要进入内存中就可以立即返回，保证了HBase I/O的高性能。当StoreFiles Compact后，会逐步形成越来越大的StoreFile，当单个StoreFile大小超过一定阈值后，会触发Split操作，同时把当前Region Split成2个Region，父Region会下线，新Split出的2个孩子Region会被HMaster分配到相应的HRegionServer上，使得原先1个Region的压力得以分流到2个Region上。

HLog:

在理解了上述HStore的基本原理后，还必须了解一下HLog的功能，因为上述的HStore在系统正常工作的前提下是没有问题的，但是在分布式系统环境中，无法避免系统出错或者宕机，因此一旦HRegionServer意外退出，MemStore中的内存数据将会丢失，这就需要引入HLog了。每个HRegionServer中都有一个HLog对象，HLog是一个实现Write Ahead Log的类，在每次用户操作写入MemStore的同时，也会写一份数据到HLog文件中（HLog文件格式见后续），HLog文件定期会滚动出新的，并删除旧的文件（已持久化到StoreFile中的数据）。当HRegionServer意外终止后，HMaster会通过Zookeeper感知到，HMaster首先会处理遗留的 HLog文件，将其中不同Region的Log数据进行拆分，分别放到相应region的目录下，然后再将失效的region重新分配，领取到这些region的HRegionServer在Load Region的过程中，会发现有历史HLog需要处理，因此会Replay HLog中的数据到MemStore中，然后flush到StoreFiles，完成数据恢复。

Hbase写路径

当用户向HRegionServer发起put请求时，其会将请求交给对应的HRegion实例来处理。第一步是要决定数据是否需要写到由HLog类实现的预写日志中。WAL是标准的Hadoop SequenceFile,并且存储了HLogKey实例。这些键包括序列号和实际数据，所以在服务器崩溃时可以回滚还没有持久化的数据。

一旦数据被写入到WAL中，数据就会被放到MemStore中。同时还会检查MemStore是否已经满了，如果满了，就会被请求刷写到磁盘中去。刷写请求由另外一个HRegionServer的线程处理，它会把数据写成HDFS中的一个新HFile。同时也会保存最后写入的序号，系统就知道哪些数据现在被持久化了。

Hbase读路径

如果你想快速访问数据，通用的原则是数据保持有序并尽可能保存在内存里。HBase实现了这两个目标，大多情况下读操作可以做到毫秒级。HBase 读动作必须重新衔接持久化到硬盘上的HFile 和内存中MemStore 里的数据。HBase 在读操作上使用了LRU（最近最少使用算法）缓存技术。这种缓存也叫做BlockCache，和MemStore 在一个JVM 堆里。BlockCache 设计用来保存从HFile 里读入内存的频繁访问的数据，避免硬盘读。每个列族都有自己的BlockCache。

版权声明：本文为jessica888原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/jessica888/p/15027221.html

hbase存储的更多相关文章

分布式爬虫系统设计、实现与实战：爬取京东、苏宁易购全网手机商品数据+MySQL、HBase存储
http://blog.51cto.com/xpleaf/2093952 1 概述在不用爬虫框架的情况，经过 […]...

随机推荐

如何将图片转换成word文档
能扫描文字的是扫描仪，可是能辨认扫描文字的是捷速扫描文字辨认软件，扫描文字都挺多见的，咱们办公中经常会遇到，每 […]...
如何快速掌握plc或工控机与其他设备的modbus通讯协议？包括格式与实际过程 RT，本人从事工控行业多年，对于PLC与触摸屏也算比较熟悉，唯独对这个通讯协议比较难理解，请教高人指导，从什么地方开始下手，或者是说如何正确理解报文格式或正确写入
Modbus协议是OSI模型的第七层的应用层通讯协议，定义了不同类型设备间交换信息方式，以及信息的格式。 Mo […]...
深入java虚拟机学习 — 类的加载机制
当看到“类的加载机制”，肯定很多人都在想我平时也不接触啊，工作中无非就是写代码，不会了可以百度，至于类，jvm […]...
Go终端读写
终端读写操作终端相关文件句柄常量 os.Stdin：标准输入 os.Stdout：标准输出 os.Stder […]...
【微信公众号】公众号开发大致流程
一注册测试账号 1.地址在微信公众平台(https://mp.weixin.qq.com/cgi-bin/f […]...
Matlab读入含有特殊分隔符的文件（textread）
笔者在此基础上进行运行，修改得到以下内容，希望大家给与补充： textread 基本语法是： [A,B […]...
关于炒股软件——金魔方炒股软件的Dll外挂开发
　　2015-01-19 14:40:04 　　金魔方平台是由飞狐交易师原创团队集多年研发经验，依靠和讯财经网 […]...
【实战经验分享】一劳永逸的解决网线随意热插拔问题
说明：网线热插拔是实际项目中经常会遇到的问题，热插拔又有各种各样的情况要具体处理，这里分享一种实用性方案。 […]...

展开目录

目录导航