## HBase 版本和历史
年份 | 事件
---|---
2006 | Google 发表 BigTable 论文
2007 | 随着 Hadoop 0.15.0,第一个可用的 HBase 也发布了。
2008 | HBase 成为 Hadoop 的子项目
2010 | HBase 成为 Apache 的顶级项目
2011 | HBase 0.9.0 发布
2015 | HBase 1.0.0 发布
2018 | HBase 2.0.0 发布
年份 | 事件
---|---
2006 | Google 发表 BigTable 论文
2007 | 随着 Hadoop 0.15.0,第一个可用的 HBase 也发布了。
2008 | HBase 成为 Hadoop 的子项目
2010 | HBase 成为 Apache 的顶级项目
2011 | HBase 0.9.0 发布
2015 | HBase 1.0.0 发布
2018 | HBase 2.0.0 发布
2018-06-18
HBase 表数据模型:
表数据模型就是指数据在表中是如何进行填充的。HBase 表数据模型中,有以下几个核心概念:
- Row key:主键,数据的唯一标识,按字典排序
- Time Stamp:时间戳,支持多版本数据同时存在
- Cloumn Family:列簇,是多个列的集合,具有以下性质:
- 一张表的列簇不会超过5个;
- 每个列簇中的列数没有限制;
- 列动态伸缩,并且列只有插入数据后才存在;
- 列在列簇中是有序的。
表数据模型就是指数据在表中是如何进行填充的。HBase 表数据模型中,有以下几个核心概念:
- Row key:主键,数据的唯一标识,按字典排序
- Time Stamp:时间戳,支持多版本数据同时存在
- Cloumn Family:列簇,是多个列的集合,具有以下性质:
- 一张表的列簇不会超过5个;
- 每个列簇中的列数没有限制;
- 列动态伸缩,并且列只有插入数据后才存在;
- 列在列簇中是有序的。
2018-06-18
HBase 表结构模型:
在经典的 RDBMS 中,我们设计表结构模型时,只需要确定有多少个列即可,然后就可以对这个表进行数据的操作。而对于 HBase 来说,设计表结构模型时不需要确定列,只需要确定列簇(column family)即可,列的数量根据列簇里面的数据进行动态伸缩,为空的列并不占用存储空间。
在经典的 RDBMS 中,我们设计表结构模型时,只需要确定有多少个列即可,然后就可以对这个表进行数据的操作。而对于 HBase 来说,设计表结构模型时不需要确定列,只需要确定列簇(column family)即可,列的数量根据列簇里面的数据进行动态伸缩,为空的列并不占用存储空间。
2018-06-18
## HBase 周边生态
HBase 与 Hadoop 生态系统其他组件的关系非常紧密:
- HDFS 为 HBase 提供了高可靠性的底层存储支持。
- MapReduce 为 HBase 提供了高性能的计算能力。
- Zookeeper 为 HBase 提供了稳定性及 failover 机制的保障。
- Hive 可以与 HBase 相结合,使在 HBase 进行数据统计处理变得简单。
- Sqoop 为 HBase 提供了方便的 RDBMS 数据迁移功能
- Spark 等高性能的基于内存的分布式计算引擎也可能帮助我们更加快速的对 HBase 中的数据进行处理分析。
HBase 与 Hadoop 生态系统其他组件的关系非常紧密:
- HDFS 为 HBase 提供了高可靠性的底层存储支持。
- MapReduce 为 HBase 提供了高性能的计算能力。
- Zookeeper 为 HBase 提供了稳定性及 failover 机制的保障。
- Hive 可以与 HBase 相结合,使在 HBase 进行数据统计处理变得简单。
- Sqoop 为 HBase 提供了方便的 RDBMS 数据迁移功能
- Spark 等高性能的基于内存的分布式计算引擎也可能帮助我们更加快速的对 HBase 中的数据进行处理分析。
2018-06-17