-
rowkey相当于表的行主键。timestamp是时间戳。Hbase是基于key-value形式的。所以在列簇内,每一列都有一个key和value。
列簇的注意事项:
1、一张表的列簇不会超过5个,超过5个会影响查询效率
2、每个列簇中的列数没有限制
3、列只有插入数据后才会存在,没插入数据不会占用磁盘空间
查看全部 -
在创建Hbase表的时候,不需要创建列,只需要创建对应的列簇即可。列簇内的列的数量是可以设置超过上百万个的,列的个数不需要一开始就设定,可以后续动态增加。但是列簇建议不要多余5个。每个列簇,相当于一个分类。
查看全部 -
依赖的外部服务:HDFS、zookeeper
内部进程服务:RegionServer、Master
使用Hbase,需要先安装HDFS分布式文件系统和Zookeeper注册中心。
Hbase包括主进程master和多个regionServer子进程。
当表数据量很大的时候,可以对表进行分区,分成多个region。regionServer负责管理region.
regionServer会将分区的运行情况报告给master,方便master随时将宕机的region分配到其他的region。
查看全部 -
Hadoop生态图
查看全部 -
选择合适的HBase版本:
官方版本:http://archive.apache.org/dist/hbase/
CDH版本:http://archive.cloudera.com/cdh5
查看全部 -
Hbase是一个分布式的、可扩展的、大数据存储的、Hadoop数据库。
Hbase 是一个 开源的 分布式 多版本 非关系型数据库
查看全部 -
Hbase的特点
1、容量大:Hbase单表可以有百亿行、百万列,数据矩阵横向和纵向两个维度所支持的数量级都非常有弹性
2、面向列:Hbase是面向列的存储和权限控制、并支持独立检索。列式存储,其数据在表中是按照某列存储的,这样在查询只需要少数几个字段的时候,能够大大减少读取的数据量(关系型数据库是,先将列定义好,然后写数据,hbase的列是可以动态增加的)
3、多版本:Hbase每一个列的数据存储有多个version
4、稀疏性:为空的列不占用存储空间、表可以设计的非常稀疏
5、扩展性:底层依赖于HDFS(分布式文件系统)
6、高可靠性: WAL机制保证了数据写入时不会因集群异常而导致写入数据丢失:Replication机制保证了在集群出现严重的问题时,数据不会发生丢失或损坏.而且HBase底层使用HDFS HDFS本身也有备份.
7、高性能:底层的LSM数据结构和Rowkey有序排列等架构上的独特设计,使得HBase具有非常高的写入性能.region切分、主键索引和缓存机制使得HBase在海量数据下具备一定的随机读取性能,改性能针对Rowkey的查询能够达到毫秒级别.
查看全部 -
Hbase在实际业务场景中的应用
1、交通
2、金融
3、电商
4、移动
查看全部 -
应用场景:1.海量数据存储。2.准实时查询。
上百亿行*上百亿列,实现百毫秒查询。
hbase应用于海量数据存储,只有当数据量非常大的时候,Hbase才能发挥其相应的威力。比如几百万的数据量,是完全没有必要用到Hbase的。
查看全部 -
数据模型查看全部
-
版本选择查看全部
-
the comparison between HBase and relational database
查看全部 -
HBase table structure model
查看全部 -
HBase architecture
查看全部 -
Apache Hadoop Ecosystem
查看全部
举报