-
写流程简述
查看全部 -
HDFS写流程
查看全部 -
大数据概念
查看全部 -
introduction of Spark
查看全部 -
introduction of HBase
查看全部 -
Hadoop ecosystem
查看全部 -
MapReduce programming model
查看全部 -
Concepts of YARN
查看全部 -
common HDFS shell commands
查看全部 -
大数据:大数据是一个概念也是一门技术,是在以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。
大数据包括了以Hadoop和Spark为代表的基础大数据框架,还包括了实时数据处理,离线数据处理;数据分析,数据挖掘和用机器算法进行预测分析等技术。
查看全部 -
Spark优势
查看全部 -
Spark
查看全部 -
RowKey:数据唯一标识,按字典排序
Column Family:列族,多个列的集合,最多不超过3个
TimeStamp时间戳:支持多个版本数据同时存在
hbase可以存小文件,结构,非结构数据,hdfs 适合储存大文件
查看全部 -
HBase(Hadoop Database)
是一个分布式 NoSQL 列存储数据库;
利用 HDFS 作为其文件存储系统,支持MR程序读取数据;
存储非结构化和半结构化数据;
还可利用 Zookeeper 作为协同服务
hbase可以存小文件,结构,非结构数据,hdfs 适合储存大文件
查看全部 -
Hadoop生态圈的内容
Hive是一个数据仓库,提供大量结构化数据的检索功能
HBase是一个列式数据库
Spark是一个基于内存的分布式计算框架
查看全部
举报