-
什么是大数据?
大数据即使一个概念也是一门技术,是在以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。
大数据包括了以Hadoop和spark为代表的基础大数据框架。还包括实时数据处理,离线数据处理;数据分析,数据挖掘和用机器算法进行预测分析等技术
查看全部 -
hdfs3查看全部
-
3-2查看全部
-
2-3查看全部
-
HDFS缺点查看全部
-
HDFS优点查看全部
-
NameNode概念
查看全部 -
Spark优势
基于内存计算的分布式计算框架
抽象出分布式内存存储数据结构 弹性分布式数据集RDD
基于事件驱动,通过线程池复用线程提高性能
查看全部 -
Spark简介
基于内存计算的大数据并行计算框架
Spark是MapReduce的替代方案,兼容HDFS,HIVE等数据源
查看全部 -
HBase关键字
RowKey:数据唯一标识,按字典排序
Column Family:列族,多个列的集合,最多不要超过3个
TimeStamp时间戳:支持多版本数据同时存在
注:HBase可以存小文件,结构,非结构数据,HDFS适合储存大文件
查看全部 -
HBase简介
查看全部 -
Hadoop生态圈
Hive是一个数据仓库,提供大量结构化数据的检索功能;
HBase是一个列式数据库;
Spark是一个基于内存的分布式计算框架
查看全部 -
MapReduce编程模型
输入一个大文件,通过Split之后,将其分为多个分片;
每个文件分片有单独的机器去处理,这就是Map方法;
将各个机器计算的结果进行汇总并得到最终的结果,这就是Reduce方法
查看全部 -
YARN概念
是Hadoop2.0以后的资源管理器,负责整个集群资源的管理和调度,所有的MapReduce程序都要通过YARN来进行调度
(1)ResourceManager
分配和调度资源;启动并监控ApplicaMaster;监控NodeManager
(2)ApplicationMaster
为MapReduce类型的程序申请资源,并分配给内部任务;负责数据的切分;监控任务的执行及容错
(3)NodeManager
管理单个节点的资源;处理来自ResourceManager的命令;处理来自ApplicationMaster的命令
查看全部 -
MapReduce简介
MapReduce是一种编程模型,是一种编程方法,是抽象的理论
查看全部
举报