-
Hadoop生态圈
查看全部 -
Spark优势
基于内存计算的分布式计算框架
抽象出分布式内存存储数据结构 弹性分布式数据集RDD
基于事件驱动,通过线程池复用线程提高性能
查看全部 -
Spark简介
Spark是Apache软件基金会最重要的三大分布式计算系统开源项目之一(其他的是Hadoop和Maven)
基于内存计算的大数据并行计算框架
Spark是MapReduce的替代方案,兼容HDFS,HIVE等数据源
查看全部 -
HBase的表
可以实现存储海量小文件的功能
查看全部 -
HBase关键字
RowKey:数据唯一标识,按字典排序
Column Family:列族,多个列的集合,最多不要超过3个
TimeStamp时间戳:支持多版本数据同时存在
查看全部 -
HBase简介
高可靠,高性能,面向列,可伸缩,实时读写的分布式数据库
利用HDFS作为其文件储存系统,支持MapReduce程序读取数据
存储非机构化和半结构化数据以及结构化数据
查看全部 -
Hadoop生态圈
查看全部 -
Deep thinking
查看全部 -
Conclusion
查看全部 -
Reduce
查看全部 -
Map
查看全部 -
YARN(Haoop2之后的资源管理器)概念
1.ResourceManager:分配和调度资源;启动并监控ApplicationMaster; 监控NodeManager
2.ApplicatonMaster:为MR类型的程序申请资源,并分配给内部任务;负责数据的切分;监控任务的执行及容错;
3.NodeManager:管理单个节点的资源;处理来自ResourceManager的命令;处理来自ApplicationMaster的命令
MapReduce是一种编程模型,是一种编程方法,是抽象的理论;
MapReduce编程模型
输入一个大文件,通过Split之后,将其分为多个分片;每个文件分片由单独的机器去处理,这就是Map方法 ;将各个机器计算的结果进行汇总并得到最终的结果,这就是Reduce方法。
查看全部 -
两个问题:
1,数据块一般设置多大比较合适?
128M,因为如果设置太大不利于文件的读取,设置太小会将一些比较小的文件也会被进行分割,比较耗费内存
2,nameNode挂掉了怎么办? 在Hadoop2中会有容错机制,会有两个nameNode,另一个会处于备用的状态,当nameNode挂掉了之后,secondNameNode会被启动的,这样是用户无感知的
查看全部 -
hdfs的一些常用命令:
一些与Linux命令相同:ls cat vi 等
还有一些是hdfs专用的命令: copyToLocal hdfs文件系统向本地拷贝
copyFromLocal 从本地向hdfs文件系统拷贝
get 下载文件 put 上传文件
./hdfs dfs -help 可以查看hdfs命令的说明
查看全部 -
HDFS读流程
客户端向NameNode发起读数据请求;
NameNode找出距离最近的DataNode节点信息;
客户端从DataNode分块下载文件;
查看全部
举报