-
Hadoop是一个开源的大数据框架;
Hadoop是分布式计算的解决方案;
Hadoop = HDFS(分布式文件系统) (存储)+ MapReduce(分布式计算)
HDFS总结:
普通的成百上千台机器;TB甚至PB为单位的大量的数据;简单便捷的文件获取;
HDFS概念:
1.数据块
数据块是抽象块,而非整个文件作为存储单元;默认大小为64M,一般设置128M,备份3个;
2.NameNode
管理文件系统的命名空间,存放文件元数据;维护着文件系统的所有文件和目录,文件与数据块的映射;记录每个文件中各个块所在数据节点的信息;
3.DataNode
存储并检索数据块;向NameNode更新所存储块的列表;
HDFS优点:
适合大文件存储,支持TB、PB级别的数据存储,并有副本策略;可以构建在廉价的机器上,并有一定的容错和恢复机制;支持流式数据访问,一次写入,多次读取最高效;
HDFS缺点:
不支持大量小文件的存储;不适合并发写入,不支持文件随机修改;不支持随机读等低延时的访问方式;
查看全部 -
什么是大数据?
大数据即使一个概念也是一门技术,是在以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。
大数据包括了以Hadoop和spark为代表的基础大数据框架。还包括实时数据处理,离线数据处理;数据分析,数据挖掘和用机器算法进行预测分析等技术
查看全部 -
什么是大数据?
大数据是一个概念也是一门技术,是在以Hadoop为代表的大数据平台框架上进行各种数据分析的技术
查看全部 -
1
查看全部 -
hdfs3
查看全部 -
Spark简介
Spark优势
查看全部 -
HBase简介
简单介绍
查看全部 -
Hadoop生态圈
查看全部 -
问题
查看全部 -
map方法
reduce方法
测试
在进行Reduce方法时进行了sort(排序)
提交到Hadoop框架上
查询
打印结果
查看全部 -
NameNode
查看全部 -
hdfs 块储存
查看全部 -
YARN(Haoop2之后的资源管理器)概念
1.ResourceManager:分配和调度资源;启动并监控ApplicationMaster; 监控NodeManager
2.ApplicatonMaster:为MR类型的程序申请资源,并分配给内部任务;负责数据的切分;监控任务的执行及容错;
3.NodeManager:管理单个节点的资源;处理来自ResourceManager的命令;处理来自ApplicationMaster的命令
MapReduce是一种编程模型,是一种编程方法,是抽象的理论;
MapReduce编程模型
输入一个大文件,通过Split之后,将其分为多个分片;每个文件分片由单独的机器去处理,这就是Map方法 ;将各个机器计算的结果进行汇总并得到最终的结果,这就是Reduce方法;
查看全部 -
查看全部
-
HDFS读流程
客户端向NameNode发起读数据请求;
NameNode找出距离最近的DataNode节点信息;
客户端从DataNode分块下载文件;
查看全部
举报