-
查看全部
-
HDFS写流程
客户端向NameNode发起写数据请求;
NameNode将可以存储数据的数据块信息发送给客户端;(DataNode节点数量应该跟设置的备份数量一致)
对数据进行分块,然后写入DataNode节点,DataNode自动完成副本备份;
DataNode向NameNode汇报存储完成,NameNode通知客户端;
查看全部 -
查看全部
-
Hadoop是一个开源的大数据框架;
Hadoop是分布式计算的解决方案;
Hadoop = HDFS(分布式文件系统) (存储)+ MapReduce(分布式计算)
HDFS总结:
普通的成百上千台机器;TB甚至PB为单位的大量的数据;简单便捷的文件获取;
HDFS概念:
1.数据块
数据块是抽象块,而非整个文件作为存储单元;默认大小为64M,一般设置128M,备份3个;
2.NameNode
管理文件系统的命名空间,存放文件元数据;维护着文件系统的所有文件和目录,文件与数据块的映射;记录每个文件中各个块所在数据节点的信息;
3.DataNode
存储并检索数据块;向NameNode更新所存储块的列表;
HDFS优点:
适合大文件存储,支持TB、PB级别的数据存储,并有副本策略;可以构建在廉价的机器上,并有一定的容错和恢复机制;支持流式数据访问,一次写入,多次读取最高效;
HDFS缺点:
不支持大量小文件的存储;不适合并发写入,不支持文件随机修改;不支持随机读等低延时的访问方式;
查看全部 -
查看全部
-
大数据是一个概念也是一门技术,是在Hadoop为代表的大数据平台框架上进行各种数据分析的技术;
大数据包括了以Hadoop和Spark为基础的大数据框架;
查看全部 -
MapReduce编程模型
查看全部 -
NodeManager
查看全部 -
ApplicationMaster
查看全部 -
Yarn 的 ResourceManager作用
查看全部 -
HDFS常用命令
查看全部 -
HDFS读流程
查看全部 -
HDFS写流程
查看全部 -
HDFS优点
查看全部 -
hdfs缺点
查看全部
举报