-
HDFS缺点
查看全部 -
HDFS优点
查看全部 -
DataNode
查看全部 -
HDFS构架:
1)数据块
2)NameNode
3)DataNode
查看全部 -
HDFS基本架构:
1)数据块
2)NameNode
3)DataNode
查看全部 -
HDFS总结
数据块
NameNode:管理文件系统的命名空间,存放文件元数据;维护这文件系统的所有文件和目录,文件和数据块的映射;记录每个文件中各个块所在数据节点的信息
查看全部 -
Hadoop 两大核心
查看全部 -
HDFS概念
查看全部 -
Hadoop有两个核心,一个是HDFS——分布式存储,一个是MapReduce 分布式计算。
查看全部 -
HDFS写流程
客户端向NameNode发起写数据请求
分块写入DataNode节点,DataNode自动完成副本备份
DataNode向NameNode汇报储存完成NameNode通知客户端
HDFS读流程
1. 客户端向NameNode发起读数据请求;
2. NameNode找出距离最近的DataNode节点信息;
3. 客户端从DataNode分块下载文件;
查看全部 -
MapReduce简介
MapReduce是一种编程模型,是一种编程方法,是抽象的理论;
YARN(Haoop2之后的资源管理器)概念
1.ResourceManager:分配和调度资源;启动并监控ApplicationMaster; 监控NodeManager
2.ApplicatonMaster:为MR类型的程序申请资源,并分配给内部任务;负责数据的切分;监控任务的执行及容错;
3.NodeManager:管理单个节点的资源;处理来自ResourceManager的命令;处理来自ApplicationMaster的命令
MapReduce编程模型
输入一个大文件,通过Split之后,将其分为多个分片;
每个文件分片由单独的机器去处理,这就是Map方法 ;
将各个机器计算的结果进行汇总并得到最终的结果,这就是Reduce方法;
查看全部 -
HDFS特性
查看全部 -
通过Shell命令对HDFS进行操作:与Linux操作文件类似
HDFS实战
常用HDFS Shell命令:
类Linux系统:ls , cat , mkdir , rm , chmod , chown等
HDFS文件交互:copyFromLocal, copyToLocal , get , put
mk.txt 上传到 hdfs系统
1.在 /home 目录下 新建mk.txt :
touch(或vi) mk.txt
2.看一下hdfs根目录下有什么:
hdfs dfs -ls /
3.创建test目录 :
hdfs dfs -mkdir /test
看一下
hdfs dfs -ls /
4.mk.txt 上传到 test 下 (copyFromLocal)
hdfs dfs -copyFromLocal /hmoe/mk.txt /test/
看一下
hdfs dfs -ls /test
5.查看mk.txt的内容
hdfs dfs -cat /test/mk.txt
6.mk.txt 上传到本地目录下改名为 mk2.txt(copyToLocal)
hdfs dfs -copyToLocal /test/mk.txt /home/mk2.txt
看一下本地
ls
7.更改test的权限: 读4 写2 执行1
hdfs dfs -chmod 777 /test/mk.txt
hdfs dfs -ls /test
8.帮助文档
hdfs dfs -help
查看全部 -
HDFS写流程
客户端向NameNode发起写数据请求
分块写入DataNode节点,DataNode自动完成副本备份
DataNode向NameNode汇报储存完成NameNode通知客户端
HDFS读流程
1. 客户端向NameNode发起读数据请求;
2. NameNode找出距离最近的DataNode节点信息;
3. 客户端从DataNode分块下载文件;
查看全部 -
Hadoop(分布式计算)
Hadoop是一个开源的大数据框架;
Hadoop是分布式计算的解决方案;
Hadoop = HDFS(分布式文件系统) (存储)+ MapReduce(分布式计算)
Hadoop核心:
HDFS分布式文件系统:储存是大数据技术的基础
MapReduce 编程模型:分布式计算是大数据应用的解决方案
HDFS总结:
普通的成百上千台机器;
TB甚至PB为单位的大量的数据;
简单便捷的文件获取;
Hadoop基础架构
HDFS概念:
1.数据块
数据块是抽象块,而非整个文件作为存储单元;
默认大小为64M,一般设置128M,备份3个;
2.NameNode(HDFS一个NameNode多个DataNode组成)
管理文件系统的命名空间,存放文件元数据;
维护着文件系统的所有文件和目录,文件与数据块的映射;
记录每个文件中各个块所在数据节点的信息;
3.DataNode
存储并检索数据块;向NameNode更新所存储块的列表;
HDFS优点:
适合大文件存储,支持TB、PB级别的数据存储,并有副本策略;
可以构建在廉价的机器上,并有一定的容错和恢复机制;
支持流式数据访问,一次写入,多次读取最高效;
HDFS缺点:
不支持大量小文件的存储;
不适合并发写入,不支持文件随机修改;
不支持随机读等低延时的访问方式;
查看全部
举报