-
常用HDFS Shell命令
(1)查看hdfs的帮助信息
hdfs dfs -help
(2)查看hdfs文件系统根目录下的所有目录与文件
hdfs dfs -ls /
(3)将文件从本地复制到hdfs文件系统中
hdfs dfs -copyFromLocal ./README.txt /test/
(4)查看hdfs文件系统中文件的内容
hdfs dfs -cat /text/README.txt
(5)将文件从hdfs文件系统中复制到本地
hdfs dfs -copyToLocal /test/README.txt ./README2.txt
(6)改变hdfs文件系统中文件的权限
hdfs dfs -chmod 777 /test/README.txt
查看全部 -
常用HDFS Shell命令
copyFromLocal:将文件从本地拷贝进HDFS文件系统;
copyToLocal:将文件从HDFS文件系统拷贝进本地;
get:下载文件;
put:上传文件
查看全部 -
HDFS读流程
通过客户端Client读取数据Data的流程,DataNode3存放数据块1与2的备份:
(1)Client向NameNode发起读取请求;
(2)NameNode查找自身存储的关于Data的存储信息,并反馈给Client存储Data各个节点的位置;
(3)Client根据反馈信息,从DataNode1读取数据块1,从DataNode2读取数据块2;
(4)假设从DataNode2读取数据块2时发生异常,则会从DataNode3取数据块2
查看全部 -
HDFS写流程
通过客户端Client写入数据Data的流程:
(1)Client向NameNode发起写入请求;
(2)NameNode查找自身存储的关于三个DataNode的信息,并反馈给Client;
(3)Client根据反馈信息,将Data分为两个数据块1和2;
(4)Client根据反馈信息将数据块1传给DataNode1,进行保存;
(5)备份x3,DataNode1将数据块1传给DataNode2,DataNode2再传给DataNode3;
(6)DataNode1、2、3存储完数据块1以后,将保存的节点信息反馈给NameNode进行保存,NameNode同时更新存储节点信息的列表;
(7)NameNode告知Client数据块1存储完成,开始存储数据块2,过程同数据块1一致
查看全部 -
HDFS的优点
(1)适合大文件存储,支持TB、PB级的数据存储,并有副本策略;
(2)可以构建在廉价的机器上,并有一定的容错和恢复机制;
注:Hadoop2的容错机制,Hadoop可以配置成HA(高可用集群),包含两个NameNode节点,其中一个处于“active”状态(主节点),另一个处于“standby”状态(备用节点),两者数据保持实时一致,当主节点出现问题时,就会自动切换到备用节点
(3)支持流式数据访问,一次写入,多次读取最高效
HDFS的缺点
(1)不适合大量小文件存储;
(2)不适合并发写入,不支持文件随机修改;
(3)不支持随机读等低延时的访问方式
查看全部 -
HDFS的基本概念
(1)数据块
数据块是抽象块而非整个文件作为存储单元,默认大小为64MB,一般设置为128MB,备份x3 。比如说,设置数据块大小为100MB,数据为300MB,则会分3个数据块来存储
注:关于数据块大小的选择。若数据块选择的过小,较大的文件也有可能会被分割,由于NameNode要记录所有文件所在数据节点的信息,将会加大NameNode的内存压力;若数据块选择的过大,系统重启时需要重新加载数据,数据块越大恢复的时间越长
HDFS是由一个NameNode(主)和多个DataNode(从)组成的
(2)NameNode
管理文件系统的命名空间,存放文件元数据;维护者文件系统所有文件和目录,文件与数据块的映射;记录每个文件中各个块所在数据节点的信息。上述信息在DataNode启动时会自动发送给NameNode
(3)DataNode
负责存储并检索数据块;向NameNode更新所存储块的列表
查看全部 -
HDFS的特点
(1)普通的成百上千的机器;
(2)按TB甚至PB为单位的大量的数据;
(3)简单便捷的文件获取
查看全部 -
Hadoop核心
(1)HDFS(分布式文件系统):存储是大数据技术的基础;
(2)MapReduce(编程模型):分布式计算是大数据应用的解决方案
查看全部 -
Hadoop
Hadoop是一个开源的大数据框架;
Hadoop是一个分布式计算的解决方案;
Hadoop=HDFS(分布式文件系统)+ MapReduce(分布式计算)
查看全部 -
大数据的定义
1. 大数据是一门以Hadoop为代表的开源大数据平台框架上进行各种数据分析的技术。
2. 具体说,大数据平台基础框架包括了Hadoop和Spark为代表的基础大数据框架。
3. 具体说,各种数据分析技术包括实事数据处理技术、离线处理技术;数据分析、数据挖掘和用机器算法进行预测分析等技术。
查看全部 -
HDFS缺点
查看全部 -
HDFS优点
查看全部 -
按数据块存储,默认大小64M,一般设置为128M。备份X3
查看全部 -
hadoop生态圈
查看全部 -
http://hdfs3.readthedocs.io/en/latest/api.html
查看全部
举报