为了账号安全,请及时绑定邮箱和手机立即绑定
  • 常用HDFS Shell命令

    (1)查看hdfs的帮助信息

    hdfs dfs -help

    (2)查看hdfs文件系统根目录下的所有目录与文件

    hdfs dfs -ls /

    (3)将文件从本地复制到hdfs文件系统中

    hdfs dfs -copyFromLocal ./README.txt /test/

    (4)查看hdfs文件系统中文件的内容

    hdfs dfs -cat /text/README.txt

    (5)将文件从hdfs文件系统中复制到本地

    hdfs dfs -copyToLocal /test/README.txt ./README2.txt

    (6)改变hdfs文件系统中文件的权限

    hdfs dfs -chmod 777 /test/README.txt


    查看全部
  • 常用HDFS Shell命令

    copyFromLocal:将文件从本地拷贝进HDFS文件系统;

    copyToLocal:将文件从HDFS文件系统拷贝进本地;

    get:下载文件;

    put:上传文件

    查看全部
  • HDFS读流程

    通过客户端Client读取数据Data的流程,DataNode3存放数据块1与2的备份:

    (1)Client向NameNode发起读取请求;

    (2)NameNode查找自身存储的关于Data的存储信息,并反馈给Client存储Data各个节点的位置;

    (3)Client根据反馈信息,从DataNode1读取数据块1,从DataNode2读取数据块2;

    (4)假设从DataNode2读取数据块2时发生异常,则会从DataNode3取数据块2

    查看全部
  •  HDFS写流程

    通过客户端Client写入数据Data的流程:

    (1)Client向NameNode发起写入请求;

    (2)NameNode查找自身存储的关于三个DataNode的信息,并反馈给Client;

    (3)Client根据反馈信息,将Data分为两个数据块1和2;

    (4)Client根据反馈信息将数据块1传给DataNode1,进行保存;

    (5)备份x3,DataNode1将数据块1传给DataNode2,DataNode2再传给DataNode3;

    (6)DataNode1、2、3存储完数据块1以后,将保存的节点信息反馈给NameNode进行保存,NameNode同时更新存储节点信息的列表;

    (7)NameNode告知Client数据块1存储完成,开始存储数据块2,过程同数据块1一致

    查看全部
  • HDFS的优点

    (1)适合大文件存储,支持TB、PB级的数据存储,并有副本策略;

    (2)可以构建在廉价的机器上,并有一定的容错和恢复机制;

    注:Hadoop2的容错机制,Hadoop可以配置成HA(高可用集群),包含两个NameNode节点,其中一个处于“active”状态(主节点),另一个处于“standby”状态(备用节点),两者数据保持实时一致,当主节点出现问题时,就会自动切换到备用节点

    (3)支持流式数据访问,一次写入,多次读取最高效

    HDFS的缺点

    (1)不适合大量小文件存储;

    (2)不适合并发写入,不支持文件随机修改;

    (3)不支持随机读等低延时的访问方式

    查看全部
  • HDFS的基本概念

    (1)数据块

            数据块是抽象块而非整个文件作为存储单元,默认大小为64MB,一般设置为128MB,备份x3 。比如说,设置数据块大小为100MB,数据为300MB,则会分3个数据块来存储

    注:关于数据块大小的选择。若数据块选择的过小,较大的文件也有可能会被分割,由于NameNode要记录所有文件所在数据节点的信息,将会加大NameNode的内存压力;若数据块选择的过大,系统重启时需要重新加载数据,数据块越大恢复的时间越长

    HDFS是由一个NameNode(主)和多个DataNode(从)组成的

    (2)NameNode

            管理文件系统的命名空间,存放文件元数据;维护者文件系统所有文件和目录,文件与数据块的映射;记录每个文件中各个块所在数据节点的信息。上述信息在DataNode启动时会自动发送给NameNode

    (3)DataNode

            负责存储并检索数据块;向NameNode更新所存储块的列表

    查看全部
  • HDFS的特点

    (1)普通的成百上千的机器;

    (2)按TB甚至PB为单位的大量的数据;

    (3)简单便捷的文件获取

    查看全部
  • Hadoop核心

    (1)HDFS(分布式文件系统):存储是大数据技术的基础;

    (2)MapReduce(编程模型):分布式计算是大数据应用的解决方案

    查看全部
  • Hadoop

    Hadoop是一个开源的大数据框架;

    Hadoop是一个分布式计算的解决方案;

    Hadoop=HDFS(分布式文件系统)+ MapReduce(分布式计算) 

    查看全部
  • 大数据的定义

    1. 大数据是一门以Hadoop为代表的开源大数据平台框架上进行各种数据分析的技术。

    2. 具体说,大数据平台基础框架包括了Hadoop和Spark为代表的基础大数据框架。

    3. 具体说,各种数据分析技术包括实事数据处理技术、离线处理技术;数据分析、数据挖掘和用机器算法进行预测分析等技术。


    查看全部
  • HDFS缺点

    查看全部
  • HDFS优点

    查看全部
  • 按数据块存储,默认大小64M,一般设置为128M。备份X3

    查看全部
  • hadoop生态圈

    查看全部
  • http://hdfs3.readthedocs.io/en/latest/api.html

    查看全部

举报

0/150
提交
取消
课程须知
有Linux命令使用基础,有Python编程基础
老师告诉你能学到什么?
大数据到底是个啥,大数据方向到底怎么样 Hadoop基础原理与两个核心 Hadoop的基础应用 Hadoop生态圈简介 Hadoop生态圈常用开源项目介绍

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!