HDFS写流程和读流程_Hadoop基础及演练-慕课网

解锁即可观看《大数据工程师》完整课程视频

立即解锁

大数据工程师

硬核技能带你攻克热点商业项目，从入门直达中级工程师水平，掌握DT时代淘金利器！

【第1周】学好大数据先攻克Linux

【第2周】大数据起源之初识Hadoop

【第3周】Hadoop之HDFS的使用

【第4周】Hadoop之HDFS核心进程剖析

【第5周】Hadoop之初识MR

【第6周】拿来就用的企业级解决方案

【第7周】Flume从0到高手一站式养成记

【第8周】数据仓库Hive从入门到小牛

【第9周】Hive扩展内容

【第10周】快速上手NoSQL数据库HBase

【第11周】数据分析引擎之Impala

【第12周】7天极速掌握Scala语言

【第13周】Spark快速上手

【第14周】Spark性能优化的道与术

【第15周】Spark3.x扩展内容

【第16周】综合项目：电商数据仓库之用户行为数仓

【第17周】综合项目：电商数据仓库之商品订单数仓

【第18周】消息队列之Kafka从入门到小牛

【第19周】极速上手内存数据库Redis

【第20周】Flink快速上手篇

【第21周】Flink高级进阶之路

【第22周】Flink1.15新特性及状态的使用

【第23周】Flink1.15之状态的容错与一致性

【第24周】FlinkSQL(1.15)快速上手

【第25周】FlinkSQL双流JOIN详解

【第26周】全文检索引擎Elasticsearch

【第27周】Es+HBase仿百度搜索引擎项目

【第28周】直播平台三度关系推荐V1.0

【第29周】直播平台三度关系推荐V2.0

【第30周】数据中台大屏

【第31周】实时OLAP引擎之ClickHouse

【第32周】实时数仓-Kafka Eagle+DS

【第33周】实时数仓-Flink CDC数据采集

【第34周】实时数仓-Paimon(数据湖)快速上手

【第35周】实时数仓-Paimon(数据湖)高级进阶

【第36周】实时数仓-湖仓一体项目

【第37周】一站式流式开发平台StreamPark

【第38周】大数据分布式SQL网关Kyuubi

叁金

JAVA开发工程师

八年大厂数据架构和研发经验，专注于大数据平台研发和企业级数据治理。基于Hadoop生态完成多个企业级大数据平台的建设落地，对集群管理、数仓建设、数据计算、数据治理等方向有较深刻的理解。

讲师课程

ChatGPT入门实战课 AI提效大数据开发平台建设

实战课初级 250

多层次构建企业级大数据平台，成就全能型大数据开发

实战课高级 148

玩转热门框架用企业级思维开发通用够硬的大数据平台

实战课中级 482

HBase+Spring Boot实战分布式文件存储（OpenTSDB实战升级）

实战课中级 493

提问题

提交

其他问答

查看更多本节问答

写笔记

公开笔记

提交

问答
评论
笔记

全部精华我要发布

如果写流程出错了，怎么处理

最赞回答 / 业余奶茶品鉴师

关闭管线。将已经发送到管道中，但是还没有确认的数据重新写回到缓冲区，保证数据不会丢失。所有的namenode重新分配一个版本号重新选举一个主datanode计算所有datanode中最小的数据块，重新分配重建管线，重新写入宕掉的datanode恢复后由于版本号不同会被剔除掉。写完文件，namenode发现副本数量不够，会在其他数据节点上再创建一个新的副本。

1 回答 757 浏览

2020-11-19

如果datanode挂掉了，读取过程client还要向namenode请求吗，同时client是要告诉namenode挂掉的block的状态？

讲师回答 / 叁金

第一次请求会获取到该文件所有block所有的datanode信息。获取文件完成之后，向namenode反馈block的状态

1 回答 1331 浏览

2018-12-21

2-2课程的问题

最赞回答 / 静波一世

对，分块结束后是一个块一个块的上传。一个文件只要上传成功一个块就可以了，副本集群会自动备份的。如果还有数据块4,里面还会存文件1和2嘛？这个是因为讲师说了数据块要备份成3份，所有在图例中的情况下，如果还有数据块4的话，不会保存文件1和2了。

1 回答 1219 浏览

2018-07-24

关于写数据

最赞回答 / 丞旭猿

因为namenode需要及时更新存储信息，方便记录存储各个datanode存储大小信息

2 回答 1046 浏览

2019-11-09

如果备份到所有的namenode节点，那开头所说看哪个namenode有空间不是自相矛盾了

讲师回答 / 叁金

看你集群的大小和备份的数量设置了。如果你集群有100台备份数量是3 肯定不会备份到所有的 datanode节点啊。注意这里是datanode。 datanode存储数据。

1 回答 1160 浏览

2019-11-09

关于读取数据

讲师回答 / 叁金

先向namenode发起请求获取该文件所在的datanode的列表，然后通过该列表向各个datanode读取数据

2 回答 1215 浏览

2018-07-19

关于视频中读流程所举的例子有些疑问

已采纳回答 / 叁金

这里是两个例子，分别是写流程和读流程。读流程这里因为篇幅原因没有画更多的节点。这里想表达的意思是同一个文件不同的数据块可能分布在不同的节点之上。client根据客户端提供的数据块的地址找对应的datanode去读取！这里我当时描述的可能不太清楚。

2 回答 1394 浏览

2018-03-05

服务器分布在不同的机架（双电源），为了防止某条线路断电导致服务器失效（也解决了部分网络机架网络出问题的情况）备份的过程（默认3份）首先，如果client是集群内的节点则将第一份存储在client上否则随机存储到其他节点，第二份节点存储到其他机架节点，第三份存储到本机架节点。（注此处需开启hadoop的机架感知属性，默认是关闭的，如果未开启机架感知则认为随机放到了三个节点上，防止某些节点出问题造成数据丢失）通过zookeeper实现的namenode主备切换，防止因为namenode失效造成的数据无法...

1 回答 1091 浏览

2018-04-25

为何写流程中是由DataNode1通知DataNode2，再由DataNode2通知DataNode3，而不是DataNode1同时通知DataNode2和DataNode3？

讲师回答 / 叁金

在向HDFS的写操作中，不得不提一下“数据流管道”。数据流管道在Google实现他们的分布式文件系统(GFS)时就已引入，其目的是：在写一份数据的多个副本时，可以充分利用集群中每一台机器的带宽，避免网络瓶颈和高延时的连接，最小化推送所有数据的延时。其实这里我可能表述的不太准确，Client在保存数据的过程当中，将数据发送到第一个数据节点DateNode 1，然后在第一个DateNode节点在本地保存数据的同时，将数据推送到第二个数据节点DateNode 2，同理在第二个节点本地保存数据的同时，也会由...

3 回答 1919 浏览

2018-10-10

全部我要发布

最热最新

只看我的

2-2 HDFS写流程和读流程

下一节课程： Shell命令操作HDFS (07:18) 下一节重新观看

为你推荐

讲师课程

相关课程

提问题

其他问答

写笔记

您还未绑定服务号

收藏课程后，能更快找到我哦～

如果写流程出错了，怎么处理

读流程的疑问

如果datanode挂掉了，读取过程client还要向namenode请求吗，同时client是要告诉namenode挂掉的block的状态？

2-2课程的问题

关于写数据

如果备份到所有的namenode节点，那开头所说看哪个namenode有空间不是自相矛盾了

关于读取数据

关于视频中读流程所举的例子有些疑问

单点问题疑问

为何写流程中是由DataNode1通知DataNode2，再由DataNode2通知DataNode3，而不是DataNode1同时通知DataNode2和DataNode3？

推荐课程

推荐路线系统化学习，打造阶梯学习模式

手记推荐

2-2 HDFS写流程和读流程

热搜

最近搜索清空

下一节课程： Shell命令操作HDFS (07:18) 下一节 重新观看

为你推荐

讲师课程

相关课程

提问题

其他问答

写笔记

您还未绑定服务号

收藏课程后，能更快找到我哦～

推荐课程

推荐路线系统化学习，打造阶梯学习模式

相关课程

手记推荐

账号登录 验证码登录

下一节课程： Shell命令操作HDFS (07:18) 下一节重新观看

账号登录验证码登录