解锁即可观看《大数据工程师》完整课程视频

大数据工程师

硬核技能带你攻克热点商业项目,从入门直达中级工程师水平,掌握DT时代淘金利器!

【第1周】学好大数据先攻克Linux
【第2周】大数据起源之初识Hadoop
【第3周】Hadoop之HDFS的使用
【第4周】Hadoop之HDFS核心进程剖析
【第5周】Hadoop之初识MR
【第6周】拿来就用的企业级解决方案
【第7周】Flume从0到高手一站式养成记
【第8周】数据仓库Hive从入门到小牛
【第9周】Hive扩展内容
【第10周】快速上手NoSQL数据库HBase
【第11周】数据分析引擎之Impala
【第12周】7天极速掌握Scala语言
【第13周】Spark快速上手
【第14周】Spark性能优化的道与术
【第15周】Spark3.x扩展内容
【第16周】综合项目:电商数据仓库之用户行为数仓
【第17周】综合项目:电商数据仓库之商品订单数仓
【第18周】消息队列之Kafka从入门到小牛
【第19周】极速上手内存数据库Redis
【第20周】Flink快速上手篇
【第21周】Flink高级进阶之路
【第22周】Flink1.15新特性及状态的使用
【第23周】Flink1.15之状态的容错与一致性
【第24周】FlinkSQL(1.15)快速上手
【第25周】FlinkSQL双流JOIN详解
【第26周】全文检索引擎Elasticsearch
【第27周】Es+HBase仿百度搜索引擎项目
【第28周】直播平台三度关系推荐V1.0
【第29周】直播平台三度关系推荐V2.0
【第30周】数据中台大屏
【第31周】实时OLAP引擎之ClickHouse
【第32周】实时数仓-Kafka Eagle+DS
【第33周】实时数仓-Flink CDC数据采集
【第34周】实时数仓-Paimon(数据湖)快速上手
【第35周】实时数仓-Paimon(数据湖)高级进阶
【第36周】实时数仓-湖仓一体项目
【第37周】一站式流式开发平台StreamPark
【第38周】大数据分布式SQL网关Kyuubi
章节
问答
课签
笔记
评论
占位
占位
今日不再显示

下一节课程: Shell命令操作HDFS (07:18) 下一节 重新观看

3 秒后播放下一节

为你推荐

叁金
JAVA开发工程师

八年大厂数据架构和研发经验,专注于大数据平台研发和企业级数据治理。基于Hadoop生态完成多个企业级大数据平台的建设落地,对集群管理、数仓建设、数据计算、数据治理等方向有较深刻的理解。

提问题

写笔记

代码语言
公开笔记
提交
加群二维码

打开微信扫码自动绑定

您还未绑定服务号

绑定后可得到

  • · 粉丝专属优惠福利
  • · 大咖直播交流干货
  • · 课程更新,问题答复提醒
  • · 账号支付安全提醒

收藏课程后,能更快找到我哦~

使用 Ctrl+D 可将课程添加到书签

邀请您关注公众号
关注后,及时获悉本课程动态

举报

0/150
提交
取消
全部 精华 我要发布

最赞回答 / 业余奶茶品鉴师
关闭管线。将已经发送到管道中,但是还没有确认的数据重新写回到缓冲区,保证数据不会丢失。所有的namenode重新分配一个版本号重新选举一个主datanode计算所有datanode中最小的数据块,重新分配重建管线,重新写入宕掉的datanode恢复后由于版本号不同会被剔除掉。写完文件,namenode发现副本数量不够,会在其他数据节点上再创建一个新的副本。

讲师回答 / 叁金
第一次请求会获取到该文件所有block所有的datanode信息。   获取文件完成之后,向namenode反馈block的状态

最赞回答 / 静波一世
对,分块结束后是一个块一个块的上传。一个文件只要上传成功一个块就可以了,副本集群会自动备份的。如果还有数据块4,里面还会存文件1和2嘛?这个是因为讲师说了数据块要备份成3份,所有在图例中的情况下,如果还有数据块4的话,不会保存文件1和2了。

最赞回答 / 丞旭猿
因为namenode需要及时更新存储信息,方便记录存储各个datanode存储大小信息

讲师回答 / 叁金
看你集群的大小和备份的数量设置了。 如果你集群有100台  备份数量是3  肯定不会备份到所有的 datanode节点啊。  注意 这里是datanode。  datanode存储数据。

讲师回答 / 叁金
先向namenode发起请求获取该文件所在的datanode的列表,然后通过该列表向各个datanode读取数据

已采纳回答 / 叁金
这里是两个例子,分别是写流程和读流程。读流程这里因为篇幅原因没有画更多的节点。这里想表达的意思是同一个文件不同的数据块可能分布在不同的节点之上。client根据客户端提供的数据块的地址找对应的datanode去读取!这里我当时描述的可能不太清楚。

讲师回答 / 叁金
服务器分布在不同的机架(双电源),为了防止某条线路断电导致服务器失效(也解决了部分网络机架网络出问题的情况)备份的过程(默认3份) 首先,如果client是集群内的节点则将第一份存储在client上否则随机存储到其他节点,第二份节点存储到其他机架节点,第三份存储到本机架节点。(注此处需开启hadoop的机架感知属性,默认是关闭的,如果未开启机架感知 则认为 随机放到了三个节点上,防止某些节点出问题造成数据丢失)通过zookeeper实现的namenode主备切换,防止因为namenode失效造成的数据无法...

讲师回答 / 叁金
 在向HDFS的写操作中,不得不提一下“数据流管道”。数据流管道在Google实现他们的分布式文件系统(GFS)时就已引入,其目的是:在写一份数据的多个副本时,可以充分利用集群中每一台机器的带宽,避免网络瓶颈和高延时的连接,最小化推送所有数据的延时。  其实这里我可能表述的不太准确,Client在保存数据的过程当中,将数据发送到第一个数据节点DateNode 1,然后在第一个DateNode节点在本地保存数据的同时,将数据推送到第二个数据节点DateNode 2,同理在第二个节点本地保存数据的同时,也会由...
全部 我要发布
最热 最新
只看我的

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

账号登录 验证码登录

遇到问题
忘记密码

代码语言