为了账号安全,请及时绑定邮箱和手机立即绑定

如果需要的话,那么我的系统中岂不是会存储两份?

如果需要的话,那么我的系统中岂不是会存储两份?

慕神8447489 2023-04-16 21:17:46
我有500G的数据,分别存储在机器A、B上,为了快速分析数据,我使用A,B,C,D四台机器做了一个hadoop集群。A是master。请问我是否需要将这500G的数据先上传到hadoop中?
查看完整描述

1 回答

?
芜湖不芜

TA贡献1796条经验 获得超7个赞

  1. 是必须把这500G上传到你Hadoop的文件系统(HDFS)中

  2. HDFS中,默认是会存储3份(为了数据高可用和就近访问)的,也就是会在你的BCD三个节点中共占用1500G空间,你可以手工设置冗余的份数。你通过hdfs的命令只看到一个500G的文件,实际上它们被拆成64m大小的块了(块大小也可以设),每块都有3份

最后,再次建议你找相关的文档阅读、实践,反复钻研了百思不得其解的问题再来求助。你要做项目的,这点学习成本是应该付出的。

你这一下就发了两个这么入门级的问题,虽然我都耐心回答了,但对你对我效率都太低了。


查看完整回答
反对 回复 2023-04-20
  • 1 回答
  • 0 关注
  • 158 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信