我有500G的数据,分别存储在机器A、B上,为了快速分析数据,我使用A,B,C,D四台机器做了一个hadoop集群。A是master。请问我是否需要将这500G的数据先上传到hadoop中?
1 回答
芜湖不芜
TA贡献1796条经验 获得超7个赞
是必须把这500G上传到你Hadoop的文件系统(HDFS)中
HDFS中,默认是会存储3份(为了数据高可用和就近访问)的,也就是会在你的BCD三个节点中共占用1500G空间,你可以手工设置冗余的份数。你通过hdfs的命令只看到一个500G的文件,实际上它们被拆成64m大小的块了(块大小也可以设),每块都有3份
最后,再次建议你找相关的文档阅读、实践,反复钻研了百思不得其解的问题再来求助。你要做项目的,这点学习成本是应该付出的。
你这一下就发了两个这么入门级的问题,虽然我都耐心回答了,但对你对我效率都太低了。
- 1 回答
- 0 关注
- 163 浏览
添加回答
举报
0/150
提交
取消