首页手记一起学Hadoop——文件的上...

一起学Hadoop——文件的上传、分发与打包

标签：

大数据

如果我们想把文件上传到Hadoop集群中，使用put命令即可。下面的语句是将本地文件上传到hadoop集群的/目录下。

hadoop fs -put fruit.txt /

下面介绍通过脚本将文件分发到Hadoop集群的方法。因为Hadoop本身就带有文件自动分发的功能，我们只需在启动hadoop作业的脚本文件中做相应的配置即可。可选的配置项有三个，每个适用的场景都不一样：

-file：将本地文件分发到计算节点。

-cacheFile：将HDFS中已经存在的文件发送到需要使用该文件的节点。

-cacheArchive：将HDFS中已经存在的压缩文件分发到相应的计算节点并解压。

简单介绍三个选项的用法。

-file用法：在脚本文件中添加代码：-file ./map_sort.py \。将当前目录的map_sort.py文件上传到计算节点，\是换行符。

-cacheFile用法：在脚本文件中添加代码：-cacheFile "hdfs://hadoop-master:8020/fruit.txt#fruit"。“#”是给要分发的文件起别名，在Mapreduce程序中直接使用该别名就可访问该文件。

-cacheArchive用法：在脚本文件中添加代码：-cacheArchive “hdfs://hadoop-master:8020/fruit.tar.gz#fruit.gz”。将hdfs中的fruit.tar.gz压缩文件分发到计算节点。同-cacheFile的用法一样，#也是给要分发的压缩文件起别名，然后在mapreduce中通过别名就可以访问到该压缩文件。-cacheArchive会将fruit.tar.gz压缩文件解压成一个fruit.tar.gz的目录。

-file适合在文件比较小(10M以内)的场景下使用。

-cacheFile和-cacheArchive适合在文件比较大(文件大小在G以上)的场景下使用。

原文出处：https://www.cnblogs.com/airnew/p/9643970.html

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

0 评论

评论

共同学习，写下你的评论

暂无评论

展开查看更多评论

作者其他优质文章

正在加载中

蝴蝶不菲

手记
424篇

粉丝

81

获赞与收藏

384

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 31628 354

网络编程入门教程

20个小节 12983 244

Pandas 入门教程

25个小节 19107 359

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

一起学Hadoop——文件的上传、分发与打包

阅读免费教程