为了账号安全,请及时绑定邮箱和手机立即绑定

在reduce阶段之后合并输出文件

在reduce阶段之后合并输出文件

慕侠2389804 2019-09-20 17:11:11
在mapreduce中,每个reduce任务将其输出写入名为part-r-nnnnn的文件,其中nnnnn是与reduce任务关联的分区ID。map / reduce是否合并这些文件?如果有,怎么样?
查看完整描述

3 回答

?
www说

TA贡献1775条经验 获得超8个赞

不,这些文件不会被Hadoop合并。您获得的文件数与reduce任务数相同。


如果您需要它作为下一个作业的输入,那么不要担心有单独的文件。只需将整个目录指定为下一个作业的输入。


如果确实需要群集外的数据,那么我通常会在从群集中提取数据时将它们合并到接收端。


就是这样的:


hadoop fs -cat /some/where/on/hdfs/job-output/part-r-* > TheCombinedResultOfTheJob.txt


查看完整回答
反对 回复 2019-09-20
  • 3 回答
  • 0 关注
  • 945 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信