在mapreduce中,每个reduce任务将其输出写入名为part-r-nnnnn的文件,其中nnnnn是与reduce任务关联的分区ID。map / reduce是否合并这些文件?如果有,怎么样?
3 回答
www说
TA贡献1775条经验 获得超8个赞
不,这些文件不会被Hadoop合并。您获得的文件数与reduce任务数相同。
如果您需要它作为下一个作业的输入,那么不要担心有单独的文件。只需将整个目录指定为下一个作业的输入。
如果确实需要群集外的数据,那么我通常会在从群集中提取数据时将它们合并到接收端。
就是这样的:
hadoop fs -cat /some/where/on/hdfs/job-output/part-r-* > TheCombinedResultOfTheJob.txt
添加回答
举报
0/150
提交
取消