为了账号安全,请及时绑定邮箱和手机立即绑定

是否可以将mapper输出写入单独的输出文件(而不是中间文件)而无需将reducer的数量设置为零?

是否可以将mapper输出写入单独的输出文件(而不是中间文件)而无需将reducer的数量设置为零?

月关宝盒 2021-03-19 09:15:09
我需要匿名化包含数千个文件的GB数据。这样做通常需要永远。因此,我计划在我们的服务器上使用一个已经安装的伪分布式Hadoop集群。对于每个文件中的每个记录,都需要在几列上进行匿名化,这些匿名化的列将存储在哈希图中。理想情况下,我希望使用一个映射器实例来处理每个文件并生成一个相应的匿名输出文件。此外,映射器应吐出匿名列作为键值对,reducer将这些键值对聚合到单个文件中。在hadoop框架中可以实现上述过程吗?如果没有,是否有更好的方法来做到这一点?任何帮助或建议,表示赞赏。谢谢。
查看完整描述

1 回答

?
喵喵时光机

TA贡献1846条经验 获得超7个赞

签出MultipleOutputs。它允许您为Mapper或Reducer的输出定义多个文件名。

至于匿名化,只需确保您想要的文件名已被匿名化,并且映射器输出了匿名化的密钥。 context.write(anonymized(key), value);


查看完整回答
反对 回复 2021-03-31
  • 1 回答
  • 0 关注
  • 232 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信