为了账号安全,请及时绑定邮箱和手机立即绑定

hadoop 2.2.0 关于map和reduce的个数的设置

hadoop 2.2.0 关于map和reduce的个数的设置

动漫人物 2019-04-16 20:25:45
关于hadoop中的map过程,我的理解是每一个map系统会开启一个JVM进程来处理,map之间相互并行,map函数内串行。这样的想法是否正确?由于想在hadoop集群上算一个初始输入数据不多,但是计算很复杂的程序,希望通过mapreduce来达到并行计算的目的。可以通过job.setNumReduceTasks(0);语句设置reduce个数为0,只使用map来计算。但是设置map的个数时遇到了问题:新的API中job没有类似setNumMapTasks()这样的方法;在运行时加入参数-Dmapreduce.map.tasks=2这样的参数也无效。查过好多资料,好像是说map的个数取决于block_size、total_size等参数。但是都说的是1.x版本的设置,hadoop2.2.0上并没有找到mapred.map.tasks、mapred.min.split.size等对应的设置方法。由于我的输入文件只有一个文件,而且不算是“大数据”,只是单纯想在hadoop上实现并行,所以我希望能够设置一个最少的map数目,以便能在各个计算节点上并行。请问我应该如何设置?
查看完整描述

2 回答

?
侃侃无极

TA贡献2051条经验 获得超10个赞

事隔10天后无人回答,再次自问自答(—.—!)。最近看到一本书,上面介绍自定义InputFormat来控制map个数以及存储位置。稍微看了下FileInputFormat的接口,发现居然有setMaxInputSplitSize()这个静态方法。(自己以前怎么没发现!!也怪自己懒,不愿意去找)在run方法中加了这么一句FileInputFormat.setMaxInputSplitSize(job,1048576),再次运行貌似有效,程序生成了6个map来运行。
但感到没法解释的有两点:
1.此处设置的值为1048576(1M),我的输入文件有20.95MB,如果最大份片大小为1M的话应该有20多个map。其中必然有更细致的判断,还得研究以下相应处理的代码才能解决;
2.6个map全在同一个节点上运行,没有分到不同节点上;
我的环境为hadoop2.2.0,我曾经试过修改dfs.blocksize等配置参数,但是似乎都没有生效。不知道为什么会出现配置参数无效的情况。
补充:刚才了解到最终的分片大小splitSize受到maxsize、minsize以及blocksize的影响。设置FileInputFormat.setMinInputSplitSize(job,1)后,map数果然达到了20。
                            
查看完整回答
反对 回复 2019-04-16
  • 2 回答
  • 0 关注
  • 305 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信