已采纳回答 / _这个昵称已被占用了_
因为老师的例子种reduce的partition只有两个,输入有3个key,所以其中必须有两个key落到同一个partition内。所有相同的key汇聚到一个partition,没毛病。所有蓝色的key都在一个partition内,所有绿色的key都在一个partition内,所有黄色的也一样。只是可能有多个key公用一个partition而已。为什么蓝色和绿色的两个key会进入到一个partition呢,这个要看具体的key的值和shuffer算法。比如:蓝色key=1,绿色key=3,黄色key=2,...
2018-10-07
已采纳回答 / 爱新觉罗_启星
没有,两个的侧重点不一样,mapReduce适合对实时性要求不高的计算(计算时中间结果溢写到磁盘),io消耗大,spark是基于内存的计算框架,计算速度是很快的。一个是 时间换空间 另一个是 空间换时间。
2018-05-10