蓝色和绿色是两种不同的key值,为什么会进到同一个parition (2-3 Map-Shuffle-Reduce)
2:04老师说假定文件中只有3种不同的key值(分别是蓝色、绿色、黄色)
2:37又说所有相同key值的数据都会汇聚到一个partition
那么蓝色和绿色这两种不同的key值,为什么会进到一个parition中呢?
老师,这个地方您是不是没将清楚呢?
2:04老师说假定文件中只有3种不同的key值(分别是蓝色、绿色、黄色)
2:37又说所有相同key值的数据都会汇聚到一个partition
那么蓝色和绿色这两种不同的key值,为什么会进到一个parition中呢?
老师,这个地方您是不是没将清楚呢?
2018-10-07
因为老师的例子种reduce的partition只有两个,输入有3个key,所以其中必须有两个key落到同一个partition内。
所有相同的key汇聚到一个partition,没毛病。所有蓝色的key都在一个partition内,所有绿色的key都在一个partition内,所有黄色的也一样。只是可能有多个key公用一个partition而已。
为什么蓝色和绿色的两个key会进入到一个partition呢,这个要看具体的key的值和shuffer算法。比如:蓝色key=1,绿色key=3,黄色key=2,shuffer算法是根据partition数量(2)求模运算,那么绿色和蓝色就分到同一个partiton了阿。
不知道你明白没?
举报