首页手记 3个案例：用Spark解决Map Reduce问题！

3个案例：用Spark解决Map Reduce问题！

标签：

Spark

Spark是一个Apache项目，它被标榜为“快如闪电的集群计算”。它拥有一个繁荣的开源社区，并且是目前最活跃的Apache项目。

Spark提供了一个更快、更通用的数据处理平台。和Hadoop相比，Spark可以让你的程序在内存中运行时速度提升100倍，或者在磁盘上运行时速度提升10倍。同时spark也让传统的mapreducejob开发变得更加简单快捷。之前我们大圣众包小编也为大家整理过Spark书单和方法，而本文将简单介绍几个经典hadoop的mr按理用spark实现，来让大家熟悉spark的开发。

最大值最小值

求最大值最小值一直是Hadoop的经典案例，我们用Spark来实现一下，借此感受一下spark中mr的思想和实现方式。话不多说直接上code

预期结果：

max:1001min:2

思路和hadoop中的mr类似，设定一个key，value为需要求最大与最小值的集合，然后再groupBykey聚合在一起处理。第二个方法就更简单，性能也更好。

平均值问题

求每个key对应的平均值是常见的案例，在spark中处理类似问题常常会用到combineByKey这个函数，详细介绍请google一下用法，下面看代码：

我们让每个partiton先求出单个partition内各个key对应的所有整数的和sum以及个数count，然后返回一个pair(sum,count)在shuffle后累加各个key对应的所有sum和count,再相除得到均值.

TopN问题

Topn问题同样也是hadoop种体现mr思想的经典案例,那么在spark中如何方便快捷的解决呢：

思路很简单，把数据groupBykey以后按key形成分组然后取每个分组最大的2个。预期结果：

以上简单介绍了一下hadoop中常见的3个案例在spark中的实现。如果读者们已经接触过或者写过一些hadoop的mapreducejob，那么会不会觉得在spark中写起来方便快捷很多呢。

原文地址：http://www.dashengzb.cn/articles/a-327.html

作者：大圣众包
链接：https://www.jianshu.com/p/5887ea2832e1

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕神8447489

手记
篇

粉丝

174

获赞与收藏

961

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 32882 371

网络编程入门教程

20个小节 13640 256

Pandas 入门教程

25个小节 20282 387

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

3个案例：用Spark解决Map Reduce问题！

阅读免费教程