首页手记 Spark不同Cluster...

Spark不同Cluster Manager下的数据本地性表现

标签：

Spark

一. 概述

Spark中的数据本地性分为两种

executor 层面的数据本地性
task 层面的数据本地性

在两种本地性中，task层面的数据本地性是由Spark本身决定的，而executor的分发则是Cluter Manager控制的，因此下文主要描述在不同Cluster Manager中的executor分发机制。

Spark Standalone
Standalone提供了两种executor的分发模式。
由参数spark.deploy.spreadOut控制，默认为true，将会把executor分配到尽可能多的worker上，因此通常都能提供非常良好的数据本地性。
如果设置为false(不建议)，会将executor优先分配到一台机器中，能提供更高的机器使用率。
Spark on Yarn
在Spark on Yarn方式下，如果启用了Dynamic Allocation并设置spark.dynamicAllocation.initialExecutors为一个较低的值（例如0）。则在pending task申请executor时，就会判断任务的数据本地性，并且在有数据的节点上启动executor。
Spark on Mesos
mesos会先offer给spark一个空闲的slave，spark会在上面启动executor，直到slave占满，mesos会再发一个新的offer过来。这种做法类似于standalone关闭spreadOut的效果，因此会导致某些节点load非常高，而一些节点异常空闲情况。
解决方式有2个：
1. 修改spark源码解决这个问题（接收到一个offer的时候只启动一个executor），在spark2.0的基础上只需要改动MesosCoarseGrainedSchedulerBackend中buildMesosTasks那段代码即可。
2. 配合docker,marathon解决。

修改mesos调度前:

修改mesos调度前

修改mesos调度后:

修改mesos调度后

观察到本地性有较大的提升，运行时间缩短了25%左右。

同时离线任务运行时间波动减少，趋于稳定

这里写图片描述

二. 结语

通过上述来看，目前Spark on Yarn + Dynamic Allocation的方式在executor的数据本地性上有着一定的优势。

分布式计算的瓶颈往往出现在IO上，因此良好的数据本地性能提高程序的整体运行速度。在机器较多的集群中，为了拥有更好的数据本地性，最简单的一种方式就是通过启动更多的executor来实现。

例如需要一个<4 cores, 20G RAM>的Spark Application。如果只启动一个executor，那么只会运行在一台节点上，其他机器的数据则需要通过网络IO来获取。如果启动4个executor,每个executor使用<1 cores,5G RAM>，那么executor将能分布到更多的节点上，获取更好的数据本地性。

作者：breeze_lsw
链接：https://www.jianshu.com/p/edc5b31752e9

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕哥9229398

手记
篇

粉丝

199

获赞与收藏

913

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 30835 345

网络编程入门教程

20个小节 12725 240

Pandas 入门教程

25个小节 18607 342

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

Spark不同Cluster Manager下的数据本地性表现

一. 概述

二. 结语

阅读免费教程