首页手记 spark性能调优 ——...

spark性能调优 —— 为什么慢的总是“你”

标签：

云计算大数据

Spark作业性能调优 —— 为什么慢的总是“你”

背景

业务高峰期，准实时（mini batch）数据处理作业的运行时间现有一些延迟，为了保证作业的SLA，必须及时对作业运行状况进行排查。

异常原因排查

作业层面

平台采用的是spark on yarn的部署方案，故直接通过spark作业的application master url进入spark application ui；
通过spark ui 查找运行变慢的stage；
进入对应的stage之后，通过Summary Metrics可以看出task运行时间差异很大，从task的Input Size来看，输入数据本身并不存在倾斜；

接下来，我们要重点分析“拖后腿”的task, 分析它们究竟遭遇了什么；
通过对Stage 229中的task按Duration排序，找到运行慢的tasks；通过排序结果我们可以很容易看出，慢的task运行的executor全部集中在224这台服务器上；

至此，我们初步结论是问题出现在224这台服务器上。

服务器层面

确认过是服务器的问题后，接下来就借助open-falcon查看机器的健康状况；
首先排查基本指标：

load

load.1min
load.5min
load 15min

cpu.idle
cpu.iowait
disk.io.util
network

net.if.out.errors
net.if.in.errors

到这里基本上已经定位出了，是由于机器的eth1网卡异常导致这台机器上的task运行变慢；
由于机器的配置是4块网卡做bond, 所以分配到该台服务器上的作业并不会报错，只是事先速度变慢。

解决方法

临时下线掉这台异常服务器上的NodeManager

${HADOOP_HOME}/bin/yarn-daemon.sh stop nodemanager1

下线后，作业运行时间恢复正常。

结论

在Hadoop等分布环境中底层服务器的健康状况对Spark、MR等分布式作业的运行效率有着举足轻重的影响，因此完善的底层服务器的监控，对于保障数据平台的SLA有着深远的意义。

致谢

感谢平台运维同事协助定位问题。

原文出处

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕仔4209126

手记
篇

粉丝

69

获赞与收藏

305

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 31204 346

网络编程入门教程

20个小节 12758 240

Pandas 入门教程

25个小节 18652 347

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空