为了账号安全,请及时绑定邮箱和手机立即绑定

Spark内核分析之SparkContext初始化源码分析

标签:
Spark

   上一篇介绍了spark作业提交的三种方式,从本篇开始逐一介绍Spark作业运行流程中各个组件的内部工作原理。如标题所说,我们先来看看SparkContext在Spark作业提交后做了哪些事情,工作流程如下图所示;(注意:本篇文章及后续源码分析所有内容全部基于spark1.3.0源码进行分析,后续不再赘述

webp

SparkContext初始化流程图

1.Spark作业提交以后,通过SparkContext的createTaskScheduler()方法来初始化scheduler(TaskSchedulerImpl)和backend(SparkDeploySchedulerBackend)对象;

2.通过scheduler的initialize()方法初始化其对应的线程池;

3.调用scheduler的start()方法,在scheduler的start()方法内部调用backend的start()方法;

4.在backend的start()方法内部,创建AppClient对象,并通过该对象的start()方法调用RegisterWithMaster方法,通过该方法向Master请求注册;

5.Master调用worker,worker启动executor后向backend注册信息;

下面附上源码部分截图;

webp

SparkContext初始入口

webp

初始化TaskScheduler等相关信息

webp

初始化taskScheduler线程池及调度方式

webp

taskScheduler的start方法

webp

backend的start方法

webp

初始化AppClient,调用registerWithMaster()方法

webp

registerWithMaster方法实现

        以上即为SparkContext的初始化过程,在这个过程中同时也初始化了两外两个重要的组建,分别为DAGScheduler和Spark UI;启动DAGScheduler底层是基于DAGSchedulerEventProcessActor进行通信的,SparkUI是通过底层的jetty服务器来提供web服务的;针对这两个组件后续会有详细讲解。

总结:以上即为SparkContext的初始化过程,源码涉及的类有:SparkContext,TaskSchedulerImpl,SparkDeploySchedulerBackend,AppClient等,有兴趣的可以查看所有详细实现。欢迎关注。

如需转载,请注明:

上一篇:Spark内核分析之spark作业的三种提交方式

本篇:Spark内核分析之SparkContext初始化源码分析



作者:z小赵
链接:https://www.jianshu.com/p/501b7b6284ee


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消