sp

LiCheng- 2018-01-06 原文

引言

对于Spark开发人员来说，了解stage的划分算法可以让你知道自己编写的spark application被划分为几个job，每个job被划分为几个stage，每个stage包括了你的哪些代码，只有知道了这些之后，碰到某个stage执行特别慢或者报错，你才能快速定位到对应的代码，对其进行性能优化和排错。

stage划分原理与源码

接着上期内核源码（五）的最后，每个action操作最终会调用SparkContext初始化时创建的DAGSchedule的runJob方法创建一个job：

Alt text

那么这一篇就我们来探究一下每个job中stage到底是如何划分的

dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, allowLocal, resultHandler, localProperties.get)

val waiter = submitJob(rdd, func, partitions, callSite, allowLocal, resultHandler, properties)

eventProcessLoop.post(JobSubmitted( jobId, rdd, func2, partitions.toArray, allowLocal, callSite, waiter, properties))

new DAGSchedulerEventProcessLoop(this)

dagScheduler.handleJobSubmitted(jobId, rdd, func, partitions, allowLocal, callSite, listener, properties)

跳转了这么多，我们终于找到了DAGScheduler的job调度核心入口handleJobSubmitted方法，该方法总共分为五步完成stage的划分和提交。

finalStage = newStage(finalRDD, partitions.size, None, jobId, callSite)使用触发job的最后一个rdd创建finalStage

val job = new ActiveJob(jobId, finalStage, func, partitions, callSite, listener, properties)用finalStage创建一个job

submitStage(finalStage) stage划分算法重点！递归寻找父Stage！

val missing = getMissingParentStages(stage).sortBy(_.id)获取当前stage的父stage

submitMissingTasks(stage, jobId.get)提交某一个stage

val locs = getPreferredLocs(stage.rdd, id)给每个partition创建一个ShuffleMapTask或ResultTask（最后一个stage），并计算其运行的最佳位置

stage划分算法总结

1. 从finalStage倒推

2. 通过宽依赖，来进行新stage的划分

3. 使用递归，优先提交父stage

`重要知识点`

对于每一种有shuffle的操作，例如：groupByKey、reduceByKey、countByKey等，底层都对应了三个RDD：

MapPartitionsRDD：对应父stage的最后一个RDD
ShuffleRDD：对应子stage的第一个RDD
MapPartitionsRDD：对应子stage的第二个RDD

本文链接：https://www.cnblogs.com/LiCheng-/p/8215522.html

sp的更多相关文章

Spring IOC容器启动流程源码解析(一)——容器概念详解及源码初探

目录 1. 前言 1.1 IOC容器到底是什么 1.2 BeanFactory和ApplicationCont […]...

Spark SQL中Not in Subquery为何低效以及如何规避

虽然通过改写Not in Subquery的SQL，进行低效率的SQL到高效率的SQL过渡，能够避免上面所说的 […]...

从代码生成说起，带你深入理解 mybatis generator 源码

枯燥的任务这一切都要从多年前说起。那时候刚入职一家新公司，项目经理给我分配了一个比较简单的工作，为所有的数 […]...

spark 源码分析之十五 — Spark内存管理剖析

本篇文章主要剖析Spark的内存管理体系。在上篇文章 spark 源码分析之十四 — broad […]...

JVM系列(五)：gc实现概要01

　　java的一大核心特性，即是自动内存回收。这让一些人从繁琐的内存管理中解脱出来，但对大部分人来说，貌似这太 […]...

Apache Spark 2.2.0 中文文档 – Spark Streaming 编程指南 | ApacheCN

概述 Spark Streaming 是 Spark Core API 的扩展, 它支持弹性的, 高吞吐的, […]...

看完这篇。再也不怕被问 HandlerThread 的原理

看完这篇。再也不怕被面试官问到 HandlerThread 的原理啦 HandlerThread是什么官网介 […]...

vue源码入口文件分析

开发vue项目有段时间了，之前用angularjs 后来用 reactjs 但是那时候一直没有时间把自己看源 […]...

随机推荐

直播平台千千万，一对一/一对多直播源码快速搭建的终极秘密

直播平台千千万，一对一/一对多直播源码快速搭建的终极秘密初创公司如果打算自建视频直播平台，其实技术研发成本比 […]...

Redis未授权访问漏洞的利用及防护

Redis未授权访问漏洞的利用及防护什么是Redis未授权访问漏洞？ Redis在默认情况下，会绑定在0.0 […]...

PC电脑端如何多开Skype，一步搞定！

由于工作原因，本人经常会用到Skype来联系客户，目前有两个账号需要同时登录。但是，Skype默认只能登录一 […]...

webpack4.x 从零开始配置vue 项目（三）

目标 babel 转换ES6 语法 postCss 增强css功能，如自动增加前缀 vue-loader 解析 […]...

记Asp.Net Core Swagger 使用并带域接口处理

记Asp.Net Core Swagger 使用并带域接口处理引用作者原话：Asp.Net的WebApi中 […]...

函数的递归

特点： 1.函数在调用阶段直接或间接的又调用自己 2.递归函数不需要考虑循环的次数，只需把握结束的条件 # 查 […]...

硬盘测试工具fio用法总结

一 fio介绍 linux下的一种常用的磁盘测试工具，支持裸盘和文件形式进行测试二硬盘测试常用名词 […]...

三、LoadRunner卸载

由于安装的时候没看提前了解清楚，LoadRunner社区版只能模拟50个用户，满足不了工作需求，删了重装吧。 […]...

sp

引言