spark源码--#两个问题
1. spark中的transformation操作做了什么
将旧RDD转化为新RDD ,见RDD最重要的三个属性
那么RDD的操作是如何记录的呢,答案是dependencies,task中调用是RDD的iterator方法
最终是执行compute方法。对于RDD的iterator方法,以MapPartitionsRDD为例子,在MapPartitionsRDD的构造时,会传入一个匿名函数,该函数的逻辑是,使用第三个参数即迭代器迭代元素并进行map.
我们可以看到传入的迭代器实际是父RDD使用iterator后的返回值,也就是说会先进行父RDD的iterator操作。
那么父RDD是如何来的呢,答案是在转换操作时,会使得一个RDD转换为另一个RDD,观察各种RDD的源码,可以看到
我们再看RDD的构造方法有
这里建立了一对一的依赖
对于Dependency类调用rdd方法返回RDD[_],便可以得到他的父RDD了
2. spark中task是如何生成的
有了1的回答,那么task生成的逻辑其实应该不难想象了,只要有最后那个
RDD,以及各个task对应不同的分片数据就好了
显然我们直到task肯定是在driver端被构造,然后序列化发送到workers上,然后反序列化然后再执行。先看看task的构造函数,以ShuffleMapTask为例:
这里面最重要的是taskBinary,它是一个字节数组,由stage对应的rdd与dependencies生成,再看看driver端是怎么生成task对象的:
注意这里的taskBinary以广播的形式发送给workers,以避免重复序列化。然后便是worker节点收到task,执行run方法:
核心逻辑是runtask方法:
由taskbinary获得对应的rdd与deps,然后调用rdd的iterator方法:
每个task传入的partition是不同的,这个在DAG构造task时可以看到:
到这里逻辑便跟完了,每个task对不同的数据分区执行相同的处理逻辑
推荐阅读
-
spark源码--#两个问题
-
Spark源码系列(二) Dependency&ReduceBykey源码
-
Spark源码分析-1.集群架构介绍和SparkContext源码分析
-
ArrayList源码和多线程安全问题分析
-
Spark源码 —— 从 SparkSubmit 到 Driver启动
-
企业定制软件开发的两个核心问题 博客分类: 组织模式 企业应用软件测试项目管理电信C
-
spark core源码阅读-提交作业(三)
-
企业定制软件开发的两个核心问题 博客分类: 组织模式 企业应用软件测试项目管理电信C
-
MySQL源码安装完成后修改安装路径启动问题
-
des加密解密源码 C# key值问题分析