欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

spark源码--#两个问题

程序员文章站 2024-02-23 09:08:46
...
1. spark中的transformation操作做了什么

将旧RDD转化为新RDD ,见RDD最重要的三个属性
那么RDD的操作是如何记录的呢,答案是dependencies,task中调用是RDD的iterator方法
spark源码--#两个问题
最终是执行compute方法。对于RDD的iterator方法,以MapPartitionsRDD为例子,在MapPartitionsRDD的构造时,会传入一个匿名函数,该函数的逻辑是,使用第三个参数即迭代器迭代元素并进行map.
spark源码--#两个问题
我们可以看到传入的迭代器实际是父RDD使用iterator后的返回值,也就是说会先进行父RDD的iterator操作。
spark源码--#两个问题
那么父RDD是如何来的呢,答案是在转换操作时,会使得一个RDD转换为另一个RDD,观察各种RDD的源码,可以看到
spark源码--#两个问题
我们再看RDD的构造方法有
spark源码--#两个问题
这里建立了一对一的依赖
spark源码--#两个问题
对于Dependency类调用rdd方法返回RDD[_],便可以得到他的父RDD了

2. spark中task是如何生成的
   有了1的回答,那么task生成的逻辑其实应该不难想象了,只要有最后那个
   RDD,以及各个task对应不同的分片数据就好了

显然我们直到task肯定是在driver端被构造,然后序列化发送到workers上,然后反序列化然后再执行。先看看task的构造函数,以ShuffleMapTask为例:
spark源码--#两个问题
这里面最重要的是taskBinary,它是一个字节数组,由stage对应的rdd与dependencies生成,再看看driver端是怎么生成task对象的:
spark源码--#两个问题
spark源码--#两个问题
注意这里的taskBinary以广播的形式发送给workers,以避免重复序列化。然后便是worker节点收到task,执行run方法:
spark源码--#两个问题
核心逻辑是runtask方法:
spark源码--#两个问题
由taskbinary获得对应的rdd与deps,然后调用rdd的iterator方法:
spark源码--#两个问题
每个task传入的partition是不同的,这个在DAG构造task时可以看到:
spark源码--#两个问题
到这里逻辑便跟完了,每个task对不同的数据分区执行相同的处理逻辑

相关标签: # spark源码