欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Spark相关术语

程序员文章站 2022-07-12 19:50:36
...
RDD

全称为Resilient Distributed Dataset,弹性分布式数据集。
    就是分布在集群节点上的数据集,这些集合可以用来进行各种操作,能实现MapReduce不擅长的计算工作(比如迭代式、交互式和流式)。最重要的一点是,某个操作计算后的数据集可以缓存在内存中,然后给其他计算使用,这种在迭代计算中很常见。
    原始的RDD经过一系列转化后,会在最后的RDD上触发一个动作,这个动作会生成一个Job。Job被划分为不同的阶段,每个阶段有一批计算任务(Task)组成,这批Task会被集群提交到集群上的计算节点去计算。

Iterator

    迭代器,即是提供一级接口给其他人来访问RDD 中的数据集。
    如下代码中的t所示:
RDD.mapPartitions((t: Iterator[(ImmutableBytesWritable, org.apache.hadoop.hbase.client.Result)])=>{相关操作}

Job

一道作业,即指应用完成某项需求所需要一系列工作,统一称为作业。
DAG

    有向无环图,将作业分解成若干个阶段,每个阶段都是由若干个task 组成,而这些阶段都是有先后顺序的,故将这些阶段组织成DAG,来表示其先后顺序。
Stage

    阶段,是指job 中的一个结点。
Taskset

    每个阶段将由若干个task 组成,这些task 统一称为taskset。
Task

    Task 是指最终在slave 结点上运行的工作。
[size=large]如下图所示:
    与MR的区别
    MR 的缺点:
    1. Shuffle 的性能。Map 到reduce 之间数据多次需要IO 操作。
    2. 当有多个MR 时,每轮的MR 之间需要将结果写到hdfs 上。
    3. 只有map,reduce 二种计算模型,无法建立一组DAG 操作,来减少中间的一些操作开销。
以上的缺点都是spark 的优点。