欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Spark RDD概念及常用算子创建过程

程序员文章站 2022-06-01 18:37:53
...

Spark RDD概念-1

简单的解释

RDD是将数据项拆分为多个分区的集合,存储在集群的工作节点上的内存中,并执行正确的操作

复杂的解释

1.RDD是用于数据转换的接口
2.RDD指向了存储在HDFS、Cassandra、HBase等、或缓存(内存、内存+磁盘、仅磁盘等),或在故障或缓存收回时重新计算其他RDD分区中的数据

Spark RDD概念-2

RDD是弹性分布式数据集(Resilient Distributed Datasets)

分布式数据集

1.RDD是只读的、分区记录的集合,每个分区分布在集群的不同节点上
2.RDD并不存储真正的数据,只是对数据和操作的描述

弹性

RDD默认存放在内存中,当内存不足,Spark自动将RDD写入磁盘

容错性

根据数据血统,可以自动从节点失败中恢复分区

RDD与DAG

两者是Spark提供的核心抽象

DAG(有向无环图)反映了RDD之间的依赖关系

Spark RDD概念及常用算子创建过程

RDD的特性

1.一系列的分区(分片)信息,每个任务处理一个分区
2.每个分区上都有compute函数,计算该分区中的数据
3.RDD之间有一系列的依赖
4.分区函数决定数据(key-value)分配至哪个分区
5.最佳位置列表,将计算任务分派到其所在处理数据块的存储位置

RDD编程流程

Spark RDD概念及常用算子创建过程

RDD分区

分区是RDD被拆分并发送到节点的不同块之一

1.我们拥有的分区越多,得到的并行性就越强
2.每个分区都是被分发到不同Worker Node的候选者
3.每个分区对应一个Task
Spark RDD概念及常用算子创建过程

RDD的操作

分为lazy与non-lazy两种

1.Transformation(lazy):也称转换操作、转换算子
2.Actions(non-lazy):立即执行,也称动作操作、动作算子

RDD转换算子

对于转换操作,RDD的所有转换都不会直接计算结果

1.仅记录作用于RDD上的操作
2.当遇到动作算子(Action)时才会进行真正计算
Spark RDD概念及常用算子创建过程

RDD的创建-1

打开IDEA

使用集合创建RDD

val rdd=sc.parallelize(List(1,2,3,4,5,6))
rdd.count
rdd.partitions.size
val rdd=sc.parallelize(List(1,2,3,4,5,6),5)
rdd.partitions.size
val rdd=sc.makeRDD(List(1,2,3,4,5,6))
//注意:1、Spark默认会根据集群的情况来设置分区的数量,也可以通过parallelize()第二参数来指定
//2、Spark会为每一个分区运行一个任务进行处理

RDD常用算子实例

object RDDDemo {
  def main(args: Array[String]): Unit = {
    val conf=new SparkConf().setMaster("local[3]").setAppName("rdddemo")
    val sc=new SparkContext(conf)

    val rdd1=sc.parallelize(List(1,2,3,4,5,6,7,8,9,9,2,6))
    val rdd2=rdd1.distinct
    //println("rdd1分区数:"+rdd1.partitions.length)

    //rdd2.collect.foreach(println)
   // println("rdd2分区数:"+rdd2.partitions.length)

    val rdd3 = rdd1.distinct(2)
   // println("rdd3分区数:"+rdd3.partitions.length)

    val u1=sc.parallelize(1 to 3)
    val u2=sc.parallelize(3 to 4)

    u1.union(u2).collect.foreach(println)
    println("------------------------------")

    (u1++u2).collect.foreach(println)
    println("------------------------------")

    u1.intersection(u2).collect.foreach(println)
    println("------------------------------")

    val j1=sc.parallelize(List("abe","abby","apple")).map(a=>(a,1))
    val j2=sc.parallelize(List("apple","beatty","beatrice")).map(a=>(a,1))

    j1.join(j2).collect.foreach(println)
    println("------------------------------")

    j1.leftOuterJoin(j2).collect.foreach(println)
    println("------------------------------")

    j1.rightOuterJoin(j2).collect.foreach(println)
  }
}

map算子

object MapDemo {
  def main(args: Array[String]): Unit = {
    val conf=new SparkConf().setMaster("local[2]").setAppName("mapdemo")
    val sc=new SparkContext(conf)
    val rdd1=sc.makeRDD(1 to 9,3)
    val rdd2=rdd1.map(_*2)
    rdd2.collect.foreach(println)

    println("-------------------------------------------")
    val strRdd1=sc.parallelize(List("kb02","kb05","kb07","kb09","spark","study"))
    val strRdd2=strRdd1.map(x=>(x,1))
    strRdd2.collect.foreach(println)

    println("---------------------------------------------")
    val filterRdd1=sc.makeRDD(List(1,2,3,4,5,6,7,8,9,10),3)
    val filterRdd2 = filterRdd1.filter(_%2==0)
    filterRdd2.collect.foreach(println)

    println("----------------------------------------------")
    val mapValuesRdd1 = sc.parallelize(List("tiger","dog","cat","lion","eagle","panther"))
    val mapValuesRdd2 = mapValuesRdd1.map(x=>(x.length,x))
    mapValuesRdd2.collect.foreach(println)
//    val mapValuesRdd3=mapPairesRdd2.mapValues(x=>"_"+x+"_")
//    mapValuesRdd3.collect.foreach(println)
    println("-----------------reduceByKey--------------")
    val reduceByKeyRdd1 = mapValuesRdd2.reduceByKey((a,b)=>a+b)
    reduceByKeyRdd1.collect.foreach(println)

    println("------------------groupByKey-------------")
    val groupByKeyRdd=mapValuesRdd2.groupByKey()
    groupByKeyRdd.collect.foreach(println)

    println("-----------------sortBYKeyRdd---------------")
    val sortByKeyRdd=mapValuesRdd2.sortByKey(false)
    sortByKeyRdd.collect.foreach(println)

  }
}

reduce(binary_function)
reduce将RDD中元素前两个传给输入函数,产生一个新的return值,新产生的return值与RDD中下一个元素(第三个元素)组成两个元素,再被传给输入函数,直到最后只有一个值为止。

val c = sc.parallelize(1 to 10)
c.reduce((x, y) => x + y)//结果55

具体过程,RDD有1 2 3 4 5 6 7 8 9 10个元素,

1+2=3 
3+3=6 
6+4=10 
10+5=15 
15+6=21 
21+7=28 
28+8=36 
36+9=45 
45+10=55

reduceByKey(binary_function)
reduceByKey就是对元素为KV对的RDD中Key相同的元素的Value进行binary_function的reduce操作,因此,Key相同的多个元素的值被reduce为一个值,然后与原RDD中的Key组成一个新的KV对。

val a = sc.parallelize(List((1,2),(1,3),(3,4),(3,6)))
a.reduceByKey((x,y) => x + y).collect
1
2
//结果 Array((1,5), (3,10))

RDD的创建-2

通过加载文件产生RDD

val distFile=sc.textFile("file:///home/hadoop/data/hello.txt")
distFile.count
val distHDFSFile=sc.textFile("hdfs://hadoop001:9000/hello.txt")

加载“file://……”时,以local运行仅需一份本地文件,以Spark集群方式运行,应保证每个节点均有该文件的本地副本

object ActionRddDemo {
  def main(args: Array[String]): Unit = {
    val conf=new SparkConf().setMaster("local[1]").setAppName("actionrdddemo")
    val sc = new SparkContext(conf)
    val rdd1=sc.parallelize(1 to 100)
    val sum=rdd1.reduce((x,y)=>{println(x,y);x+y})
    println("总和:"+sum)


    //rdd1.saveAsTextFile("in/rdd1.txt")
    rdd1.saveAsTextFile("hdfs://hadoop001:9000/kb09workspace/rdd1demodata")

  }
}

RDD动作算子

1.本质上动作算子通过SparkContext执行提交作业操作,触发RDD DAG(有向无环图)的执行
2.所有的动作算子都是急迫型(non-lazy),RDD遇到Action就会立即计算

RDD常用动作算子

count

返回的是数据集中的元素的个数

val rdd=sc.parallelize(List(1,2,3,4,5,6))
rdd.count

collect

以Array返回RDD的所有元素。一般在过滤或者处理足够小的结果的时候使用

val rdd=sc.parallelize(List(1,2,3,4,5,6))
rdd.collect

take

返回前n个元素

val rdd=sc.parallelize(List(1,2,3,4,5,6))
rdd.take(3)

first

返回RDD第一个元素

val rdd=sc.parallelize(List(1,2,3,4,5,6))
rdd.first

reduce

根据指定函数,对RDD中的元素进行两两计算,返回计算结果

val a=sc.parallelize(1 to 100)
a.reduce((x,y)=>x+y)
a.reduce(_+_)		//与上面等价
val b=sc.parallelize(Array(("A",0), ("A",2), ("B",1), ("B",2), ("C",1)))
b.reduce((x,y)=>{(x._1+y._1,x._2+y._2)})		//(AABBC,6)

foreach

对RDD中的每个元素都使用指定函数,无返回值

val rdd=sc.parallelize(1 to 100)
rdd.foreach(println)

lookup

用于PairRDD,返回K对应的所有V值

val rdd=sc.parallelize(List(('a',1), ('a',2), ('b',3), ('c',4)))
rdd.lookup('a')		//输出WrappedArray(1, 2)

最值

返回最大值、最小值

val y=sc.parallelize(10 to 30)
y.max	//求最大值
y.min	//求最小值

saveAsTextFile

保存RDD数据至文件系统

val rdd=sc.parallelize(1 to 10,2)
rdd.saveAsTextFile("hdfs://hadoop000:8020/data/rddsave/")
相关标签: Spark RDD spark