Scala当中parallelize并行化的用法

程序员文章站 2022-06-23 17:12:05

[学习笔记] parallelize并行化集合是根据一个已经存在的Scala集合创建的RDD对象。集合的里面的元素将会被拷贝进入新创建出的一个可被并行操作的分布式数据集。例如：val rdd03 = sc.parallelize(List(1, 4, 3, 7, 5)) 根据系统环境来进行切分多个s ......

[学习笔记]

parallelize并行化集合是根据一个已经存在的scala集合创建的rdd对象。集合的里面的元素将会被拷贝进入新创建出的一个可被并行操作的分布式数据集。
例如：val rdd03 = sc.parallelize(list(1, 4, 3, 7, 5)) 根据系统环境来进行切分多个slice，每一个slice启动一个task来进行处理。
val rdd03 = sc.parallelize(list(1, 4, 3, 7, 5), 5) 指定了partition的数量为5,
makerdd和parallelize的区别？makerdd函数有两种实现，第一种实现其实完全和parallelize一致。而第二种实现可以为数据提供位置信息，除此之外，和parallelize是一致的
*/
    val rdd03 = sc.parallelize(list(1, 4, 3, 7, 5), 3)
    val rdd03_1 = rdd03.map { x => x + 1 }
    println("map2 用法 is 马克-to-win @ 马克java社区：" + rdd03_1.collect().mkstring(","))

    val rdd04 = sc.parallelize(list(1, 4, 3, 7, 5), 3)
    val rdd04_1 = rdd04.filter { x => x > 3 }
    println("filter2 用法马克-to-win @ 马克java社区：" + rdd04_1.collect().mkstring(","))

    val rdd05: rdd[int] = sc.makerdd(array(1, 4, 3))
    val rdd06: rdd[int] = sc.makerdd(array(7, 5))
    myunion(rdd05, rdd06)
    /*reduce(function)

文章转载自原文：

上一篇： Win10结束支持时间公布！微软正全力准备新Windows系统

下一篇： Tomcat将配置文件放在外部的解决方法

Scala当中parallelize并行化的用法

Spark Scala当中reduceByKey(_+_) reduceByKey((x,y) => x+y)的用法

Spark和Scala当中的collect方法的用法和例子

Spark Scala当中reduce的用法和例子

Spark Scala当中reduceByKey的用法