Spark Transformation
程序员文章站
2024-03-05 18:10:25
...
Transformations——转换
从之前的RDD构建一个新的RDD, 像map() 和filter()
逐元素Transformation
map()
map接收函数, 把函数应用到RDD的每一个元素,返回新的RDD
例子:
val lines = sc.parallelize(Array(1,2,3,4,5),5)
lines.foreach(println)
val lines2 = lines.map(x => x * 2)
lines2.foreach(println)
Filter()
filter接收函数,返回只包含满足filter()函数的元素的新RDD
例子
val lines = sc.parallelize(Array(1,2,3,4,5),5)
val lines3 = lines.filter(x => {x % 2 == 0})
lines3.foreach(println)
flatMap()
flatMap() 对每个输入元素, 输出多个输出元素
flat压扁的意思, 将RDD中元素压扁后返回一个新的RDD,简单理解 将RDD的每个元素的序列拆分
例子
val input = sc.parallelize(Array("hello world", "hello java", "hello scala"))
val words = input.flatMap(line => {line.split(" ")})
words.foreach(println)
集合运算:
RDDs支持数据集合的计算, 例如并集、交集
去重:
val rdd1 = sc.parallelize(Array(1,1,2,3))
rdd1.distinct().foreach(println)
并集、交集、差集:
rdd1.union(rdd2).foreach(println)
rdd1.intersection(rdd2).foreach(println)
rdd1.subtract(rdd2).foreach(println)
上一篇: Different is Good
下一篇: D. Good Triple
推荐阅读
-
Spark 连接 MongoDB 博客分类: javaSparkmongodb数据库 mongodbSpark
-
Spark1.4.0-SparkSQL与Hive整合-支持窗口分析函数 博客分类: hiveSpark sparkSQL与Hive整合
-
Spark架构原理-Checkpoint原理剖析和源码分析
-
Spark Streaming checkpoint 实现状态的恢复实现
-
Spark性能调优系列一:Spark的作业模型
-
spark (3)Spark Standalone集群安装介绍 博客分类: spark sparkHAzookeeperstandalone
-
spark-jdbc No suitable driver found错误处理
-
spark-BigDl:深度学习之lenet5
-
Spark SQL基础与实践
-
Spark之【RDD编程】详细讲解(No6)——《RDD缓存与CheckPoint》