Python下Spark输出pair RDD
程序员文章站
2022-05-18 19:53:16
...
from pyspark.sql import SparkSession
spark = SparkSession.builder.master('local').appName("test_script").getOrCreate()
sc = spark.sparkContext
lines = sc.parallelize({(1,2), (3,4), (3,6)})
res = lines.groupByKey().collect()
print(sorted([(x, sorted(y)) for (x, y) in res])) # 第一个sorted是确保按照key顺序输出,第二个是让value显示出来,不加就无法显示
上一篇: stream-lib流式计算库
下一篇: Roaring64Bitmap实践