欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Python下Spark输出pair RDD

程序员文章站 2022-05-18 19:53:16
...
from pyspark.sql import SparkSession

spark = SparkSession.builder.master('local').appName("test_script").getOrCreate()
sc = spark.sparkContext

lines = sc.parallelize({(1,2), (3,4), (3,6)})
res = lines.groupByKey().collect()
print(sorted([(x, sorted(y)) for (x, y) in res])) # 第一个sorted是确保按照key顺序输出,第二个是让value显示出来,不加就无法显示
相关标签: 大数据处理