欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

spark去重优化

程序员文章站 2022-04-15 11:36:20
...

在spark的任务中,用的较多的去重方法是dataframe的distinct,笔者在测试中发现这种方法其实很次的,尤其是在大量数据的去重的过程中。

测试数据的数据结构如下,主要是userid,其他字段随意。

userid:String, column1:String

数据大小
spark去重优化

方法一,使用dataframe的distinct去重:

df.selectExpr($"userid").distinct()

这种方法是最简单而且个人认为效率是最次的,当时测试了16260037条数据,对用户id去重,其实去重后的userid也就27个,即使是分布式执行任务,去重这步也花了20分钟左右。

方法二,然后笔者脑回路清奇,尝试使用groupByKey去重:

    val users = df.rdd.map(row =>{
      (row.getAs("userid").toString, 1)
    }).groupByKey().map(line =>{
      (line._1, line._2.sum)
    }).collect()

拿到的是是一个Array[(String, Int)],速度稍微好一点,但也就那样吧。

方法三,还是脑回路清奇,想到dataframe.collect().distinct.toList

val users = df.selectExpr("userid").collect().distinct.toList

这是先吧userid这一列用collect()转成数组,类型为Array[Row],再使用distinct去重,最后根据个人喜好 业务需求将Array[Row]转成List[Row]。
这个去重速度是最快的,也就几分钟的事。