spark去重优化
程序员文章站
2022-04-15 11:36:20
...
在spark的任务中,用的较多的去重方法是dataframe的distinct,笔者在测试中发现这种方法其实很次的,尤其是在大量数据的去重的过程中。
测试数据的数据结构如下,主要是userid,其他字段随意。
userid:String, column1:String
数据大小
方法一,使用dataframe的distinct去重:
df.selectExpr($"userid").distinct()
这种方法是最简单而且个人认为效率是最次的,当时测试了16260037条数据,对用户id去重,其实去重后的userid也就27个,即使是分布式执行任务,去重这步也花了20分钟左右。
方法二,然后笔者脑回路清奇,尝试使用groupByKey去重:
val users = df.rdd.map(row =>{
(row.getAs("userid").toString, 1)
}).groupByKey().map(line =>{
(line._1, line._2.sum)
}).collect()
拿到的是是一个Array[(String, Int)],速度稍微好一点,但也就那样吧。
方法三,还是脑回路清奇,想到dataframe.collect().distinct.toList
val users = df.selectExpr("userid").collect().distinct.toList
这是先吧userid这一列用collect()转成数组,类型为Array[Row],再使用distinct去重,最后根据个人喜好 业务需求将Array[Row]转成List[Row]。
这个去重速度是最快的,也就几分钟的事。
下一篇: 利用Set对List进行去重