欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

pyspark 优化spark分析代码 博客分类: pyspark  

程序员文章站 2024-03-20 12:17:04
...
源代码为使用一段for循环进行数据处理,未使用map进行分布式计算
优化为:
log.rdd.repartition(100).map(RowFunction).saveAsHadoopFile()
其中使用repartition(100)进行重新分区,使得之前只有8个分区的task变成了100个task大大的加速了分析速度
(ps:其中又解决了一个乱码问题 ascii unicode乱码导致挂掉了,解决方法:

在 /usr/lib/python2.7/site-packages
加入一个 sitecustomize.py文件
内容为:
# encoding=utf8
import sys
reload(sys)
sys.setdefaultencoding('utf8')
解决)