pyspark 优化spark分析代码 博客分类: pyspark
程序员文章站
2024-03-20 12:17:04
...
源代码为使用一段for循环进行数据处理,未使用map进行分布式计算
优化为:
log.rdd.repartition(100).map(RowFunction).saveAsHadoopFile()
其中使用repartition(100)进行重新分区,使得之前只有8个分区的task变成了100个task大大的加速了分析速度
(ps:其中又解决了一个乱码问题 ascii unicode乱码导致挂掉了,解决方法:
在 /usr/lib/python2.7/site-packages
加入一个 sitecustomize.py文件
内容为:
# encoding=utf8
import sys
reload(sys)
sys.setdefaultencoding('utf8')
解决)
优化为:
log.rdd.repartition(100).map(RowFunction).saveAsHadoopFile()
其中使用repartition(100)进行重新分区,使得之前只有8个分区的task变成了100个task大大的加速了分析速度
(ps:其中又解决了一个乱码问题 ascii unicode乱码导致挂掉了,解决方法:
在 /usr/lib/python2.7/site-packages
加入一个 sitecustomize.py文件
内容为:
# encoding=utf8
import sys
reload(sys)
sys.setdefaultencoding('utf8')
解决)