pyspark On Yarn 的模块依赖问题

程序员文章站 2022-04-29 10:54:02

...

创建自定义模块

dependency/mydata.py，这个模块被主函数依赖

data = range(100)

创建主程序

引入自定义模块，进行数据打印和和保存至HDFS

# -*- coding: utf-8 -*-
from pyspark import SparkContext
from dependency.mydata import data  # 自己写的模块

# 获取spark的上下文
sc = SparkContext()
sc.setLogLevel('WARN')

out = sc.parallelize(data)
print(out.collect())

# out是RDD格式需调用.toDF()转为spark.dataFrame格式
df = out.toDF()
df.show()

out.saveAsTextFile("hdfs://s0:8020/input/text")

自定义模块打压缩包

[aaa@qq.com ~]# cd /root
[aaa@qq.com ~]# cd dependency
[aaa@qq.com dependency]# ls
__init__.py  mydata.py
[aaa@qq.com dependency]# cd ../
[aaa@qq.com ~]# zip -r dep.zip dependency/
  adding: dependency/ (stored 0%)
  adding: dependency/mydata.py (stored 0%)
  adding: dependency/__init__.py (stored 0%)

pyspark On Yarn 的模块依赖问题

执行命令

spark-submit --master yarn --deploy-mode cluster --py-files /root/dep.zip /root/Demo6.py

注：压缩文件必须是全路径，即使它在 PYTHONPATH 环境变量内，不写全路径也会报错 file do not exist

--py-files
它是 spark-submit 的参数，官方解释如下：
Comma-separated list of .zip, .egg, or .py files to place on the PYTHONPATH for Python apps.
用逗号分隔的 zip、egg、py 文件列表来代替 PYTHONPATH 环境变量

参照：https://www.cnblogs.com/yanshw/p/12083488.html

相关标签：大数据 spark yarn 模块依赖

上一篇： CDH的 hive on spark（spark on yarn）

下一篇： Python爬虫笔记 | HTML基础

pyspark On Yarn 的模块依赖问题

创建自定义模块

创建主程序

自定义模块打压缩包

执行命令

AngularJS动态加载模块和依赖的方法分析

IOS开发用户登录注册模块所遇到的问题

Python中MySQLdb和torndb模块对MySQL的断连问题处理

VUE使用vuex解决模块间传值问题的方法

如何查看一个js,ts文件模块的依赖树-深予之-SegmentFault思否

关于maven依赖关系的问题

javascript 模块依赖管理的本质深入详解

Python中import导入上一级目录模块及循环import问题的解决

C++ 调用Python3 脚本中无法引入内建模块的问题解决方法

解决PyCharm同目录下导入模块会报错的问题