欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Spark常用参数解释及建议值

程序员文章站 2024-01-12 13:27:52
...

Spark常用参数解释及建议值
spark的默认配置文件位于堡垒机上的这个位置: $SPARK_CONF_DIR/spark-defaults.conf,用户可以自行查看和理解。
需要注意的是,默认值优先级最低,用户如果提交任务时或者代码里明确指定配置,则以用户配置为先。 用户再理解参数含义的基础上,可根据具体任务情况调整参数。
以下常用参数配置均可以通过 --conf XXX=Y 方式使用,其他参数以及介绍请参考 https://spark.apache.org/docs/latest/configuration.html
Spark常用参数解释及建议值
Spark常用参数解释及建议值
Spark默认使用jdk7,使用jdk8的话添加如下配置:
若只设置客户端jdk版本:
export JAVA_HOME=/software/servers/jdk1.8.0_121
若设置整个应用程序的jdk版本:
–conf spark.yarn.appMasterEnv.JAVA_HOME=/software/servers/jdk1.8.0_121
–conf spark.executorEnv.JAVA_HOME=/software/servers/jdk1.8.0_121
Spark使用各种python库请使用docker

DockerLinuxContainer的使用例子

./bin/spark-submit --class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
--driver-memory 4g \
--executor-memory 2g \
--executor-cores 1 \
--conf spark.yarn.appMasterEnv.yarn.nodemanager.container-executor.class=DockerLinuxContainer \
--conf spark.executorEnv.yarn.nodemanager.container-executor.class=DockerLinuxContainer \
--conf spark.yarn.appMasterEnv.yarn.nodemanager.docker-container-executor.image-name=bdp-docker.jd.com:5000/wise_algorithm:latest \
--conf spark.executorEnv.yarn.nodemanager.docker-container-executor.image-name=bdp-docker.jd.com:5000/wise_algorithm:latest \
$SPARK_HOME/examples/jars/spark-examples_2.11-2.1.0.jar \
10
只需要在之前提交spark的任务中加上
--conf spark.yarn.appMasterEnv.yarn.nodemanager.container-executor.class=DockerLinuxContainer \
--conf spark.executorEnv.yarn.nodemanager.container-executor.class=DockerLinuxContainer \
--conf spark.yarn.appMasterEnv.yarn.nodemanager.docker-container-executor.image-name=bdp-docker.jd.com:5000/wise_algorithm:latest \
--conf spark.executorEnv.yarn.nodemanager.docker-container-executor.image-name=bdp-docker.jd.com:5000/wise_algorithm:latest \
运行模式必须是yarn cluster(不支持 spark-shell /pyspark等交互式环境)
--master yarn \
--deploy-mode cluster \ 
其中bdp-docker.jd.com:5000/wise_algorithm:latest为镜像名称