欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  网络运营

Spark三种属性配置方式详解

程序员文章站 2024-01-10 15:15:25
随着spark项目的逐渐成熟, 越来越多的可配置参数被添加到spark中来。在spark中提供了三个地方用于配置:   1、spark properties:这个可以...

随着spark项目的逐渐成熟, 越来越多的可配置参数被添加到spark中来。在spark中提供了三个地方用于配置:

  1、spark properties:这个可以控制应用程序的绝大部分属性。并且可以通过 sparkconf对象或者java 系统属性进行设置;
  2、环境变量(environment variables):这个可以分别对每台机器进行相应的设置,比如ip。这个可以在每台机器的$spark_home/ conf/spark-env.sh脚本中进行设置;
  3、日志:所有的日志相关的属性可以在log4j.properties文件中进行设置。

  下面对这三种属性设定进行详细的说明。

一、spark properties

  spark properties可以控制应用程序的绝大部分属性,并且可以分别在每个应用上进行设置。这些属性可以直接在sparkconf对象上设定,该对象可以传递给sparkcontext。sparkconf对象允许你去设定一些通用的属性(比如master url、应用的名称等),这些属性可以传递给set()方法的任意key-value对。如下:

val
conf =
new sparkconf()
       .setmaster("local")
       .setappname("countingsheep")
       .set("spark.executor.memory", "1g")
val
sc =
new sparkcontext(conf)

动态加载spark属性

  在一些场景中,你可能想避免在代码中将sparkconf对象的属性进行设死;比如,你可能想在不同的master上面或者不同内存容量运行你的应用程序。这就需要你运行程序的时候进行设置,spark允许你创建一个空的conf对象,如下:

val
sc =
new sparkcontext(new
sparkconf())

然后你可以在运行的时候通过命令行进行一些属性的配置:

./bin/spark-submit --name "my app"
              --master local[4]
              --conf spark.shuffle.spill=false
              --conf "spark.executor.extrajavaoptions=-xx:+printgcdetails
                    -xx:+printgctimestamps"
              myapp.jar

spark shell和 spark-submit工具支持两种方式来动态加载配置属性。第一种是命令行方式,比如--master;spark-submit工具可以通过--conf标记接收任何的spark属性。运行 ./bin/spark-submit --help将会显示全部的选项。

   ./bin/spark-submit工具也会从 conf/spark-defaults.conf配置文件中读取配置选项。 在conf/spark-defaults.conf配置文件中,每行是key-value对,中间可以是用空格进行分割,也可以直接用等号进行分割。如下:

spark.master      spark://iteblog.com:7077
spark.executor.memory  512m
spark.eventlog.enabled true
spark.serializer    org.apache.spark.serializer.kryoserializ

每个值将作为一个flags传递到应用中并个sparkconf对象中相应的属性进行合并。通过sparkconf 对象配置的属性优先级最高;其次是对spark-submit 或 spark-shell通过flags配置;最后是spark-defaults.conf文件中的配置。

哪里可以查看配置好的spark属性

  在应用程序对应的web ui(http://<driver>:4040)上的environment标签下面将会显示出该应用程序的所有spark配置选项。在你想确定你的配置是否正确的情况下是非常有用的。需要注意的是,只有显示通过spark-defaults.conf 或sparkconf 进行配置的属性才会在那个页面显示。其他所有没有显示的属性,你可以认为这些属性的值为默认的。

二、环境变量

  有很大一部分的spark设定可以通过环境变量来进行设定。这些环境变量设定在conf/spark-env.sh 脚本文件中(如果你是windows系统,那么这个文件名称是conf/spark-env.cmd)。在 standalone 和 mesos模式下,这个文件可以设定一些和机器相关的信息(比如hostname)。

  需要注意,在刚刚安装的spark中conf/spark-env.sh文件是不存在的。但是你可以通过复制conf/spark-env.sh.template文件来创建,你的确保这个复制之后的文件是可运行的。

  下面的属性是可以在conf/spark-env.sh文件中配置

java_home java的安装目录
pyspark_python python binary executable to use for pyspark.
spark_local_ip ip address of the machine to bind to.
spark_public_dns hostname your spark program will advertise to other machines.

对于 standalone 模式的集群除了上面的属性可以配置外,还有很多的属性可以配置,具体我就不说了,自己看文档去。

三、日志配置

  spark用log4j来记录日志。你可以通过配置log4j.properties来设定不同日志的级别、存放位置等。这个文件默认也是不存在的,你可以通过复制log4j.properties.template文件来得到。

总结

以上就是本文关于spark三种属性配置方式详解的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站:spark实现k-means算法代码示例浅谈七种常见的hadoop和spark项目案例spark的广播变量和累加器使用方法代码示例等,有什么问题可以随时留言,小编会及时回复大家的。