欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

spark安装

程序员文章站 2022-05-20 19:36:41
...

一、前提

安装jdk
版本号:
scala scala-2.11.12
spark spark-2.4.5
传送链接
提取码:w2xv

二、安装scala环境

  1. 上传scala安装包到opt目录下
  2. 解压:tar -zxvf scala-2.11.12.tgz
  3. 重命名:mv scala-2.11.12 scala
  4. 配置系统环境变量:
export SCALA_HOME=/opt/scala
export PATH=$SCALA_HOME/bin:$PATH
  1. 编辑完成后:source /etc/profile

  2. 验证安装:scala -version
    spark安装

三、spark安装

  1. 上传spark安装包到opt目录
  2. 解压:tar -zxvf spark-2.4.5-bin-hadoop2.6.tgz
  3. 重命名:mv spark-2.4.5-bin-hadoop2.6 spark
  4. 修改配置文件
cd spark/conf
cp spark.env.sh.template spark.env.sh
cp  slaves.template slaves
vi spark.env.sh

在最后一行增加如下内容:

export JAVA_HOME=/opt/jdk1.8.0_221
export SCALA_HOME=/opt/scala
export SPARK_HOME=/opt/spark
# 主机名或者IP地址
export SPARK_MASTER_IP=hadoop001
export SPARK_EXECUTOR_MEMORY=2G
  1. 配置系统环境变量

注:spark启动命令start-all.sh与hadoop启动命令冲突,所以不进行配置

export SPARK_HOME=/opt/spark
export PATRH=$SPARK_HOME/bin:$PATH
  1. 启动spark

6.1 本地模式启动

spark-shell
或
spark-shell --master local

可以通过以下几种方式设置spark运行的线程数
(1)local:所有计算都运行在一个线程中;
(2)local[K]:指定K个线程来运行计算,通常CPU有几个Core(线程数),就指定K为几,最大化利用CPU并行计算能力;
(3)local[*]:自动设定CPU的最大Core数;

spark安装

6.2 standalone–单节点模式启动

spark-shell --master spark://hadoop001:7077

spark安装

6.3 yarn模式启动
注:上述配置为单节点,不支持集群启动

spark-shell --master yarn-client

四、测试

//定义一个数组
sc.parallelize(List("hello world","hello java","hello scala","hello spark"))
//单词计数
res0.flatMap(_.split(" ")).map(x=>(x,1)).reduceByKey(_+_).collect.foreach(println)

spark安装