spark安装
程序员文章站
2022-05-20 19:36:41
...
spark安装
一、前提
安装jdk
版本号:
scala scala-2.11.12
spark spark-2.4.5
传送链接
提取码:w2xv
二、安装scala环境
- 上传scala安装包到opt目录下
- 解压:tar -zxvf scala-2.11.12.tgz
- 重命名:mv scala-2.11.12 scala
- 配置系统环境变量:
export SCALA_HOME=/opt/scala
export PATH=$SCALA_HOME/bin:$PATH
-
编辑完成后:source /etc/profile
-
验证安装:scala -version
三、spark安装
- 上传spark安装包到opt目录
- 解压:tar -zxvf spark-2.4.5-bin-hadoop2.6.tgz
- 重命名:mv spark-2.4.5-bin-hadoop2.6 spark
- 修改配置文件
cd spark/conf
cp spark.env.sh.template spark.env.sh
cp slaves.template slaves
vi spark.env.sh
在最后一行增加如下内容:
export JAVA_HOME=/opt/jdk1.8.0_221
export SCALA_HOME=/opt/scala
export SPARK_HOME=/opt/spark
# 主机名或者IP地址
export SPARK_MASTER_IP=hadoop001
export SPARK_EXECUTOR_MEMORY=2G
- 配置系统环境变量
注:spark启动命令start-all.sh与hadoop启动命令冲突,所以不进行配置
export SPARK_HOME=/opt/spark
export PATRH=$SPARK_HOME/bin:$PATH
- 启动spark
6.1 本地模式启动
spark-shell
或
spark-shell --master local
可以通过以下几种方式设置spark运行的线程数
(1)local:所有计算都运行在一个线程中;
(2)local[K]:指定K个线程来运行计算,通常CPU有几个Core(线程数),就指定K为几,最大化利用CPU并行计算能力;
(3)local[*]:自动设定CPU的最大Core数;
6.2 standalone–单节点模式启动
spark-shell --master spark://hadoop001:7077
6.3 yarn模式启动
注:上述配置为单节点,不支持集群启动
spark-shell --master yarn-client
四、测试
//定义一个数组
sc.parallelize(List("hello world","hello java","hello scala","hello spark"))
//单词计数
res0.flatMap(_.split(" ")).map(x=>(x,1)).reduceByKey(_+_).collect.foreach(println)
推荐阅读