欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

Spark安装与部署

程序员文章站 2023-04-04 18:48:51
1.首先安装scala(找到合适版本的具体地址下载) 在/usr/local/目录下 wget https://www.scala-lang.org/download/**** 2.安装spark (由于我的Hadoop是2.7.6版本的,因此我所用的spark是在官网上的适用hadoop-2以上版 ......

1.首先安装scala(找到合适版本的具体地址下载)

在/usr/local/目录下
wget https://www.scala-lang.org/download/****

2.安装spark

(由于我的hadoop是2.7.6版本的,因此我所用的spark是在官网上的适用hadoop-2以上版本的)
wget http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz
tar -zxvf spark-2.4.3-bin-hadoop2.7.tgz
rm spark-2.4.3-bin-hadoop2.7.tgz

3.配置环境变量

vim /etc/profile
Spark安装与部署

4.刷新环境变量

source /etc/profile

5.复制配置文件

cp slaves.template slaves
cp spark-env.sh.template spark-env.sh

6.接着进行以下配置

vim /etc/profile(查看其它配置文件直接复制即可)
vim ./spark-2.4.3-bin-hadoop2.7/conf
vim spark-env.sh
Spark安装与部署

7.启动spark环境

1)先启动hadoop环境

/usr/local/hadoop-2.7.6/sbin/start-all.sh

2) 启动spark环境

/usr/local/spark-2.4.3-bin-hadoop2.7/sbin/start-all.sh

8.查看spark的web控制界面

我的是:
显示端口为7077
Spark安装与部署

 

9.查看hadoop的web端界面

我的是:
Spark安装与部署

 

10.验证spark是否安装成功

bin/run-example sparkpi
注意:命令执行后出现一大堆东西,只需要从中找到下面这个图中的东西,就说明安装成功。
Spark安装与部署
bin/run-example sparkpi 2>&1 | grep "pi is"
Spark安装与部署

11.使用spark shell编写代码

1)启动spark shell

bin/spark-shell
Spark安装与部署

2)加载text文件

spark创建sc,可以加载本地文件和hdfs文件创建rdd。这里用spark自带的本地文件readme.md文件测试。
scala>val textfile=sc.textfile("file:///usr/local/spark-2.4.3-bin-hadoop2.7/readme.md")
加载hdfs文件和本地文件都是使用textfile,区别是添加前缀(hdfs://和file://)进行标识。

3)简单rdd操作

scala> textfile.first() // 获取rdd文件textfile的第一行内容
scala> textfile.count() // 获取rdd文件textfile的所有项的计数
Spark安装与部署
scala> val linewithspark=textfile.filter(line=>line.contains("spark"))// 抽取含有“spark”的行,返回一个新的rdd
Spark安装与部署
scala> linewithspark.count() //统计新的rdd的行数
Spark安装与部署

4)可以通过组合rdd操作进行组合,可以实现简易mapreduce操作

scala> textfile.map(line=>line.split(" ").size).reduce((a,b)=>if(a>b) a else b) //找出文本中每行的最多单词数
Spark安装与部署

5)退出spark shell

:quit
Spark安装与部署