Spark安装与部署

程序员文章站 2023-04-04 18:48:51

1.首先安装scala（找到合适版本的具体地址下载）在/usr/local/目录下 wget https://www.scala-lang.org/download/**** 2.安装spark （由于我的Hadoop是2.7.6版本的，因此我所用的spark是在官网上的适用hadoop-2以上版 ......

1.首先安装scala（找到合适版本的具体地址下载）

在/usr/local/目录下

wget https://www.scala-lang.org/download/****

2.安装spark

（由于我的hadoop是2.7.6版本的，因此我所用的spark是在官网上的适用hadoop-2以上版本的）

wget http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz
tar -zxvf spark-2.4.3-bin-hadoop2.7.tgz
rm spark-2.4.3-bin-hadoop2.7.tgz

3.配置环境变量

vim /etc/profile

4.刷新环境变量

source /etc/profile

5.复制配置文件

cp slaves.template slaves
cp spark-env.sh.template spark-env.sh

6.接着进行以下配置

vim /etc/profile（查看其它配置文件直接复制即可）
vim ./spark-2.4.3-bin-hadoop2.7/conf
vim spark-env.sh

7.启动spark环境

1）先启动hadoop环境

/usr/local/hadoop-2.7.6/sbin/start-all.sh

2) 启动spark环境

/usr/local/spark-2.4.3-bin-hadoop2.7/sbin/start-all.sh

8.查看spark的web控制界面

我的是：

显示端口为7077

9.查看hadoop的web端界面

我的是：

10.验证spark是否安装成功

bin/run-example sparkpi

注意：命令执行后出现一大堆东西，只需要从中找到下面这个图中的东西，就说明安装成功。

bin/run-example sparkpi 2>&1 | grep "pi is"

11.使用spark shell编写代码

1）启动spark shell

bin/spark-shell

2）加载text文件

spark创建sc，可以加载本地文件和hdfs文件创建rdd。这里用spark自带的本地文件readme.md文件测试。

scala>val textfile=sc.textfile("file:///usr/local/spark-2.4.3-bin-hadoop2.7/readme.md")

加载hdfs文件和本地文件都是使用textfile，区别是添加前缀(hdfs://和file://)进行标识。

3）简单rdd操作

scala> textfile.first() // 获取rdd文件textfile的第一行内容
scala> textfile.count() // 获取rdd文件textfile的所有项的计数

scala> val linewithspark=textfile.filter(line=>line.contains("spark"))// 抽取含有“spark”的行，返回一个新的rdd

scala> linewithspark.count() //统计新的rdd的行数

4）可以通过组合rdd操作进行组合，可以实现简易mapreduce操作

scala> textfile.map(line=>line.split(" ").size).reduce((a,b)=>if(a>b) a else b) //找出文本中每行的最多单词数

5）退出spark shell

:quit

上一篇： Python enumerate() 函数

下一篇： pip 查看软件包可用版本并安装； pip 查看 numpy 可用版本并安装

Spark安装与部署

1.首先安装scala（找到合适版本的具体地址下载）

2.安装spark

3.配置环境变量

4.刷新环境变量

5.复制配置文件

6.接着进行以下配置

7.启动spark环境

1）先启动hadoop环境

2) 启动spark环境

8.查看spark的web控制界面

9.查看hadoop的web端界面

10.验证spark是否安装成功

11.使用spark shell编写代码

1）启动spark shell

2）加载text文件

3）简单rdd操作

4）可以通过组合rdd操作进行组合，可以实现简易mapreduce操作

5）退出spark shell

zabbix安装与配置

CentOS7 下nginx与PHP的安装与配置

RabbitMQ在Windows环境下的安装与使用

Win7与Fedora双系统安装方法分享

Spark新手入门——2.Hadoop集群(伪分布模式)安装

Python机器学习库scikit-learn安装与基本使用教程

PySpark与GraphFrames的安装与使用环境搭建过程

Docker安装方法与Docker四种网络模式详解

win10系统下Anaconda+TensorFlow+Pycharm的下载安装与环境配置

Python爬虫包BeautifulSoup简介与安装（一）