Spark基础环境搭建——local本地模式

程序员文章站 2024-03-22 21:52:22

...

这篇博客，为大家带来的是关于Spark的环境搭建。
Spark基础环境搭建——local本地模式

Spark环境搭建

提前声明：
1.我们选择目前企业中使用最多的稳定版Spark2.2.0

Spark基础环境搭建——local本地模式
2.为了方便浏览和更改配置信息，我们把主机名更换为node01,node02.....

local本地模式

<1> 安装

我们需要下载Spark的安装包。

下载地址:http://spark.apache.org/downloads.html

        安装完成后
Spark基础环境搭建——local本地模式
        上传到linux

        解压并重命名

cd /export/servers
tar spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz
mv spark-2.2.0-bin-2.6.0-cdh5.14.0 spark

注意:

如果有权限问题，可以修改为root，方便学习时操作，实际中使用运维分配的用户和权限即可。

chown -R root /export/servers/spark 
chgrp -R root /export/servers/spark

bin        可执行脚本
conf       配置文件
data       示例程序使用数据
examples   示例程序
jars       依赖 jar 包
python     pythonAPI
R          R 语言 API
sbin       集群管理命令
yarn       整合yarn需要的文件

<2>启动spark-shell

直接启动bin目录下的spark-shell:
./spark-shell
spark-shell说明<后续仍会提到>

<1>直接使用./spark-shell

表示使用local 模式启动，在本机启动一个SparkSubmit进程

<2>还可指定参数 --master，如：

spark-shell --master local[N] 表示在本地模拟N个线程来运行当前任务
spark-shell --master local[*] 表示使用当前机器上所有可用的资源

<3>不携带参数默认就是
spark-shell --master local[*]

<4>后续还可以使用–master指定集群地址，表示把任务提交到集群上运行，如
./spark-shell --master spark://node01:7077,node02:7077

<5>退出spark-shell
使用 :quit

ok，说了那么多概念，接下来让我们来感受一下Spark的具体使用~

<3>初体验-读取本地文件

让我们来准备点数据
vim /root/words.txt

hello me you her 
hello you her
hello her 
hello

spark-shell进入到命令行后程序后，输入下面的代码

val textFile = sc.textFile("file:///root/words.txt")
val counts = textFile.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
counts.collect  //收集结果
// 预期结果: Array[(String, Int)] = Array((you,2), (hello,4), (me,1), (her,3))

<4>初体验-读取HDFS文件

准备数据
上传文件到hdfs
hadoop fs -put /root/words.txt /wordcount/input/words.txt

目录如果不存在可以创建
hadoop fs -mkdir -p /wordcount/input

结束后删除测试文件夹即可
hadoop fs -rm -r /wordcount

在Spark的shell窗口中输入

val textFile = sc.textFile("hdfs://node01:8020/wordcount/input/words.txt")
val counts = textFile.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
counts.saveAsTextFile("hdfs://node01:8020/wordcount/output")

待到程序执行完毕，我们进入到HDFS的UI界面进行查看
Spark基础环境搭建——local本地模式
看到上述的场景，说明我们的程序以及环境搭建是没有问题的。

好了,本次的分享就到这里，喜欢的小伙伴们记得点赞加关注哟~
Spark基础环境搭建——local本地模式

上一篇：【SVN】CentOS7.0下搭建SVN服务器

下一篇： iOS创建framework静态库（SDK&组件化）

Spark基础环境搭建——local本地模式

Spark环境搭建

local本地模式

<1> 安装

<2>启动spark-shell

<3>初体验-读取本地文件

<4>初体验-读取HDFS文件

Spark基础环境搭建——local本地模式

Spark --最全的安装部署 local本地模式spark安装 spark--standalone集群安装 spark-HA高可用安装 spark on yarn安装

spark-windows（含eclipse配置）下本地开发环境搭建

spark-windows（含eclipse配置）下本地开发环境搭建

Spark快速入门系列(6) | Spark环境搭建—standalone(3) 配置HA高可用模式

2,Hadoop环境搭建之本地模式

【大数据环境篇二】Hive 本地环境搭建概述（四种运行模式）

Spark快速入门系列(6) | Spark环境搭建—standalone(3) 配置HA高可用模式

新手零基础-Mac环境下flink下载安装+本地模式示例程序运行+踩坑

Hive集群环境搭建之本地模式（derby）