欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

spark1.2.0伪分布式搭建

程序员文章站 2022-03-04 15:14:21
...

1、下载scala2.11.5版本,下载地址为:http://www.scala-lang.org/download/2.11.5.html;

2、安装和配置scala:

第一步:上传scala安装包 并解压

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

第二步 配置SCALA_HOME环境变量到bash_profile

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

第三步 source 使配置环境变量生效:

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

第四步 验证scala:

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

3、下载spark 1.2.0,具体下载地址:http://spark.apache.org/downloads.html

4、安装和配置spark:

第一步  解压spark:

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

第二步 配置SPARK_HOME环境变量:

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

 

第三步 使用source生效:

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

 

进入spark的conf目录:

第四步 修改slaves文件,首先打开该文件:

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

slaves修改后:

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

第五步 配置spark-env.sh

首先把spark-env.sh.template拷贝到spark-env.sh:

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

然后 打开“spark-env.sh”文件:

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

spark-env.sh文件修改后:

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

5、启动spark伪分布式帮查看信息:

第一步 先保证hadoop集群或者伪分布式启动成功,使用jps看下进程信息:

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

如果没有启动,进入hadoop的sbin目录执行 ./start-all.sh

第二步 启动spark:

进入spark的sbin目录下执行“start-all.sh”:

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

此刻 我们看到有新进程“Master” 和"Worker"

我们访问“http://master:8080/”,进如spark的web控制台页面:

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

从页面上可以看到一个Worker节点的信息。

 

我们进入spark的bin目录,使用“spark-shell”控制台:

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

通过访问"http://master:4040",进入spark-shell web控制台页面:

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

 

6、测试spark伪分布式:

我们使用之前上传到hdfs中的/data/test/README.txt文件进行mapreduce

取得hdfs文件:

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

对读取的文件进行一下操作:

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

 

使用collect命令提交并执行job:

readmeFile.collect

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

 

查看spark-shell web控制台:

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

 

states:

spark1.2.0伪分布式搭建
            
    
    博客分类: 云计算 大数据  

端口整理:

master端口是7077

master webui是8080

spark shell webui端口是4040