欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  科技

如何安装并使用pyspark

程序员文章站 2022-07-05 23:05:53
1. Anaconda的安装 (1)我们要把本地Anaconda上传到Linux上,我们使用xshell中的文件传输,它会自己运行xftp,前提是我们要有xftp 上传后我们来运行这个...

1. Anaconda的安装

(1)我们要把本地Anaconda上传到Linux上,我们使用xshell中的文件传输,它会自己运行xftp,前提是我们要有xftp

如何安装并使用pyspark

上传后我们来运行这个文件,但我在运行过程中它提示我要安装一个bzip2的东西,我这里就先写一下吧

(2)安装bzip2

安装软件要切换到root用户下才能够使用,因为普通用户没这个权限

在root用户下输入 yum -y install bzip2

如何安装并使用pyspark

然后我们退出root用户,开始来安装Anaconda bashAnaconda3-5.0.1-Linux-x86_64.sh了,

如何安装并使用pyspark

如何安装并使用pyspark

如何安装并使用pyspark

如何安装并使用pyspark

在这里等待一段时间

如何安装并使用pyspark

看到这个就说明我们安装好了Anaconda3了

如何安装并使用pyspark

然后来更新下环境变量

如何安装并使用pyspark

接着我们来看下我们的python版本

 

如何安装并使用pyspark

看到python3版本就说明我们当前的python版本是python3,这个python在Anaconda3中

2. 安装spark

(1) 使用xshell和xftp来把这个spark版本导入到hadoop用户下并解压到opt目录下

如何安装并使用pyspark

(2)配置spark的环境变量,这个环境配置和之前的jbk和hadoop配置一样,也是在spark目录下声明一个变量,将当前路径赋给该变量,这里我就不多说,可以看我之前写的如何配置hadoop环境的写法。它只有SPARK_HOME和PATH,将之前我配置的环境变量稍微改下就行了,这没有SPARK_CONF_DIR,这点要记住

使得hadoop用户下的.bashrc文件有spark的环境设置

如何安装并使用pyspark

看到这个后,更新下环境变量,source ~/.bashrc

(2)然后我们输入spark-shell

如何安装并使用pyspark

看到上面这个就说明我们的spark能运行了

3. 使用notebook

(1)在使用之前要先开启hadoop

使用 start-dfs.sh 回车

(2)输入 jupyter-notebook -- ippython2

这里这个python是我们的的主机名,如果主机名错误的话它也不会启动,我们来输入这个命令,就会看到以下内容:

如何安装并使用pyspark

把这个链接赋值下拿到浏览器中去访问,我们就会看到

如何安装并使用pyspark

点击我们箭头指向的地方的文件,就会看到以下东西,当然这个代码是我自己打的,我们要把这段代码复制上去,然后运行一下

就会看到如箭头所指的地方出来这东西,说明我们能在这使用spark了,记住,我们现在敲的代码是python代码,具有python风格,但其中也有spark的内容在其中

如何安装并使用pyspark