如何安装并使用pyspark

程序员文章站 2022-07-05 23:05:53

1. Anaconda的安装（1）我们要把本地Anaconda上传到Linux上，我们使用xshell中的文件传输，它会自己运行xftp,前提是我们要有xftp 上传后我们来运行这个...

1. Anaconda的安装

（1）我们要把本地Anaconda上传到Linux上，我们使用xshell中的文件传输，它会自己运行xftp,前提是我们要有xftp

如何安装并使用pyspark

上传后我们来运行这个文件，但我在运行过程中它提示我要安装一个bzip2的东西，我这里就先写一下吧

（2）安装bzip2

安装软件要切换到root用户下才能够使用，因为普通用户没这个权限

在root用户下输入 yum -y install bzip2

如何安装并使用pyspark

然后我们退出root用户，开始来安装Anaconda bashAnaconda3-5.0.1-Linux-x86_64.sh了，

如何安装并使用pyspark

在这里等待一段时间

如何安装并使用pyspark

看到这个就说明我们安装好了Anaconda3了

如何安装并使用pyspark

然后来更新下环境变量

如何安装并使用pyspark

接着我们来看下我们的python版本

如何安装并使用pyspark

看到python3版本就说明我们当前的python版本是python3，这个python在Anaconda3中

2. 安装spark

（1）使用xshell和xftp来把这个spark版本导入到hadoop用户下并解压到opt目录下

如何安装并使用pyspark

（2）配置spark的环境变量，这个环境配置和之前的jbk和hadoop配置一样，也是在spark目录下声明一个变量，将当前路径赋给该变量，这里我就不多说，可以看我之前写的如何配置hadoop环境的写法。它只有SPARK_HOME和PATH，将之前我配置的环境变量稍微改下就行了，这没有SPARK_CONF_DIR，这点要记住

使得hadoop用户下的.bashrc文件有spark的环境设置

如何安装并使用pyspark