unbuntu linux 下使用jupyter交互pyspark
程序员文章站
2024-03-18 17:02:10
...
linux 下使用jupyter交互pyspark
1. 准备(使用的是云平台的同学可以直接看第二步)
- 最重要的是一定安装好了spark
- 安装python环境或anaconda环境,它们都自带了jupyter notebook
下载ananconda安装包,https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/,下载完成后,在用户目录下执行
bash Aanaconda-4.x.x-Linux-x86_64.sh
一直按Enter,知道出现要输入 “yes” or “no”,输入yes,接着再继续Enter,还是yes,这会自动帮你添加环境变量,输入no,需要手动添加
- 添加环境变量方法,vi ~/.bashrc ,末尾添加
export PATH=/home/cen/anaconda3/bin:$PATH #(如果是使用的云平台则无须加此句)
2. jupyter与pyspark交互
启动之前需要添加3个全局环境变量,vi ~/.bashrc,末尾添加
export PYSPARK_PYTHON=python3 # 指定的是python3
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
source ~/.bashrc # 跟新
直接终端输入pyspark,出现一箩筐日志信息,接着浏览器弹出jupyter的界面,说明可以正常打开
aaa@qq.com:~$ pyspark
SPARK_MAJOR_VERSION is set to 2, using Spark2
[I 06:00:57.331 NotebookApp] JupyterLab alpha preview extension loaded from /anaconda/anaconda3/lib/python3.6/site-packages/jupyterlab
JupyterLab v0.27.0
Known labextensions:
[I 06:00:57.340 NotebookApp] Running the core application with no additional extensions or settings
[I 06:00:57.352 NotebookApp] Serving notebooks from local directory: /home/ud02
[I 06:00:57.352 NotebookApp] 0 active kernels
[I 06:00:57.352 NotebookApp] The Jupyter Notebook is running at: http://localhost:8888/?token=6b0fc3af1a6970a44702839d92922c2aba755b4cb4a6a67f
[I 06:00:57.352 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation).
[C 06:00:57.353 NotebookApp]
3. 尝试编写代码
左方是本地文件目录,点击右侧的New新建一个Python3文件
读取csv文件,首行SparkSession实例是Spark在整个集群的操作执行用户定义的方式, SparkSession与一个Spark应用程序之间存在一对一的对应关系。
(test是文件名,点击此处可重命名)
成功运行。
不是云平台上的spark程序也可能是是这样的
上一篇: 猜数字游戏,折半查找,密码登录