欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

unbuntu linux 下使用jupyter交互pyspark

程序员文章站 2024-03-18 17:02:10
...

1. 准备(使用的是云平台的同学可以直接看第二步)

  • 最重要的是一定安装好了spark
  • 安装python环境或anaconda环境,它们都自带了jupyter notebook
    下载ananconda安装包,https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/,下载完成后,在用户目录下执行
bash Aanaconda-4.x.x-Linux-x86_64.sh

一直按Enter,知道出现要输入 “yes” or “no”,输入yes,接着再继续Enter,还是yes,这会自动帮你添加环境变量,输入no,需要手动添加

  • 添加环境变量方法,vi ~/.bashrc ,末尾添加
export PATH=/home/cen/anaconda3/bin:$PATH   #(如果是使用的云平台则无须加此句)

2. jupyter与pyspark交互

启动之前需要添加3个全局环境变量,vi ~/.bashrc,末尾添加

export PYSPARK_PYTHON=python3  # 指定的是python3
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
source ~/.bashrc  # 跟新

直接终端输入pyspark,出现一箩筐日志信息,接着浏览器弹出jupyter的界面,说明可以正常打开

aaa@qq.com:~$ pyspark 
SPARK_MAJOR_VERSION is set to 2, using Spark2
[I 06:00:57.331 NotebookApp] JupyterLab alpha preview extension loaded from /anaconda/anaconda3/lib/python3.6/site-packages/jupyterlab
JupyterLab v0.27.0
Known labextensions:
[I 06:00:57.340 NotebookApp] Running the core application with no additional extensions or settings
[I 06:00:57.352 NotebookApp] Serving notebooks from local directory: /home/ud02
[I 06:00:57.352 NotebookApp] 0 active kernels 
[I 06:00:57.352 NotebookApp] The Jupyter Notebook is running at: http://localhost:8888/?token=6b0fc3af1a6970a44702839d92922c2aba755b4cb4a6a67f
[I 06:00:57.352 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation).
[C 06:00:57.353 NotebookApp] 

3. 尝试编写代码

左方是本地文件目录,点击右侧的New新建一个Python3文件
unbuntu linux 下使用jupyter交互pyspark
读取csv文件,首行SparkSession实例是Spark在整个集群的操作执行用户定义的方式, SparkSession与一个Spark应用程序之间存在一对一的对应关系。
(test是文件名,点击此处可重命名)

unbuntu linux 下使用jupyter交互pyspark
成功运行。
不是云平台上的spark程序也可能是是这样的
unbuntu linux 下使用jupyter交互pyspark