高性能平台使用指南
学校新建的高性能平台,我负责调试,整理这份指南,供师弟师妹们参考
**工作环境
使用XShell登录,校内IP 地址192.168.211.248,端口22,输入账号密码,登录成功界面如下所示。
然后**TensorFlow工作环境,Python版本3.6,TensorFlow版本1.10
cd /share/software/anaconda3/bin
source activate tensorflow
数据管理
在校内网内登录http://192.168.211.247:8080,界面如下
下载并安装JHAppClient和JHFileclient两个软件,输入账号密码,登录后界面如下
打开“我的数据”,在这里可以上传需要处理的数据,例如新建一个test.py文件
点击上传按钮,会自动打开JHFileclient,选择test.py,上传成功如下
在平台上运行上传的test.py文件
可以看到,已经成功运行,并输入结果“Hello, TensorFlow!”
提交任务
想要提交自己的任务,必须以sh脚本的形式,标准格式如下所示,看不懂的话可先略过
#!/bin/bash
#BSUB -q gpu
#BSUB -J jobname
#BSUB -R "span[hosts=1]"
#BSUB -o output.%J.txt
module load gcc
module load cuda/9.0
python mytf.py >> mytf.log
编辑好脚本之后,进行任务提交
提交任务命令jsub < ./task.sh,任务被正确提交,ID是2288
使用jjobs -a查看任务状态,可以看到任务2288、2303、2305已经正常完成(done),编号2314和2315的任务在排队(pend)中
查看自己的所有运行任务情况jjobs,编号2314和2315的任务在待处理中
查看所有任务队列的状态jqueues,NJOBS是当前队列的作业数,PEND是排队中的任务数量,RUN是运行中的任务数量
应用案例1
测试test.sh脚本文件内容如下图,含义是运行gpu.py文件,将结果保存在mytf.py文件中
gpu.py内容如下,含义是简单输出一个张量加法运算
虽然脚本中已经写好加载模块gcc与cuda,但是我在测试中发现报错,因此建议提前在命令行中进行加载,如下所示
然后将sh任务提交,ID为2654
使用jjobs -a查看,可以看到任务2654已经处理完成
然后会生成两个文件,一个output.2654.txt,一个mytf.log
mytf.log内容如下,已经将结果进行了正确保存