欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

高性能平台使用指南

程序员文章站 2023-12-22 14:19:52
...

学校新建的高性能平台,我负责调试,整理这份指南,供师弟师妹们参考

**工作环境

使用XShell登录,校内IP 地址192.168.211.248,端口22,输入账号密码,登录成功界面如下所示。

高性能平台使用指南

然后**TensorFlow工作环境,Python版本3.6,TensorFlow版本1.10

cd  /share/software/anaconda3/bin
source activate tensorflow

 高性能平台使用指南

数据管理

在校内网内登录http://192.168.211.247:8080,界面如下
高性能平台使用指南

下载并安装JHAppClient和JHFileclient两个软件,输入账号密码,登录后界面如下

高性能平台使用指南

打开“我的数据”,在这里可以上传需要处理的数据,例如新建一个test.py文件

高性能平台使用指南

点击上传按钮,会自动打开JHFileclient,选择test.py,上传成功如下

高性能平台使用指南

在平台上运行上传的test.py文件

高性能平台使用指南

可以看到,已经成功运行,并输入结果“Hello, TensorFlow!” 

提交任务

想要提交自己的任务,必须以sh脚本的形式,标准格式如下所示,看不懂的话可先略过

#!/bin/bash

#BSUB -q gpu
#BSUB -J jobname
#BSUB -R "span[hosts=1]"
#BSUB -o output.%J.txt

module load gcc
module load cuda/9.0
python mytf.py >> mytf.log

编辑好脚本之后,进行任务提交

提交任务命令jsub < ./task.sh,任务被正确提交,ID是2288

高性能平台使用指南

使用jjobs -a查看任务状态,可以看到任务2288、2303、2305已经正常完成(done),编号2314和2315的任务在排队(pend)中

高性能平台使用指南

查看自己的所有运行任务情况jjobs,编号2314和2315的任务在待处理中

高性能平台使用指南

查看所有任务队列的状态jqueues,NJOBS是当前队列的作业数,PEND是排队中的任务数量,RUN是运行中的任务数量

高性能平台使用指南

应用案例1

测试test.sh脚本文件内容如下图,含义是运行gpu.py文件,将结果保存在mytf.py文件中

高性能平台使用指南

gpu.py内容如下,含义是简单输出一个张量加法运算

高性能平台使用指南

虽然脚本中已经写好加载模块gcc与cuda,但是我在测试中发现报错,因此建议提前在命令行中进行加载,如下所示

高性能平台使用指南

然后将sh任务提交,ID为2654

高性能平台使用指南

使用jjobs -a查看,可以看到任务2654已经处理完成

高性能平台使用指南

然后会生成两个文件,一个output.2654.txt,一个mytf.log

高性能平台使用指南

mytf.log内容如下,已经将结果进行了正确保存

高性能平台使用指南

 

上一篇:

下一篇: