高性能平台使用指南

程序员文章站 2023-12-22 14:19:52

...

学校新建的高性能平台，我负责调试，整理这份指南，供师弟师妹们参考

**工作环境

使用XShell登录，校内IP 地址192.168.211.248，端口22，输入账号密码，登录成功界面如下所示。

高性能平台使用指南

然后**TensorFlow工作环境，Python版本3.6，TensorFlow版本1.10

cd  /share/software/anaconda3/bin
source activate tensorflow

高性能平台使用指南

数据管理

在校内网内登录http://192.168.211.247:8080，界面如下
高性能平台使用指南

下载并安装JHAppClient和JHFileclient两个软件，输入账号密码，登录后界面如下

高性能平台使用指南

打开“我的数据”，在这里可以上传需要处理的数据，例如新建一个test.py文件

高性能平台使用指南

点击上传按钮，会自动打开JHFileclient，选择test.py，上传成功如下

高性能平台使用指南

在平台上运行上传的test.py文件

高性能平台使用指南

可以看到，已经成功运行，并输入结果“Hello, TensorFlow!”

提交任务

想要提交自己的任务，必须以sh脚本的形式，标准格式如下所示，看不懂的话可先略过

#！/bin/bash

#BSUB -q gpu
#BSUB -J jobname
#BSUB -R "span[hosts=1]"
#BSUB -o output.%J.txt

module load gcc
module load cuda/9.0
python mytf.py >> mytf.log

编辑好脚本之后，进行任务提交

提交任务命令jsub < ./task.sh，任务被正确提交，ID是2288

高性能平台使用指南

使用jjobs -a查看任务状态，可以看到任务2288、2303、2305已经正常完成（done），编号2314和2315的任务在排队（pend）中

高性能平台使用指南

查看自己的所有运行任务情况jjobs，编号2314和2315的任务在待处理中

高性能平台使用指南

查看所有任务队列的状态jqueues，NJOBS是当前队列的作业数，PEND是排队中的任务数量，RUN是运行中的任务数量

高性能平台使用指南

应用案例1

测试test.sh脚本文件内容如下图，含义是运行gpu.py文件，将结果保存在mytf.py文件中

高性能平台使用指南

gpu.py内容如下，含义是简单输出一个张量加法运算

高性能平台使用指南

虽然脚本中已经写好加载模块gcc与cuda，但是我在测试中发现报错，因此建议提前在命令行中进行加载，如下所示

高性能平台使用指南

然后将sh任务提交，ID为2654

高性能平台使用指南

使用jjobs -a查看，可以看到任务2654已经处理完成

高性能平台使用指南

然后会生成两个文件，一个output.2654.txt，一个mytf.log

高性能平台使用指南

mytf.log内容如下，已经将结果进行了正确保存

高性能平台使用指南

高性能平台使用指南

**工作环境

数据管理

提交任务

应用案例1

微信开发（4）：微信第三方开放平台的搭建（java）