slurm与pbs对比 1 2 3 4 5 6 7 8 9 10 11 12 [liupei@cg 2zk]$ cat sub.slurm source activate cnn ./run_bass.sh 13
slurm并行超算 查看模块
1 2 3 4 5 6 7 8 module load papp_cloud/2.6.18/2.6.18-cjj module load anaconda/3-Python3.6.5-fgl module avail 或 module avail anaconda sinfo
并行的slurm脚本
1 2 3 4 5 6 7 8 #!/bin/bash matlab -nodisplay < matlab_parfor.m
参考文献:CHICAGO
作业操作
说明
SLURM
PBS
提交作业脚本
sbatch run.slurm
qsub run.pbs
查看作业状态
squeue
qstat
追踪作业
scontrol show job 1234
取消作业
scancel 1234
qdel 1234
作业/节点详细信息查询-scontrol
查看分区信息scontrol show partition 节点名称
scontrol show partition debug
查看节点信息scontrol show node 节点名称
scontrol show node comput1
查看作业信息scontrol show job 作业ID
scontrol show job 15
删除作业scancel 作业ID
scancel 15
参考文献
pbs系统命令 北京大学的 HPC 教程,REF
pbs常用命令
1 2 3 4 5 6 7 8 9 10 qsub a.pbs qstat -an qstat -q qstat -Q qstat -Qf bdog pestat
查看当前所有任务的运行状态
1 2 3 4 5 qstat ch_cumtlp3@mgr:~> qstat Job ID Name User Time Use S Queue ---------- -------- --------- ------------------- 375817.mgr 600470 ch_cumtlp3 155:47:3 R l
作业 375817 在节点 mgr 上运行,作业名称 600470
pbs脚本配置 1 2 3 4 5 6 7 8 -N name:作业名,限15 个字符,首字符为字母,无空格 -o path:重定向标准输出到path -l resource_list:定义资源列表。 nodes=N:ppn=M:请求N个结点,每个结点M个处理器。 mem =N[K|M|G][B|W]:请求N大小的内存。 cput =N:请求N秒CPU时间;N也可以是hh:mm:ss形式。 -m mail_options:给用户发信;a(作业abort), b(作业开始运行发信);e(作业结束时发信)。若无此选项,默认为a。 -M user_list:定义发给哪些用户,有关此作业的mail
pbs作业例子
1 2 3 4 5 6 7 8 9 10 11 12 13 14 #!/bin/sh cd $PBS_O_WORKDIR /public3/home/ch_cumtlp3/installed/app/matlab/r2019b/bin/matlab -nodesktop -nosplash -nojvm \ -r "addpath('pcode');main('roi_pixel','rfrk',{'r',{[50,10,500]}}); exit;" /public3/apps/matlab-2016b/bin/matlab -nosplash -nodesktop -nojvm \ -r "addpath('../../code/'); pbs_mlc(1:4,0.7); exit;"
pbs运行脚本
1 2 3 4 5 6 7 8 qsub test.pbs:提交作业 pbsnodes -l free:以行的行式列出空闲的节点 qstat -q:查看所有队列状态 qstat:查看作业运行状态 状态说明: E:退出; Q:排队;H:挂起; R:运行; C:结束 qstat -an:列出队列中所有作业及其分配的节点 qstat -an 93:显示作业运行在哪些节点上 qdel 93:删除自己的作业