天河用户手册
现将天河2号的作业调度系统的简单使用方法记录于此:
MPI
天河2号默认使用mpich-3.2.1(使用icc-14.0.2 编译),是天河2号自主实现的mpi版本,具有较高的效率。
module 模块管理
1 | module avail # 查看可用的模块的列表。 |
作业调度
基础
1 | yhi # yhinfo命令的简写,用于查看节点状态 |
交互式提交作业
在shell窗口中执行yhrun
命令,主要命令格式如下:
1 | yhrun [options] program |
节点资源抢占命令 yhalloc
该命令支持用户在提交作业前,抢占所需计算资源
1 | yhalloc -N 1 -p bigdata |
通过yhq查看相应的jobID 为1051,节点为cn7314,然后ssh到对应节点进行操作
####取消自己的作业
使用yhcancel
命令
1 | yhcancel jobid |
批处理作业命令 yhbatch
在资源满足要求时,分配完计算节点之后,系统将在所分配的第一个计算节点(而不是登录节点)上加载执行用户的作业脚本。
1 | cat > mybash.sh |
计算开始后,工作目录中会生成以slurm开头的.out 文件为输出文件。
更多选项,用户可以通过yhbatch --help
命令查看。
如果不需要使用MPI的话,也可以不使用yhrun
单个节点上提交多个作业
因为天河2是独享作业,当一个节点上已经被分配出去之后,即便没有使用全部的核心,也无法继续提交作业。
所以,若想在一个节点上运行多个作业,必须同时提交上去,如下:
某用户有4个 a.out 需要运行,每个a.out最多只能高效运用6 个CPU 核,那么可以构建下面的任务脚本,在一个计算节点上同时运行多个作业:
1 | cat > job.sh |
然后通过yhbatch –N 1 job.sh
来一次提交计算任务,使所有小的计算任务都可以在一个节点同时进行计算。
如果不需要使用MPI的话,也可以不使用yhrun
。