浪潮HPC集群作业调度系统使用,浪潮HPC集群作业调度系统使用

文件 1
培训
2 集群作业调度系统说明 建立一种作业提交的秩序
3 集群作业调度系统说明 软件介绍 浪潮TSJM作业调度软件是专为浪潮天梭系列HPC产品定制的一款作业调度软件,该软件通过浏览器(IE,firefox等) 结果命令 Administrator 进行操作,可以管理集群系统中 的软硬件资源和用户提交的作业 ,根据集群中的资源使用情况来 合理的调度用户提交的作业,从 而达到提高资源的利用率和作业的执行效率的作用。
TSJM底层是 PbsServer 用openpbs和maui作业调度管理软件。
Cluster 果结 令命 命令命令 结果 控制台 命结令 果 结果 PbsServerMauiScheduler Cluster
4 集群作业调度系统说明 OpenPBS介绍 PBS:PortableBatchSystem做为集群作业调度系统。
作业管理又称为工作负载管理,负载共享或负载管理。
它有效地管理系统中的各种资源,以及用户提交的作业。
目的是为了充分利用集群的软硬件资源及宝贵的CPU时间,有效地管理集群,合理地调度作业,使系统具有高的吞吐率和利用率。
目前天梭10000中使用的作业调度软件为:torque2.3.0 PBS历史: Inspurgroup 2017/04/11
5 集群作业调度系统说明 PBS基本组件 Inspurgroup 2017/04/11
6 集群作业调度系统说明
7 集群作业调度系统说明 PBS基本组件 mand:用于提交、监视、修改和删除作业。
Pbs_server:提供基本的批处理服务,例如接收/创建一个批处理作业,管理维护作业队列,管理输出结果等。
Pbs_mom:是一个守护进程,从pbsserver处接收作业后放入其执行队列中等待执行。
Scheduler:对用户提交的作业进行调度当前集群上用的调度器是maui Inspurgroup 2017/04/11
8 集群作业调度系统说明 Maui是Cluestering公司为了弥补torque自带的调度器pbs_shced的调度策略而开发了一款调度器软件。
Maui优先级系统 Inspurgroup 2017/04/11
9 集群作业调度系统使用方法 Torque应该如何使用?
熟悉Torque提供的几个命令编写作业提交脚本了解使用注意事项 PBS命令 qsub作业提交脚本qstat[参数]qdel作业号 Inspurgroup 2017/04/11 10 集群作业调度系统使用方法 PBS命令详解 提交作业的命令qsub作业提交脚本此命令执行后,会给出个作业号查询作业命令qstat[参数] Inspurgroup 2017/04/11 11 qstat命令详解 命令格式:qstat[-f][-a][-i][-n][-s][-R][-Q][-q][-B][-u] 参数说明: -fjobid列出指定作业的信息 -a 列出系统所有作业 -i列出不在运行的作业 -n 列出分配给此作业的结点 -s列出队列管理员与scheduler所提供的建议 -
R 列出磁盘预留信息 -
Q 操作符是destinationid,指明请求的是队列状态 -q 列出队列状态,并以alternative形式显示 -auuserid列出指定用户的所有作业 -
B 列出PBSServer信息 -r 列出所有正在运行的作业 -Qfqueue列出指定队列的信息 -u若操作符为作业号,则列出其状态。
若操作符为destinationid,则列出运行在其上的属于user_list中用户的作业状态。
Inspurgroup 2017/04/11 12 集群作业调度系统使用方法 pbsnodes查看节点状态 pbsnodes-lallcu01free(代表空闲状态,可接受作业)cu02job-exclusive(代表正在运行作业,不可接受作业)cu03offline(代表掉线状态,不可接受作业)cu01down(代表关机或者故障,作业不可接受作业)cu02down,job-exclusive(代表关机或者故障,且关闭前有作业在进行) 13 集群作业调度系统使用方法 PBS命令详解 作业删除命令qdel作业号其中作业号为qsub提交后系统所给出的一个号码 注意事项
1、非管理员只能删除自己提交的作业
2、在提交作业时估计自己需要运行的时间把其写进作业提交脚本里。

3、Maui里的策略一但制定了,对于作业的优先级,普通用户是不可见且不可调的。
Inspurgroup 2017/04/11 14 PBS脚本写作 脚本包含三部分: 资源声明:即规定所需要的节点数,核数,作业名,所要递交的队列 环境变量:即运行作业时,需要的各个节点的基本属性,比如某些软件的路径等 可执行程序:即需要通过MPI来运行的并行程序 如下例子说明 脚本声明部分: #PBS-Nvasp \\设定应用程序名字 #PBS-lnodes=2:ppn=12 \\启动2个节点每个节点12个核心 #PBS-lwalltime=999:00:00\\申请999小时的工作,不满足将无法继续进行计算 #PBS-qbatch \\指明作业队列 #PBS-
V #PBS-S/bin/bash \\让pbs脚本识别bash命令 环境变量部分: ###intel \\intel包环境变量生效 source/opt/poser_xe_2015/pilervars.shintel64 source/opt/intel/mkl/bin/intel64/mklvars_intel64.sh source/opt/intel/impi/5.0.2.044/bin64/mpivars.sh 可执行程序部分: cd$PBS_O_WORKDIR nprocs=`wc-l<$PBS_NODEFILE` exec=/opt/soft/vasp/vasp mpirun-genvI_MPI_DEVICErdma-machinefile$PBS_NODEFILE-np$nprocs$exec\\执行并行程序 date 15 资源声明部分写作 脚本声明部分: #!
/bin/bash #PBS-Nvasp \\设定应用程序名字 #PBS-lnodes=2:ppn=12 \\启动2个节点每个节点12个核心 #PBS-lwalltime=999:00:00\\申请999小时的工作,不满足将无法继续进行计算 #PBS-qbatch \\指定作业队列(即节点属性) #PBS-adate_time \\格式为[[[[CC]YY]MM]DD]hhmm[.SS]表示经过date_time时间后作业才可以运行 #PBS-epath \\将标准错误信息重定向到path #PBS-opath \\将标准输出信息重定向到path #PBS-lresource_list\\定义资源列表。
以下为几个常用的资源种类 cput=N请求N秒的CPU时间;N也可以是hh:mm:ss的形式。
-lcput=1:00:00 mem=N[K|M|G][B|W]请求N{kilo|mega|giga}{bytes|words}大小的内存。
-lmem=100mb nodes=N:ppn=M请求N个结点,每个结点M个处理器。
-lnodes=2:ppn=10 walltime表示任务最大时限。
-lwalltime=23:00:00 nodes=X:host分配X个主机名称中含有host的执行节点 -lnodes=12:cu01+12:cu12 ncpus=5请求的cpu数 -lncpus=
5 pcput任务的任何一个进程拥有的最大cpu执行时间 -lpcput=1:00:00 pmem任务的任何一个进程能够分配到的最大物理内存数 -lpmem=45mb pvmem任务的任何一个进程能够使用的虚拟内存的最大数-lpvmem=100mb vmem任务的所有并发进程能够使用的最大虚存数 -lvmem=100mb qsub-lselect=2:ncpus=3:mem=4gb:arch=linux,select=2表示需要2个这样的资源块,一个资源块包括3个cpu,4gb 的内存,系统结构要求是linux,即总共需要6个cpu,8gb的内存。
再如: -lselect=2:ncpus=1:mem=10GB+3:ncpus=2:mem=8GB:arch=solaris注意中间的+号,是两个资源块的分隔符 请求全任务(job-wide)资源格式为-lkeyword=value[,keyword=value...],如:qsub-lncpus=4,mem=123mb,arch=linux #PBS-ppriority:任务优先级,整数[-1024,1024]若无定义则为
0 16 PBS脚本实例(lammps应用为例) #PBS-Nlammps#PBS-lnodes=2:ppn=12#PBS-lwalltime=999:00:00#PBS-qbatch#PBS-V#PBS-S/bin/bash \\设定应用程序名字\\启动2个节点每个节点12个核心\\申请999小时的工作,不满足将无法继续进行计算 \\让pbs脚本识别bash命令,#!
/bin/bash ###intel \\intel包环境变量生效 source/opt/poser_xe_2015/pilervars.shintel64 source/opt/intel/mkl/bin/intel64/mklvars_intel64.sh source/opt/intel/impi/5.0.2.044/bin64/mpivars.sh cd$PBS_O_WORKDIR EXEC=/opt/soft/lammps/lmp_mkl\\指定lammps程序绝对路径 NP=`cat$PBS_NODEFILE|wc-l` NN=`cat$PBS_NODEFILE|sort|uniq|tee/tmp/nodes.$$|wc-l` cat$PBS_NODEFILE>/tmp/nodefile.$$ exportMPD_CON_EXT=${PBS_JOBID} exportI_MPI_JOB_CONTEXT=$PBS_JOBID mpdboot-f/tmp/nodefile.$$-n$NN \\启动集群 mpiexec-genvI_MPI_DEVICErdma-machinefile/tmp/nodefile.$$-n$NP Inspurgroup 2017/04/11

标签: #文件 #隐藏文件 #虚线 #本田 #怎么做 #文件 #尺寸 #文件