选择一个作业队列

摘要

大多数MSI系统使用作业队列计算被执行时能够有效地,公正地管理。作业队列是使用一组特定的计算硬件的自动等候名单。当计算作业提交到作业队列,他们在队列中排队等候,直到合适的资源可用。不同的工作队列具有不同的资源和局限性。提交作业时,这是非常重要的,选择具有资源和限制适用于特定的计算任务队列。

这份文件列出了选择工作队列时要考虑的因素。选择在什么地方工作时,这些因素都是非常重要的。这份文件是在所有微星系统,并与一起最好使用 队列 它概述了每个队列的资源限制页。

请注意,梅萨比的“最宽”队列需要使用特殊的权限。请提交您的代码在回顾: help@msi.umn.edu.

方针

有特定程序或自定义脚本选择工作队列时需要考虑几个重要因素。在大多数情况下,在作业提交和调度描述作业通过PBS脚本提交。 

整体系统

每个MSI系统包含作业队列管理整套的硬件具有不同的资源和政策上的限制。 MSI目前有三个主要系统:最新的超级计算机梅萨比,超级计算机Itasca的,和实验室计算集群。梅萨比是微星最新的超级计算机,具有最高性能的硬件,以及各种适用于许多不同的工作类型的队列。 微星做任何计算时应该梅萨比成为您的首选。 Itasca的是最适合多节点的工作,这将在1-2天内完成队列,一台超级计算机。实验室集群主要用于交互式软件本质上是图形和测试。该系统的选择很大程度上取决于该系统有适合您的软件/脚本队列。在梅萨比各种队列将适用于大多数用户,但 队列 页面应该进行检查。

作业walltime(walltime =)

工作walltime是从开始到工作的结束时间(就像使用在墙壁上的时钟衡量),不包括花费时间等待运行。这是相对于CPUTIME,它测量的累计时间所有内核花在岗位上工作。不同的作业队列有不同的walltime限制,并选择一个队列具有足够高的walltime,使你的工作来完成是非常重要的。超出请求walltime作业系统终止让路给其他工作。 walltime限制仅是最大值,并且可以随时要求更短的walltime,这会降低你的时间在队列中等待的金额,让您的工作开始。如果你不确定多少walltime你的工作将需要先从队列较短walltime限制,并仅在需要移动到其他人。 

工作节点和核心(节点= X:PPN = Y)

许多计算不得不使用多个核(PPN),或(较不频繁)多个节点,为了提高计算速度的能力。某些作业队列具有用于多个节点的最大或最小值和芯的作业可以使用。如果 节点共享 为队列可以请求比整个节点上存在更少的核(PPN)被使能。如果未启用节点共享,那么你必须要求等同于整个节点的多个资源。所有的Itasca的队列和梅萨比最广泛的大型队列, 不允许 节点共享.

工作存储器(MEM =)

选择一个队列时作业要求的内存是一个重要因素。可以请求的作业的存储器(RAM)量最大是通过在与该队列相关联的硬件的存储器的限制。梅萨比具有两个队列(ram256g和ram1t)具有高内存硬件,最大存储器硬件是可通过ram1t队列。艾塔斯卡还具有两个队列具有高内存硬件(sb128和sb256)。

用户和组的限制

高效地共享资源,许多队列具有上的作业的数量的限制或内核的特定用户或用户组可以同时使用。如果工作流需要很多工作来完成,它可以帮助选择队列,这将使许多作业同时运行。梅萨比允许更多的并行作业比Itasca的运行。

特殊的硬件

一些队列包含有特殊的硬件,GPU加速器和固态硬盘划伤是最常见的节点。如果计算需要使用特殊的硬件,然后选择与提供的正确的硬件队列是非常重要的。此外,这些队列可能需要额外的资源来指定(例如,GPU节点需要“:图形处理器= X”)。

队列拥堵

在特定的时间特定的队列可能会超载提交的作业。在这种情况下,它可以帮助将作业发送到队列,利用率较低 (节点状态)。发送作业利用率较低队列可以减少等待时间和提高吞吐量。必须小心,以确保计算将适合队列限制范围内。