1. 当前整体设计概况

集群:epic 集群,一台 8×GPU 节点。

目标:硬性 6+2 GPU 配额,加一个“项目插队但不抢占”的 QOS 体系,并在 OOD IAPP 中提供隐蔽 QOS 入口。

最终策略:


2. Account 与 GPU 配额策略

2.1 当前主要 account 结构(简化)

epic 集群下主要 account:

你当前配置中,配额关键行是:

# hust:最多 6 张 GPU
sacctmgr -i modify account name=hust set GrpTRES=gres/gpu=6

# nue:最多 2 张 GPU
sacctmgr -i modify account name=nue  set GrpTRES=gres/gpu=2

注意点: