集群:epic 集群,一台 8×GPU 节点。
目标:硬性 6+2 GPU 配额,加一个“项目插队但不抢占”的 QOS 体系,并在 OOD IAPP 中提供隐蔽 QOS 入口。
最终策略:
hust 账号:总共最多使用 6 张 GPU。nue 账号:总共最多使用 2 张 GPU。normal:默认 QOS。project:高优先级 QOS,用于“有项目需求时插队”,不杀正在运行的任务。extra_sbatch 字段,当作后门参数;被授权的用户在这里填 -qos=project 使用高 QOS,其他人乱填自己承担后果。/var/log/slurm/,配 logrotate 防止日志撑爆。epic 集群下主要 account:
hust:内部实验室,配额 6 张 GPU。nue:外校实验室,配额 2 张 GPU。cgcl、mllms、epic-3dv、epic-mllms、epic-rl:内部其他实验室或项目账号,目前不单独限制 GPU,总量受 hust / nue 所在账号约束。maintainers:维护账号组。root:Slurm 默认 root account。你当前配置中,配额关键行是:
# hust:最多 6 张 GPU
sacctmgr -i modify account name=hust set GrpTRES=gres/gpu=6
# nue:最多 2 张 GPU
sacctmgr -i modify account name=nue set GrpTRES=gres/gpu=2
注意点: