Gres 配额 | Notion

1. 当前整体设计概况

集群：epic 集群，一台 8×GPU 节点。

目标：硬性 6+2 GPU 配额，加一个“项目插队但不抢占”的 QOS 体系，并在 OOD IAPP 中提供隐蔽 QOS 入口。

最终策略：

资源配额全在 Slurm account 上实现：
- hust 账号：总共最多使用 6 张 GPU。
- nue 账号：总共最多使用 2 张 GPU。
QOS 仅用于控制排队顺序，不启用抢占：
- normal：默认 QOS。
- project：高优先级 QOS，用于“有项目需求时插队”，不杀正在运行的任务。
OOD：IAPP 中增加一个隐藏的 extra_sbatch 字段，当作后门参数；被授权的用户在这里填 -qos=project 使用高 QOS，其他人乱填自己承担后果。
日志：所有 Slurm 日志集中到 /var/log/slurm/，配 logrotate 防止日志撑爆。

2. Account 与 GPU 配额策略

2.1 当前主要 account 结构（简化）

epic 集群下主要 account：

hust：内部实验室，配额 6 张 GPU。
nue：外校实验室，配额 2 张 GPU。
cgcl、mllms、epic-3dv、epic-mllms、epic-rl：内部其他实验室或项目账号，目前不单独限制 GPU，总量受 hust / nue 所在账号约束。
maintainers：维护账号组。
root：Slurm 默认 root account。

你当前配置中，配额关键行是：

# hust：最多 6 张 GPU
sacctmgr -i modify account name=hust set GrpTRES=gres/gpu=6

# nue：最多 2 张 GPU
sacctmgr -i modify account name=nue  set GrpTRES=gres/gpu=2

注意点：