当前约定是:
/home:本地 ext4,空间小(~700G),只放代码、配置、少量必要文件。
每用户:软限 20G,硬限 30G,软限宽限期 3 天。超限会导致新任务被 Slurm 拒绝启动。
/workspace:本地 RAID,14T,用来放环境、镜像、缓存、训练中间结果等“热数据”。
/nas:NFS,大容量共享,用来放长期数据集、共享结果。
调度层做的事:
Prolog 调用脚本,启动 job 前检查该用户在 /home 的 quota。exit 1 → 该 job 启动失败。Reason=Prolog error。OOD 这边:
你准备用公告/横幅来告诉用户 “/home 超限会导致任务失败,请把环境和缓存挪到 /workspace”,后续可以按需要再做动态提示(超限才显示)。
/home 上启用 ext4 用户配额目标:只限制 /home,其余文件系统暂时不限。
操作集中在控制节点和 A100 节点的 /home 所在盘上(ext4):
apt update
apt install quota
/etc/fstab,给 /home 加 usrquota(可选附带安全选项):/dev/mapper/ubuntu--vg-home /home ext4 defaults,usrquota,nodev,nosuid 0 2
# 先别加 noexec,避免有人在 $HOME 里跑脚本全挂