slurm.conf 中 NodeName 一致(例如 server-a100-8g-1)ping / telnet <ctld> 6817chrony/systemd-timesyncd,保证与控制节点时钟一致在控制节点记录:
id -u munge; id -g munge
id -u slurm; id -g slurm
在所有节点按相同 UID/GID 创建/修改 munge、slurm
groupadd/groupmod、useradd/usermod 对齐
目录与权限:
/var/lib/munge、/etc/munge (0700, munge:munge)
/var/lib/slurm、/var/spool/slurm、/var/log/slurm (0755, slurm:slurm)
分发 munge.key,权限 0400,属主 munge:munge,启动 munge
nvidia-smi 可看到 8 张 A100 无报错