标题:Slurm + OOD 控制节点迁移与主备切换(生产就绪手册)
在不打断用户工作的前提下,将现有控制节点(Primary)迁移到新硬件(未来的新主控),并保留旧节点作为 BackupController 或安全回退点。集群组件包含:slurmctld、slurmdbd、slurmrestd、Open OnDemand、各类 exporters、Prometheus、Grafana。
保持当前 epic-control-node 为 Primary,同时准备“新节点”为 BackupController。
使用 scontrol takeover 或 VIP/DNS 漂移让新节点接管。
slurm.conf、StateSaveLocation、数据库数据)。ControlMachine、BackupController、数据库主机名、Exporter 抓取目标)。1.统一 MUNGE key
/etc/munge/munge.key 到新控与所有节点400,属主:munge:munge;启动 munged2.共享状态与配置(推荐)
StateSaveLocation=/shared/slurm/state(slurm:slurm,700)