slurm_control_migration.md

标题:Slurm + OOD 控制节点迁移与主备切换(生产就绪手册)

目标

在不打断用户工作的前提下,将现有控制节点(Primary)迁移到新硬件(未来的新主控),并保留旧节点作为 BackupController 或安全回退点。集群组件包含:slurmctldslurmdbdslurmrestd、Open OnDemand、各类 exporters、Prometheus、Grafana。


总览与策略

保持当前 epic-control-node 为 Primary,同时准备“新节点”为 BackupController

使用 scontrol takeover 或 VIP/DNS 漂移让新节点接管。


先决条件与准备

1.统一 MUNGE key

2.共享状态与配置(推荐)