目标:在两台主机上完成最小可用集群——Slurm 调度 + Open OnDemand Web 门户 + Web Shell + Job Composer 提交作业。暂不启用容器、记账、权限、GPU/MIG。
拓扑:
- 控制节点(含 OOD):
epic-control-node,IP222.20.76.128(Ubuntu 24.04)- 计算节点:
server-4070ts-2,IP222.20.73.131(Ubuntu 22.04)- 集群名:
epic,维护账号:maintain
sudo 执行。vim(或你习惯的编辑器),我会给出完整文件内容以便直接粘贴。/etc/hosts 固化解析。/etc/hosts(两台机)控制节点:
sudo hostnamectl set-hostname epic-control-node
计算节点:
sudo hostnamectl set-hostname server-4070ts-2
/etc/hosts(两台机都要改)用 vim 打开 /etc/hosts,追加或修正为:
222.20.76.128 epic-control-node
222.20.73.131 server-4070ts-2
重新登录终端使提示符与主机名一致。
sudo adduser maintain # 密码按需设置(PoC 可设为 123456)
sudo usermod -aG sudo maintain