Epic 实验室调度系统(MVP)分步操作手册

目标:在两台主机上完成最小可用集群——Slurm 调度 + Open OnDemand Web 门户 + Web Shell + Job Composer 提交作业。暂不启用容器、记账、权限、GPU/MIG。

拓扑:


0. 准备与约定

  1. 所有命令均以 root 或 sudo 执行。
  2. 所有文件编辑请用 vim(或你习惯的编辑器),我会给出完整文件内容以便直接粘贴。
  3. 内网,主机互相仅通过 IP 可达——我们用 /etc/hosts 固化解析。

1. 主机名与 /etc/hosts(两台机)

1.1 设置主机名

1.2 /etc/hosts(两台机都要改)

用 vim 打开 /etc/hosts追加或修正为:

222.20.76.128  epic-control-node
222.20.73.131  server-4070ts-2

重新登录终端使提示符与主机名一致。


2. 创建维护账号并对齐 UID/GID(两台机)

2.1 创建用户

sudo adduser maintain     # 密码按需设置(PoC 可设为 123456)
sudo usermod -aG sudo maintain