HPC 监控与报表(Prometheus + Grafana + OOD + GPU)部署与经验总结

适用环境:epic 集群(Slurm + OOD),监控栈包含 Prometheus、Grafana、ondemand_exporter、node_exporter、DCGM exporter、nvitop-exporter(或其一)。当前已完成 所有 exporter 与官方/社区默认看板 的部署与校验;尚未启用自定义指标、录制规则(recording rules)、告警规则与“项目/用户维度”的用量报表。

grafana 默认 admin 123456


1. 组件与职责


2. 部署流程(已完成)

2.1 Prometheus

  1. 安装并创建目录 /etc/prometheus/var/lib/prometheus
  2. 配置 prometheus.yml
  3. systemd 注册与启动,访问 :9090/targets 验证 UP