适用环境:epic 集群(Slurm + OOD),监控栈包含 Prometheus、Grafana、ondemand_exporter、node_exporter、DCGM exporter、nvitop-exporter(或其一)。当前已完成 所有 exporter 与官方/社区默认看板 的部署与校验;尚未启用自定义指标、录制规则(recording rules)、告警规则与“项目/用户维度”的用量报表。
grafana 默认 admin 123456
/etc/prometheus、/var/lib/prometheus。prometheus.yml:
scrape_interval(建议 15–30s)。scrape_configs。rule_files: /etc/prometheus/rules/*.yml。:9090/targets 验证 UP。