监控、容量、变更、预案、备份和恢复、⽂化和机制
探讨监控、容量、变更等技能在实践中的应⽤
AI 和可靠性结合能产⽣哪些⽕花,以及业界的优秀案例。⽐如通过异常检测,解决传统监控中难以发现的复杂问题,提⾼对系统异常的识别速度和准确性;利⽤ AI 进⾏时序数据分析和回归预测,可以更准确地预估系统负载,从⽽实现资源的优化分配和弹性扩容等。在故障的时候如何做更加智能的决策,给出合理的建议。
[PrometheusAlert](https://www.notion.so/PrometheusAlert-fea87ebe5d6d4bdcb558fc7334812bed)
VictoriaMetrics + 双可视化(Grafana/夜莺)