监控、容量、变更、预案、备份和恢复、⽂化和机制

探讨监控、容量、变更等技能在实践中的应⽤

AI 和可靠性结合能产⽣哪些⽕花,以及业界的优秀案例。⽐如通过异常检测,解决传统监控中难以发现的复杂问题,提⾼对系统异常的识别速度和准确性;利⽤ AI 进⾏时序数据分析和回归预测,可以更准确地预估系统负载,从⽽实现资源的优化分配和弹性扩容等。在故障的时候如何做更加智能的决策,给出合理的建议。

选型

SkyWalking

DeepFlow

SpringBoot监控

日志收集

ELK

Loki

iLogtail

全流程

FlashCat Nightingale

监控工具

监控告警面板

[PrometheusAlert](https://www.notion.so/PrometheusAlert-fea87ebe5d6d4bdcb558fc7334812bed)

Prometheus

VictoriaMetrics + 双可视化(Grafana/夜莺)

k8s监控

Prometheus k8s