美团服务运维团队从事前防御、事中处理、事后运营多个阶段探索AIOps在事件管理领域的应用。本文介绍了在各个运维领域中AIOps的赋能场景,详细阐述了每一个运维场景的业务价值以及算法的具体的落地效果。

0 写在最前

文中所提及的事件并不仅限于故障,还包括运维工作中的告警、异常等。

"An incident is an unplanned interruption to an IT Service or a reduction in the Quality of an IT Service." Source: Incident Management -ITIL

1 背景

在《AIOps在美团的探索与实践——故障发现篇》一文中,我们探讨了AIOps在异常检测的实践。Horae(美团AIOps平台)在单时序异常检测方面已有较多积累,智能告警功能作为底层能力支撑了监控系统和异常检测场景。服务运维团队在此基础上开展AIOps在事件管理领域的相关工作,本文主要分享过去两年的探索与实践,希望能对大家有所帮助或启发。

事件管理的复杂性体现在两个方面:

  1. 数据繁多:
  2. 流程复杂:

图1 事件管理时间线

面对上述挑战,美团运维团队在过去几年建设了丰富的工具体系,基于专家经验、规则配置、流程管控等方式进行事件管理。本文聚焦的AIOps实践,是对上述工作的赋能,可拆解为四个模块: