大家上午好,很高兴可以在 QCon 稳定性和可观测的场子来分享阿里云可观测 AIOps 的智能监控和诊断实践。
**我是来自阿里云云原生可观测团队的梵登。**目前主要在可观测团队负责可观测 AIOps 产品 Insights 的商业化建设、AIOps 解决方案的研发、大模型在可观测领域的探索等。很幸运的过去几年主导了 ARMS 在《Gartner APM 2022》和《信通院根因分析标准 2023》的测评项目,因此今天也会分享我在测评过程中的一些心得体验。
今天主要会从以下四个方面进行分享。
首先会简单介绍下在可观测体系下,AIOps 的核心能力项有哪些。
第二部分则是今天的重头戏,着重介绍我们在可观测场景定义的 AIOps 场景三板斧:检测、分析、收敛的实践。也会在这一部分分享一些我们对于工程架构、业务架构、算法模型的总结。
第三部分则是通过可观测 AIOps 具体的客户案例,看下企业的痛点和需求是什么。
最后,大家从本次会议的多个分享中也可以发现,很多是有关大模型及其应用。在这样的趋势下,可观测 AIOps 有哪些可以落地的场景和方向。
可观测体系下的 AlOps 介绍
Aliware
好的,在开始第一部分分享前,我们也来看下 AIOps 目前被企业挑战的三个灵魂拷问:
AIOps 是否是个摆设?
如何衡量 AIOps 的业务价值?
AIOps 如何落地,落地成本有多大?
我期待今天在分享过程中,能够让大家对灵魂拷问产生一些思考和找到一些答案。
可观测这几年随着云原生的概念普及,被越来越多的人所关注和提及。但其本身并非新概念。最早的可观测概念来源于:控制论书,里面强调:要控制一个系统的前提是对其具有可观测性。
**新一代的可观测产品我们认为,必须以应用为中心,向上关联业务成败与用户体验,向下覆盖基础设施与云服务监控。**其中用户体验重要性凸显,而对于业务的分析、用户行为的分析、以及出现故障下的根因分析能力,需要被重点关注和建设。如何实现这些能力项?我们的回答是 AIOps。
最早的 AIOps 概念来源于 Gartner 在 2016 年发布的报告中首先提出了基于大数据及算法(Algorithmic IT Operations)的 IT 运维概念。随着人工智能的快速兴起,Gartner 在 2017 年将 AIOps 概念从基于大数据及算法,扩充为基于人工智能(Artificial Intelligence for IT Operations,AIOps),认为通过大数据、机器学习及高级分析技术,提供具备主动性、人性化及动态可视化的能力,直接或间接地提升目前传统 IT 运维(监控、自动化、服务台)的能力。因此,在官方定义中,AIOps横跨了监控、ITSM、Ops 三大领域。
当前,AIOps 从 2016 年的兴起,到 2018/2019 年达到期望顶峰,到如今 AIOps 处于达克效应认知曲线中的绝望之谷阶段。
我个人的见解是: