# 一分钟精华速览 #
每一位被故障折磨的稳定性负责人,都或多或少面临自证的困境:如何证明今年的稳定性工作是出色的?在无法完全避免故障发生的前提下,如何证明稳定性保障工作的价值?在团队和工具尚不完备时,如何高效率推进稳定性建设工作?
本期邀请货拉拉稳定性负责人,从全局视角分享如何在2年内从0-1建立稳定性度量体系建设的经验,系统介绍稳定性指标度量的价值、落地方法及成效。
作者介绍
货拉拉技术稳定性团队负责人——李全
TakinTalks社区特邀讲师。2021年加入货拉拉,现任货拉拉技术稳定性团队负责人,主导了公司技术稳定性体系从0到1的建设,也曾作为核心成员深度参与了阿里本地生活技术风险体系建设,在应急响应、变更管控、大促保障等稳定性领域有丰富经验。
温馨提醒:本文约5500字,预计花费11分钟阅读。
阿里云云原生可观测实践一故障洞察提效 50 %,阿里可观测技术是如何从淘宝电商时代的APM发展演进到当下全栈可观测的?
视频号
背景
“拉货就找货拉拉”,相信很多人都听过这句slogan,也有不少人使用过货拉拉的搬家服务。货拉拉除了有大家熟知的同城货运、搬家等业务,还有许多其他业务场景,比如跨城大车、企业服务、零担,甚至还有汽车租赁、加油充电等。截至2022年底,货拉拉的业务范围已覆盖了中国内地的360个城市,月活跃司机数量达到了68万,月活跃用户数超过950万。在这样的业务模式和业务规模下,技术稳定性的必要性和重要性是不言而喻的。
我在2021年加入货拉拉,当时技术稳定性刚刚处于起步阶段,很多工作待建。经过2年的努力,货拉拉技术稳定性体系完成了从0到1的建设,整体故障数降低了78%,同时SLA也从3个9提升到了4个9。今天的分享将结合过往在阿里本地生活技术风险体系下的经验沉淀,以及在货拉拉的实践成效,探讨技术稳定性的重要性和建设方法。
一、为什么一定要做稳定性指标度量?
1.1 目标:把笼统感受量化为绩效结果
我们需要建立一套能够描述稳定性水平的一系列指标,这些指标就称之为稳定性度量指标。
回顾生活中的一些经历,你会发现要清晰地描述一件事情是有一定难度的。举个例子,阿诺德·施瓦辛格大家应该都不陌生,要描述他的体型特征,可能很多人会用强壮、高大威猛这样比较模糊的词语来形容。但如果我们用指标度量的方式来描述,比如身高一米九,体重200斤,加上其他更详细的数据,比如体脂率不到10%等,这样的描述会更加具体,并可以将其与其他人进行对比,他的强壮和高大威猛就不言而喻了。
回到我们日常的稳定性工作中,比如去年你做了很多与稳定性相关的工作,过程也很顺利,积累了不少经验,整体结果也不错,公司里的技术人员肯定都会注意到这一点,他们会说“最近系统很稳啊!”。然而作为整体稳定性的负责人,或者某个稳定性领域的负责人,你不能直接向老板表达这种感受,而是需要将这种感受转化为绩效指标来进行表述。