中国信通院最新的调查报告显示,越来越多企业正在尝试通过混沌工程来提高系统稳定性。实验的不同阶段,大家面临着不同的问题,我们尝试从混沌工程推进的不同角度,为大家提供一些解题思路。
「TakinTalks论道系列」第4期,我们邀请了4位正在进行相关实践、研究的从业人员,从不同视角分享对混沌工程的看法,在他们的经验中了解混沌工程如何推进、如何落地、如何避坑……
温馨提醒:本文约5400字,预计花费9分钟阅读;
后台回复 “交流” 进入读者交流群。回复**“报告”**获取最新混沌工程研究报告。
TakinTalks稳定性社区
,
已结束直播,可观看回放
观看回放
阿里云云原生可观测实践一故障洞察提效 50 %,阿里可观测技术是如何从淘宝电商时代的APM发展演进到当下全栈可观测的?
视频号
**中国人寿-刘玢 :**我想分享一下中国人寿在混沌工程落地时遇到的关键点和避坑点。在测试和开发环境中,我们关注的是故障模拟能力。包括基础故障、中间件故障和应用故障等,因为应用故障很难复现,我们通过组合故障来模拟和复现故障。而在准生产和生产环境中,我们的关注点是在监控能力整合上,会更关注监控的及时性、全面性和安全管控等方面。中国人寿有很多监控系统,比如硬件监控、网络监控、数据库监控、中间件监控、日志监控、应用监控、链路监控等等,但把这些监控整合起来,对接到混沌平台仍然有难度。未来在生产环境中落地混沌工程,我们则会关注如何控制爆炸半径。这需要及时、全面的监控数据支持。虽然目前还没有上生产,但我们一直在努力探索如何控制爆炸半径。已经结合压测平台实现了一部分功能,但我们仍需不断努力。
**太保科技-刘强 :**目前太保科技和中国人寿在混沌工程应用方面还有阶段性的差距,目前我们还在测试环境探索阶段。在这个阶段,我认为混沌文化理念的认同感是非常重要的。在金融行业中,业务连续性的要求非常高,特别是在太平洋保险成立太保科技后,原有集团的用户都变成了我们的甲方,对可用性的要求更高,生产中断是不可接受的。因为在生产或者准生产环境注入故障,一旦控制不好,导致混沌实验造成了业务中断,这样对整个混沌工程的推广会是一个非常大的打击。所以第一个关键点就是,在企业里把混沌工程理念宣贯透彻。另外一个关键点就是混沌工程需要有及时中断的控制能力。混沌工程的目的是发现系统中的问题,不管是在哪个环境中实验,发现问题就说明系统的强壮性是不够的。为了避免发生系统崩溃、服务不可用等更大问题影响到整个生产环境,需要有强有力的中断控制能力,同时也可以在小范围内探索和解决潜在的问题。
**TakinTalks社区- 杨德华 :**今年年初,其实我深度思考了这个问题,“为什么混沌工程在有些企业能做得好,但有些企业落地效果很一般”?核心原因我总结了主要有3个方面——高层重视度、落地做法、目标设定。高层的重视度这里不赘述,稳定性工作本身就是一个跨多团队的事情,有了上级的支持,推进会更加顺利。其次是落地做法,虽然有些企业明确了要推进混沌工程,内部也宣导了要提升稳定性,但是实际执行中的做法区别还是比较大的。比如是不是有足够的经费、制度上有没有保障、有没有设定0-1-5-10这样的具体目标等等。再比如只是在应用内实验,还是网络设备、应用内、应用于中间件、应用与应用之间等等都涵盖,不同的做法会影响到最终的效果。最后特别提一下目标设定。我认为技术实现层面的事情其实并不难,最关键的是在确定要做混沌工程后,一定要设定一个0-1-5-10的目标,然后根据这样的目标去制定落地和保障方案以及拆解执行。要想把混沌工程推进下去,这个目标是非常重要的,不然对于项目的牵头人来说,混沌工程的价值会很难呈现和表述。所以我认为从全局的角度来看,这三个点是推进混沌工程中非常值得关注的点。