凌晨四点被公司的监控告警叫醒了,告警的原因是生产环境跑批任务发生故障。即刻起床处理故障,但还是花了不少时间才解决。

这次故障是一次数据校验的跑批任务,校验前面跑批任务的数据是否正确。幸运的是,之前的核心任务已经完成,并没有影响到生产上的交易系统工作。

为什么我这里提到了交易工作呢?因为交易系统是整个系统业务流量的入口,如果交易系统发生故障,那会给公司带来直接的收入损失。

今天我们聊的话题是服务治理,服务治理最终达到的结果就是系统 「7 * 24」 小时不间断服务。

1. 监控告警

公司的这次生产告警很准确,找到系统的直接维护人,并且通知到是哪个跑批任务出了故障。这次告警是通过监控跑批任务中间件的任务执行结果来触发的。

一般情况下,告警有哪些类型呢?我们看下图:

1.1 批处理效率

多数情况下批处理任务是不阻碍业务入口的,所以不需要监控。

在阻碍业务入口的情况下,批处理任务必须要监控。我举两个业务场景:

这些场景下批处理效率是非常重要的一个监控指标,必须配置超时阈值并进行监控。