监控告警
基于 Error Budget 的 Prometheus 告警设计——燃烧率告警实战
错误率告警有一个致命问题:它不告诉你问题有多紧急。1% 的错误率,持续 2 小时和持续 10 分钟,对 SLO 的威胁完全不同。燃烧率告警从 Error Budget 消耗速度出发,让每一次告警都携带"紧急程度 …
错误率告警有一个致命问题:它不告诉你问题有多紧急。1% 的错误率,持续 2 小时和持续 10 分钟,对 SLO 的威胁完全不同。燃烧率告警从 Error Budget 消耗速度出发,让每一次告警都携带"紧急程度 …
好的 On-Call 体系不是让人 24 小时盯着屏幕,而是让每一次叫醒都有价值。从告警质量到 Runbook 设计,从轮班制度到数据驱动改进,这篇文章是我们团队在生产环境打磨 3 年的实践总结。
故障处理不只是技术问题,更是协作和信息流问题。这篇文章完整梳理了从故障触发到 Post-Mortem 归档的每个环节,包括 IC 角色的意义、15 分钟定界框架,以及如何让 Post-Mortem 真正推动改进而不是走过 …