SRE 可靠性工程师路径 on vishine

SRE 可靠性工程师路径 on vishinehttps://blog.vishine.top/series/sre-%E5%8F%AF%E9%9D%A0%E6%80%A7%E5%B7%A5%E7%A8%8B%E5%B8%88%E8%B7%AF%E5%BE%84/Recent content in SRE 可靠性工程师路径 on vishineHugozh-CNThu, 25 Dec 2025 10:40:00 +0800基于 Error Budget 的 Prometheus 告警设计——燃烧率告警实战https://blog.vishine.top/posts/prometheus-error-budget-alerting/Thu, 25 Dec 2025 10:40:00 +0800https://blog.vishine.top/posts/prometheus-error-budget-alerting/错误率告警有一个致命问题：它不告诉你问题有多紧急。1% 的错误率，持续 2 小时和持续 10 分钟，对 SLO 的威胁完全不同。燃烧率告警从 Error Budget 消耗速度出发，让每一次告警都携带"紧急程度"信息。On-Call 工程实践：从告警响应到 Runbook 设计https://blog.vishine.top/posts/on-call-engineering-practice/Tue, 08 Jul 2025 11:26:00 +0800https://blog.vishine.top/posts/on-call-engineering-practice/好的 On-Call 体系不是让人 24 小时盯着屏幕，而是让每一次叫醒都有价值。从告警质量到 Runbook 设计，从轮班制度到数据驱动改进，这篇文章是我们团队在生产环境打磨 3 年的实践总结。SRE 故障管理全生命周期：从响应到复盘https://blog.vishine.top/posts/sre-incident-management/Sat, 05 Jul 2025 09:30:00 +0800https://blog.vishine.top/posts/sre-incident-management/故障处理不只是技术问题，更是协作和信息流问题。这篇文章完整梳理了从故障触发到 Post-Mortem 归档的每个环节，包括 IC 角色的意义、15 分钟定界框架，以及如何让 Post-Mortem 真正推动改进而不是走过场。