<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>SRE 可靠性工程师路径 on vishine</title><link>https://blog.vishine.top/series/sre-%E5%8F%AF%E9%9D%A0%E6%80%A7%E5%B7%A5%E7%A8%8B%E5%B8%88%E8%B7%AF%E5%BE%84/</link><description>Recent content in SRE 可靠性工程师路径 on vishine</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Thu, 25 Dec 2025 10:40:00 +0800</lastBuildDate><atom:link href="https://blog.vishine.top/series/sre-%E5%8F%AF%E9%9D%A0%E6%80%A7%E5%B7%A5%E7%A8%8B%E5%B8%88%E8%B7%AF%E5%BE%84/index.xml" rel="self" type="application/rss+xml"/><item><title>基于 Error Budget 的 Prometheus 告警设计——燃烧率告警实战</title><link>https://blog.vishine.top/posts/prometheus-error-budget-alerting/</link><pubDate>Thu, 25 Dec 2025 10:40:00 +0800</pubDate><guid>https://blog.vishine.top/posts/prometheus-error-budget-alerting/</guid><description>错误率告警有一个致命问题：它不告诉你问题有多紧急。1% 的错误率，持续 2 小时和持续 10 分钟，对 SLO 的威胁完全不同。燃烧率告警从 Error Budget 消耗速度出发，让每一次告警都携带&amp;quot;紧急程度&amp;quot;信息。</description></item><item><title>On-Call 工程实践：从告警响应到 Runbook 设计</title><link>https://blog.vishine.top/posts/on-call-engineering-practice/</link><pubDate>Tue, 08 Jul 2025 11:26:00 +0800</pubDate><guid>https://blog.vishine.top/posts/on-call-engineering-practice/</guid><description>好的 On-Call 体系不是让人 24 小时盯着屏幕，而是让每一次叫醒都有价值。从告警质量到 Runbook 设计，从轮班制度到数据驱动改进，这篇文章是我们团队在生产环境打磨 3 年的实践总结。</description></item><item><title>SRE 故障管理全生命周期：从响应到复盘</title><link>https://blog.vishine.top/posts/sre-incident-management/</link><pubDate>Sat, 05 Jul 2025 09:30:00 +0800</pubDate><guid>https://blog.vishine.top/posts/sre-incident-management/</guid><description>故障处理不只是技术问题，更是协作和信息流问题。这篇文章完整梳理了从故障触发到 Post-Mortem 归档的每个环节，包括 IC 角色的意义、15 分钟定界框架，以及如何让 Post-Mortem 真正推动改进而不是走过场。</description></item></channel></rss>