<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>SRE 实战手册 on vishine</title><link>https://blog.vishine.top/series/sre-%E5%AE%9E%E6%88%98%E6%89%8B%E5%86%8C/</link><description>Recent content in SRE 实战手册 on vishine</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Tue, 07 Apr 2026 09:54:00 +0800</lastBuildDate><atom:link href="https://blog.vishine.top/series/sre-%E5%AE%9E%E6%88%98%E6%89%8B%E5%86%8C/index.xml" rel="self" type="application/rss+xml"/><item><title>故障排查实录：Terway CRD IPAM IP 泄漏导致 Pod 无法调度</title><link>https://blog.vishine.top/posts/%E6%95%85%E9%9A%9C%E6%8E%92%E6%9F%A5-terway-ip%E6%B3%84%E6%BC%8F/</link><pubDate>Tue, 07 Apr 2026 09:54:00 +0800</pubDate><guid>https://blog.vishine.top/posts/%E6%95%85%E9%9A%9C%E6%8E%92%E6%9F%A5-terway-ip%E6%B3%84%E6%BC%8F/</guid><description>一次真实的连锁故障：节点磁盘告警 → Pod 被驱逐 → Terway IPAM IP 未正常回收 → 节点 ENI IP 耗尽 → 新 Pod 无法调度。排查链路、根因分析与修复方案完整记录。</description></item><item><title>零信任网络改造：从公网暴露到 Headscale VPN</title><link>https://blog.vishine.top/posts/%E9%9B%B6%E4%BF%A1%E4%BB%BB%E7%BD%91%E7%BB%9C%E5%AE%9E%E8%B7%B5/</link><pubDate>Sat, 22 Nov 2025 13:37:00 +0800</pubDate><guid>https://blog.vishine.top/posts/%E9%9B%B6%E4%BF%A1%E4%BB%BB%E7%BD%91%E7%BB%9C%E5%AE%9E%E8%B7%B5/</guid><description>从发现公网暴露的安全隐患开始，到用 Headscale 自建零信任网络，替代跳板机体系，实现 kubectl 和运维系统的 VPN 接入。</description></item><item><title>如何设计一个好的告警体系</title><link>https://blog.vishine.top/posts/%E5%91%8A%E8%AD%A6%E4%BD%93%E7%B3%BB%E8%AE%BE%E8%AE%A1/</link><pubDate>Tue, 18 Nov 2025 13:37:00 +0800</pubDate><guid>https://blog.vishine.top/posts/%E5%91%8A%E8%AD%A6%E4%BD%93%E7%B3%BB%E8%AE%BE%E8%AE%A1/</guid><description>从真实的告警噪音泛滥经历出发，分享如何用 SLI/SLO 重新设计告警体系，包括告警分级、规则设计原则、路由策略和复盘机制。</description></item><item><title>TCP/IP 网络排障：抓包与连接问题诊断</title><link>https://blog.vishine.top/posts/tcp-network-troubleshooting/</link><pubDate>Tue, 21 Oct 2025 11:44:00 +0800</pubDate><guid>https://blog.vishine.top/posts/tcp-network-troubleshooting/</guid><description>网络问题排查的核心是「眼见为实」，没有抓包的排障都是猜测。本文系统梳理了 tcpdump 的实战用法、TCP 连接状态机分析、conntrack 追踪，以及 Kubernetes 中 NodePort/LoadBalancer 的典型网络故障定位方法。</description></item><item><title>平台工程实践：构建 Internal Developer Platform</title><link>https://blog.vishine.top/posts/platform-engineering-practice/</link><pubDate>Sun, 10 Aug 2025 09:44:00 +0800</pubDate><guid>https://blog.vishine.top/posts/platform-engineering-practice/</guid><description>平台工程不是给 DevOps 换个名字，而是把基础设施能力产品化——让开发者像用 SaaS 一样消费平台能力。这篇文章记录我们团队从 0 到 MVP 的六个月实践，包括 Backstage 落地、黄金路径设计、以及用 DORA 指标验证平台价值。</description></item><item><title>SLO/SLI/Error Budget 从理论到落地：SRE 可靠性工程实战</title><link>https://blog.vishine.top/posts/slo-sli-error-budget-practice/</link><pubDate>Fri, 01 Aug 2025 13:37:00 +0800</pubDate><guid>https://blog.vishine.top/posts/slo-sli-error-budget-practice/</guid><description>从 SLI 指标选取到 Error Budget 消耗速率告警，系统讲解 SRE 可靠性工程体系的落地实践，包括 Prometheus recording rules 计算 SLI、多窗口 burn rate 告警规则配置、SLO 违规复盘流程，以及与开发团队的协作策略。</description></item><item><title>SRE 核心理念：从运维思维到可靠性工程</title><link>https://blog.vishine.top/posts/sre-concepts-and-principles/</link><pubDate>Thu, 26 Jun 2025 11:44:00 +0800</pubDate><guid>https://blog.vishine.top/posts/sre-concepts-and-principles/</guid><description>SRE 不是给运维换了个更好听的名字。它是一套用软件工程思维解决可靠性问题的方法论。本文从 Error Budget 切入，覆盖 SLI/SLO 制定、Toil 识别、On-call 设计、故障复盘文化，以及从传统运维转型 SRE 的实际路径。</description></item><item><title>多集群 Kubernetes 运维：跨集群管理与统一可观测</title><link>https://blog.vishine.top/posts/multi-cluster-k8s-management/</link><pubDate>Wed, 21 May 2025 13:03:00 +0800</pubDate><guid>https://blog.vishine.top/posts/multi-cluster-k8s-management/</guid><description>从单集群到多集群，运维复杂度不是线性增加，而是指数级。这篇文章总结了我们管理跨地域、跨环境多套 K8s 集群的实际经验：如何用 ArgoCD ApplicationSet 统一部署、如何用 Thanos 聚合多集群指标、以及一次真实的跨集群迁移过程。</description></item><item><title>故障排查方法论：从现象到根因</title><link>https://blog.vishine.top/posts/%E6%95%85%E9%9A%9C%E6%8E%92%E6%9F%A5%E6%96%B9%E6%B3%95%E8%AE%BA/</link><pubDate>Tue, 17 Dec 2024 12:27:00 +0800</pubDate><guid>https://blog.vishine.top/posts/%E6%95%85%E9%9A%9C%E6%8E%92%E6%9F%A5%E6%96%B9%E6%B3%95%E8%AE%BA/</guid><description>好的排查不靠直觉，靠方法。这篇文章总结了我在多次生产故障中提炼出的排查框架：从时间线构建到假设优先级，再到认知陷阱的识别与规避。</description></item><item><title>SRE 实践心得：从运维到 SRE 的思维转变</title><link>https://blog.vishine.top/posts/sre%E5%AE%9E%E8%B7%B5%E5%BF%83%E5%BE%97/</link><pubDate>Wed, 11 Dec 2024 11:26:00 +0800</pubDate><guid>https://blog.vishine.top/posts/sre%E5%AE%9E%E8%B7%B5%E5%BF%83%E5%BE%97/</guid><description>SRE 不是换了个头衔的运维，而是一套用软件工程思维解决可靠性问题的方法论。这篇文章记录了我在实践过程中最有感触的几个转变。</description></item></channel></rss>