SRE 实战手册 on vishine

SRE 实战手册 on vishinehttps://blog.vishine.top/series/sre-%E5%AE%9E%E6%88%98%E6%89%8B%E5%86%8C/Recent content in SRE 实战手册 on vishineHugozh-CNTue, 07 Apr 2026 09:54:00 +0800故障排查实录：Terway CRD IPAM IP 泄漏导致 Pod 无法调度https://blog.vishine.top/posts/%E6%95%85%E9%9A%9C%E6%8E%92%E6%9F%A5-terway-ip%E6%B3%84%E6%BC%8F/Tue, 07 Apr 2026 09:54:00 +0800https://blog.vishine.top/posts/%E6%95%85%E9%9A%9C%E6%8E%92%E6%9F%A5-terway-ip%E6%B3%84%E6%BC%8F/一次真实的连锁故障：节点磁盘告警 → Pod 被驱逐 → Terway IPAM IP 未正常回收 → 节点 ENI IP 耗尽 → 新 Pod 无法调度。排查链路、根因分析与修复方案完整记录。零信任网络改造：从公网暴露到 Headscale VPNhttps://blog.vishine.top/posts/%E9%9B%B6%E4%BF%A1%E4%BB%BB%E7%BD%91%E7%BB%9C%E5%AE%9E%E8%B7%B5/Sat, 22 Nov 2025 13:37:00 +0800https://blog.vishine.top/posts/%E9%9B%B6%E4%BF%A1%E4%BB%BB%E7%BD%91%E7%BB%9C%E5%AE%9E%E8%B7%B5/从发现公网暴露的安全隐患开始，到用 Headscale 自建零信任网络，替代跳板机体系，实现 kubectl 和运维系统的 VPN 接入。如何设计一个好的告警体系https://blog.vishine.top/posts/%E5%91%8A%E8%AD%A6%E4%BD%93%E7%B3%BB%E8%AE%BE%E8%AE%A1/Tue, 18 Nov 2025 13:37:00 +0800https://blog.vishine.top/posts/%E5%91%8A%E8%AD%A6%E4%BD%93%E7%B3%BB%E8%AE%BE%E8%AE%A1/从真实的告警噪音泛滥经历出发，分享如何用 SLI/SLO 重新设计告警体系，包括告警分级、规则设计原则、路由策略和复盘机制。TCP/IP 网络排障：抓包与连接问题诊断https://blog.vishine.top/posts/tcp-network-troubleshooting/Tue, 21 Oct 2025 11:44:00 +0800https://blog.vishine.top/posts/tcp-network-troubleshooting/网络问题排查的核心是「眼见为实」，没有抓包的排障都是猜测。本文系统梳理了 tcpdump 的实战用法、TCP 连接状态机分析、conntrack 追踪，以及 Kubernetes 中 NodePort/LoadBalancer 的典型网络故障定位方法。平台工程实践：构建 Internal Developer Platformhttps://blog.vishine.top/posts/platform-engineering-practice/Sun, 10 Aug 2025 09:44:00 +0800https://blog.vishine.top/posts/platform-engineering-practice/平台工程不是给 DevOps 换个名字，而是把基础设施能力产品化——让开发者像用 SaaS 一样消费平台能力。这篇文章记录我们团队从 0 到 MVP 的六个月实践，包括 Backstage 落地、黄金路径设计、以及用 DORA 指标验证平台价值。SLO/SLI/Error Budget 从理论到落地：SRE 可靠性工程实战https://blog.vishine.top/posts/slo-sli-error-budget-practice/Fri, 01 Aug 2025 13:37:00 +0800https://blog.vishine.top/posts/slo-sli-error-budget-practice/从 SLI 指标选取到 Error Budget 消耗速率告警，系统讲解 SRE 可靠性工程体系的落地实践，包括 Prometheus recording rules 计算 SLI、多窗口 burn rate 告警规则配置、SLO 违规复盘流程，以及与开发团队的协作策略。SRE 核心理念：从运维思维到可靠性工程https://blog.vishine.top/posts/sre-concepts-and-principles/Thu, 26 Jun 2025 11:44:00 +0800https://blog.vishine.top/posts/sre-concepts-and-principles/SRE 不是给运维换了个更好听的名字。它是一套用软件工程思维解决可靠性问题的方法论。本文从 Error Budget 切入，覆盖 SLI/SLO 制定、Toil 识别、On-call 设计、故障复盘文化，以及从传统运维转型 SRE 的实际路径。多集群 Kubernetes 运维：跨集群管理与统一可观测https://blog.vishine.top/posts/multi-cluster-k8s-management/Wed, 21 May 2025 13:03:00 +0800https://blog.vishine.top/posts/multi-cluster-k8s-management/从单集群到多集群，运维复杂度不是线性增加，而是指数级。这篇文章总结了我们管理跨地域、跨环境多套 K8s 集群的实际经验：如何用 ArgoCD ApplicationSet 统一部署、如何用 Thanos 聚合多集群指标、以及一次真实的跨集群迁移过程。故障排查方法论：从现象到根因https://blog.vishine.top/posts/%E6%95%85%E9%9A%9C%E6%8E%92%E6%9F%A5%E6%96%B9%E6%B3%95%E8%AE%BA/Tue, 17 Dec 2024 12:27:00 +0800https://blog.vishine.top/posts/%E6%95%85%E9%9A%9C%E6%8E%92%E6%9F%A5%E6%96%B9%E6%B3%95%E8%AE%BA/好的排查不靠直觉，靠方法。这篇文章总结了我在多次生产故障中提炼出的排查框架：从时间线构建到假设优先级，再到认知陷阱的识别与规避。SRE 实践心得：从运维到 SRE 的思维转变https://blog.vishine.top/posts/sre%E5%AE%9E%E8%B7%B5%E5%BF%83%E5%BE%97/Wed, 11 Dec 2024 11:26:00 +0800https://blog.vishine.top/posts/sre%E5%AE%9E%E8%B7%B5%E5%BF%83%E5%BE%97/SRE 不是换了个头衔的运维，而是一套用软件工程思维解决可靠性问题的方法论。这篇文章记录了我在实践过程中最有感触的几个转变。