故障排查实录:Terway CRD IPAM IP 泄漏导致 Pod 无法调度 2026-04-07·1002 字·5 分钟 一次真实的连锁故障:节点磁盘告警 → Pod 被驱逐 → Terway IPAM IP 未正常回收 → 节点 ENI IP 耗尽 → 新 Pod 无法调度。排查链路、根因分析与修复方案完整记录。
Kubernetes 故障排查 SOP 2025-12-09·1491 字·7 分钟 从现象到根因的 K8s 故障排查全流程:Pod 异常状态、Node NotReady、Service 不通、存储挂载失败等场景的系统化排查方法。
故障排查方法论:从现象到根因 2024-12-17·622 字·3 分钟 好的排查不靠直觉,靠方法。这篇文章总结了我在多次生产故障中提炼出的排查框架:从时间线构建到假设优先级,再到认知陷阱的识别与规避。