运维工程师的 AI 工具实践 2026-04-03·642 字·4 分钟 从写 Shell 脚本、解读错误信息到辅助故障排查,分享运维工程师真实使用 AI 工具的高效场景、无效场景和 Prompt 技巧,以及各工具的适合场景。
云原生转型实践:从传统运维到 K8s 的迁移经验 2025-08-14·653 字·4 分钟 这是一篇个人经验向的文章,记录了从传统虚拟机运维转向 Kubernetes 的全过程:为什么要迁移、迁移中踩了哪些坑、团队如何度过学习曲线,以及回头看哪些事情当时做对了。
SRE 核心理念:从运维思维到可靠性工程 2025-06-26·679 字·4 分钟 SRE 不是给运维换了个更好听的名字。它是一套用软件工程思维解决可靠性问题的方法论。本文从 Error Budget 切入,覆盖 SLI/SLO 制定、Toil 识别、On-call 设计、故障复盘文化,以及从传统运维转型 SRE 的实际路径。
故障排查方法论:从现象到根因 2024-12-17·622 字·3 分钟 好的排查不靠直觉,靠方法。这篇文章总结了我在多次生产故障中提炼出的排查框架:从时间线构建到假设优先级,再到认知陷阱的识别与规避。
SRE 实践心得:从运维到 SRE 的思维转变 2024-12-11·531 字·3 分钟 SRE 不是换了个头衔的运维,而是一套用软件工程思维解决可靠性问题的方法论。这篇文章记录了我在实践过程中最有感触的几个转变。