跳过正文
Posts

博客文章

共 220 篇 · 记录真实实践,不水文章

2026

性能优化

USE Method:系统性能分析方法论

随机尝试是性能排查的大敌。USE Method 用一个三维框架(使用率/饱和度/错误)把所有系统资源纳入统一分析体系,本文从原理到实战全面解析这套方法论, …

· 7 分钟 · 1442 字
Kubernetes

Kubernetes cgroup v2 迁移实践

K8s 1.25+ 默认启用 cgroup v2,MemoryQoS 和 PSI 等新特性只在 v2 支持。本文给出完整的节点迁移操作流程和常见问题解决方案。

· 8 分钟 · 1682 字
博客

运维工程师的 AI 工具实践

从写 Shell 脚本、解读错误信息到辅助故障排查,分享运维工程师真实使用 AI 工具的高效场景、无效场景和 Prompt 技巧,以及各工具的适合场景。

· 4 分钟 · 642 字

2025

Kubernetes

OPA/Kyverno:K8s 准入控制策略实战

没有准入控制的 K8s 集群就像一个没有门卫的机房——任何人都能随意进出。本文记录了我在多个生产集群部署 Kyverno 策略的实战经验,涵盖资源限制强制、镜像 …

· 5 分钟 · 895 字
AWS

AWS EKS 生产实践:网络、安全与多集群管理

管理多套 EKS 集群两年下来,踩了不少坑。本文系统整理网络选型、IAM 权限、节点管理、集群升级、安全加固和成本控制这六个核心话题,每个话题都有具体配置示例和 …

· 4 分钟 · 792 字

2024

博客

故障排查方法论:从现象到根因

好的排查不靠直觉,靠方法。这篇文章总结了我在多次生产故障中提炼出的排查框架:从时间线构建到假设优先级,再到认知陷阱的识别与规避。

· 3 分钟 · 622 字