Kubernetes 集群升级策略:零停机升级的完整实践指南
K8s 集群升级听起来简单,实际操作中坑很多:API 弃用导致的 Helm 失败、Admission Webhook 拦截升级流量、PDB 配置不当导致服务中断。这篇文章从真实的升级经验出发,给出一套可复用的零停机升级方 …
K8s 集群升级听起来简单,实际操作中坑很多:API 弃用导致的 Helm 失败、Admission Webhook 拦截升级流量、PDB 配置不当导致服务中断。这篇文章从真实的升级经验出发,给出一套可复用的零停机升级方 …
Gateway API 已经 GA,是时候认真考虑从 Ingress 迁移了。本文梳理 Gateway API 的设计理念、实际配置示例和迁移注意事项。
从存储基础概念到生产实战,覆盖 StorageClass 动态供给配置、AWS EBS 和 EFS CSI 驱动安装、StatefulSet 存储管理、PVC 在线扩容操作、跨 AZ 挂载失败排查,以及有状态服务数据迁移 …
ETCD 是 Kubernetes 的命脉,所有集群状态都存储在这里。本文从实际运维角度梳理部署、备份、恢复和配置动态更新的完整操作链路,包含多个踩坑经验。
记录我们团队从无到有建立 Kubernetes 日志采集系统的完整历程,最终选择 Fluent Bit + Fluentd + Elasticsearch 方案的技术依据,以及生产环境踩过的那些坑。
从真实安全事件出发,系统讲解 Kubernetes RBAC 最小权限设计、ClusterRole 与 Role 的适用场景、审计日志分析 RBAC 问题的方法,以及 NetworkPolicy 实现命名空间和 Pod …
写好 Kubernetes YAML 不只是语法问题,更多是工程经验的沉淀。本文梳理了生产环境中常见的 YAML 反模式,并给出各类资源的完整可用模板。
我在生产中见过太多因为资源配置不当导致的事故:不设 limits 的服务把节点内存吃光导致 OOM 驱逐、requests 设得过高导致 Pod 调度不上去、HPA 配置错误导致扩缩失灵。这篇文章把 K8s 资源管理体系 …