博客
SRE 实践心得:从运维到 SRE 的思维转变
SRE 不是换了个头衔的运维,而是一套用软件工程思维解决可靠性问题的方法论。这篇文章记录了我在实践过程中最有感触的几个转变。
SRE 不是换了个头衔的运维,而是一套用软件工程思维解决可靠性问题的方法论。这篇文章记录了我在实践过程中最有感触的几个转变。
用 Python 直接调 Prometheus HTTP API,实现服务存活巡检、可用率日报生成,最后接入钉钉每日自动推送集群健康摘要。
系统梳理 Python 运维自动化的工程化方法:boto3 操作 AWS 资源、Kubernetes Python SDK 使用、Click/Typer CLI 框架选型、数据库批量运维脚本、钉钉 Webhook 集成, …
Redis 运维看起来简单,但真到了生产出了问题才知道水有多深。本文整理了持久化、集群、监控、故障处理等核心运维主题。
从 mysqldump 到 XtraBackup,从全量备份到基于 binlog 的时间点恢复,这篇文章覆盖了 MySQL 备份恢复的完整知识体系,包括生产环境的踩坑和自动化验证方案。
Nginx 知道怎么装,但真的会用吗?本文从配置结构说起,完整覆盖反向代理、负载均衡策略、Let's Encrypt 证书、限流配置、日志分析和性能调优,附常见 502/SSL 故障排查。
Shell 脚本是 SRE 的第一生产力工具。本文从语法精要出发,覆盖批量操作、日志轮转、健康检查等常用运维模式,再到 getopts、trap 信号处理和脚本工程化思路,最后总结引号地狱、变量作用域等经典踩坑。
多阶段构建、.dockerignore 遗漏、非 root 运行、构建缓存优化,以及 entrypoint/cmd 信号处理这些在生产中实际踩过的问题,用具体的 Dockerfile 示例逐一拆解。