可观测性实战 on vishine

可观测性实战 on vishinehttps://blog.vishine.top/series/%E5%8F%AF%E8%A7%82%E6%B5%8B%E6%80%A7%E5%AE%9E%E6%88%98/Recent content in 可观测性实战 on vishineHugozh-CNTue, 23 Dec 2025 09:54:00 +0800告警带图实战：Grafana Render + 钉钉推送趋势图https://blog.vishine.top/posts/prometheus-alert-with-image/Tue, 23 Dec 2025 09:54:00 +0800https://blog.vishine.top/posts/prometheus-alert-with-image/收到告警只有一行数字，还要登录 Grafana 才能看趋势图——这是告警体验最大的痛点之一。本文介绍如何将 Grafana Image Renderer 与 Alertmanager Webhook 结合，实现告警消息自动附带趋势图的完整方案。Prometheus 进程监控：process-exporter 实战与告警配置https://blog.vishine.top/posts/prometheus-process-monitoring/Thu, 18 Dec 2025 11:20:00 +0800https://blog.vishine.top/posts/prometheus-process-monitoring/K8s 有完善的 Pod 监控体系，但裸机和 VM 上运行的进程如何监控？本文介绍 process-exporter 的部署与配置实践，覆盖进程组匹配、核心指标、告警规则设计及实际踩坑经验。VictoriaMetrics：比 Prometheus 更省资源的监控存储方案https://blog.vishine.top/posts/victoriametrics-prometheus/Mon, 28 Jul 2025 13:37:00 +0800https://blog.vishine.top/posts/victoriametrics-prometheus/Prometheus 撑不住了？本文对比 VictoriaMetrics 与 Prometheus 的核心差异，介绍 remote_write 无缝迁移方案，以及 VM 在资源占用、压缩率、查询性能上的实际提升。Thanos 实战：多 K8s 集群 Prometheus 统一监控与长期存储https://blog.vishine.top/posts/thanos-multi-cluster/Sat, 26 Jul 2025 11:37:00 +0800https://blog.vishine.top/posts/thanos-multi-cluster/记录我们将三套 EKS 集群的独立 Prometheus 迁移到 Thanos 统一监控体系的全过程，重点覆盖选型决策、生产配置和踩坑总结。OpenTelemetry 落地实践：统一采集 Traces、Metrics、Logshttps://blog.vishine.top/posts/opentelemetry-practice/Sun, 20 Jul 2025 11:41:00 +0800https://blog.vishine.top/posts/opentelemetry-practice/从为什么选 OpenTelemetry 讲起，给出 DaemonSet + Gateway 的 Collector 部署架构、关键配置和实际踩坑记录。可观测性三支柱实战：Metrics/Logs/Traces 联动https://blog.vishine.top/posts/observability-three-pillars/Mon, 14 Jul 2025 09:52:00 +0800https://blog.vishine.top/posts/observability-three-pillars/监控告诉你系统挂了，可观测性告诉你为什么挂。本文从三支柱的核心差异出发，讲透 Prometheus+Loki+Tempo 的联动排障流程，覆盖 OpenTelemetry 采集标准、Exemplar 原理与配置，以及可观测性建设的优先级策略。分布式链路追踪实战：Jaeger 与 Tempo 选型对比https://blog.vishine.top/posts/distributed-tracing-jaeger-tempo/Thu, 10 Jul 2025 10:00:00 +0800https://blog.vishine.top/posts/distributed-tracing-jaeger-tempo/系统梳理 Jaeger 与 Tempo 的架构差异与适用场景，结合 OpenTelemetry SDK 插桩、TraceQL 查询、采样策略和 Traces/Metrics/Logs 关联，给出可落地的生产实战方案。Alertmanager Webhook 开发：自定义告警处理与 API 集成https://blog.vishine.top/posts/alertmanager-webhook-api/Tue, 25 Mar 2025 09:52:00 +0800https://blog.vishine.top/posts/alertmanager-webhook-api/Alertmanager 内置的通知渠道不支持钉钉、飞书等国内工具，Webhook 是扩展告警通知的标准方式。本文用 Python Flask 实现完整的 Webhook 接收器，涵盖消息格式化、降噪去重、Alertmanager API 集成和 K8s 部署。Alertmanager 完全指南：路由、抑制、静默与多渠道通知https://blog.vishine.top/posts/alertmanager-routing-config/Sat, 22 Mar 2025 12:27:00 +0800https://blog.vishine.top/posts/alertmanager-routing-config/告警太多和告警太少一样有害。Alertmanager 的路由、抑制、分组机制是控制告警噪声的核心手段，本文从一个真实的多环境告警体系出发，讲清楚每个配置的意图和陷阱。Grafana API 自动化：用代码管理 Dashboard、数据源和告警https://blog.vishine.top/posts/grafana-api-automation/Tue, 18 Mar 2025 11:26:00 +0800https://blog.vishine.top/posts/grafana-api-automation/手动点 UI 管理 Grafana Dashboard 在多环境场景下是噩梦。用 API 把 Dashboard 代码化，实现版本控制和环境同步，才是正确姿势。本文提供完整的 Python 工具脚本和实战踩坑。Prometheus 服务发现深度解析：kubernetes_sd_configs 实战https://blog.vishine.top/posts/prometheus-service-discovery/Sat, 15 Mar 2025 09:30:00 +0800https://blog.vishine.top/posts/prometheus-service-discovery/在 K8s 环境里手动维护 Prometheus scrape targets 是不现实的，kubernetes_sd_configs 配合 relabel_configs 是解决这个问题的核心机制。本文从原理到实践，把这套体系讲透。可观测性建设：从 Prometheus 采集到 Grafana 告警联动https://blog.vishine.top/posts/prometheus-grafana/Fri, 06 Dec 2024 09:30:00 +0800https://blog.vishine.top/posts/prometheus-grafana/可观测性不是装几个监控工具，而是让系统在出问题时能快速定位根因。这篇文章从采集架构到 PromQL 到告警路由，覆盖我们在生产环境中实际遇到的 cardinality 爆炸、告警噪音等问题。