prometheus与grafana如何搭建容器化应用监控体系?1.使用docker compose部署prometheus,配置prometheus.yml文件指定抓取目标如prometheus自身、node_exporter等;2.部署grafana并配置prometheus为数据源,导入现成dashboard查看指标;3.在应用中使用prometheus_client暴露指标,配置prometheus抓取该端点;4.通过promql查询并在grafana创建可视化图表;5.结合各类exporter如node exporter、cadvisor等监控不同服务性能。
容器化应用的性能监控,用Prometheus + Grafana 几乎是标配。它们俩加起来,能让你对应用的运行状态了如指掌,排查问题也方便很多。
Prometheus负责收集各种指标数据,Grafana负责把这些数据可视化,让你一眼就能看出问题所在。
Prometheus + Grafana 如何搭建一套完整的容器化应用监控体系?
解决方案
-
Prometheus 的部署和配置:
首先,你需要一个运行 Prometheus 的地方。可以直接在服务器上部署,也可以用 docker 容器化部署。推荐后者,方便管理和扩展。
- Docker 部署: 直接用 Docker Compose 文件搞定。 创建一个 docker-compose.yml 文件,内容如下:
version: '3.7' services: prometheus: image: prom/prometheus:latest ports: - 9090:9090 volumes: - ./prometheus.yml:/etc/prometheus/prometheus.yml restart: always
- 配置 Prometheus: 创建一个 prometheus.yml 文件,告诉 Prometheus 去哪里抓取数据。
global: scrape_interval: 15s evaluation_interval: 15s scrape_configs: - job_name: 'prometheus' static_configs: - targets: ['localhost:9090'] - job_name: 'node_exporter' static_configs: - targets: ['node-exporter:9100']
这个配置里,Prometheus 会每 15 秒抓取一次自己的数据(localhost:9090),还会抓取 node_exporter 的数据(node-exporter:9100)。 node_exporter 用来收集服务器的硬件和操作系统指标。
- 启动 Prometheus: 在 docker-compose.yml 文件所在的目录运行 docker-compose up -d。
-
Grafana 的部署和配置:
Grafana 也是用 Docker 部署,和 Prometheus 类似。
- Docker 部署: 修改 docker-compose.yml 文件,添加 Grafana 的配置:
version: '3.7' services: prometheus: image: prom/prometheus:latest ports: - 9090:9090 volumes: - ./prometheus.yml:/etc/prometheus/prometheus.yml restart: always grafana: image: grafana/grafana:latest ports: - 3000:3000 depends_on: - prometheus restart: always
-
监控容器化应用:
要监控容器化应用,需要在应用中暴露 Prometheus 格式的指标。 有很多现成的库可以做到这一点,比如 python 的 prometheus_client。
-
暴露指标: 在你的应用中,用 prometheus_client 收集各种指标,比如 HTTP 请求数量、响应时间等等。 然后,暴露一个 HTTP 端点,让 Prometheus 可以抓取这些指标。
-
配置 Prometheus: 修改 prometheus.yml 文件,添加一个 job,指向你的应用的 HTTP 端点。
scrape_configs: - job_name: 'my_app' static_configs: - targets: ['my-app:8000']
-
重启 Prometheus: 让 Prometheus 重新加载配置。
-
在 Grafana 中可视化: 在 Grafana 中,创建新的 Dashboard,用 Prometheus 的查询语言 PromQL 查询你的应用的指标,然后把它们可视化出来。
-
Prometheus Exporter 有哪些?
Prometheus Exporter 相当于一个适配器,它负责把各种数据源的数据转换成 Prometheus 可以理解的格式。 种类很多,常见的有:
- Node Exporter: 监控服务器的硬件和操作系统指标,比如 CPU 使用率、内存占用、磁盘 I/O 等等。
- cadvisor: 监控 Docker 容器的资源使用情况,比如 CPU、内存、网络 I/O 等等。
- mysql Exporter: 监控 MySQL 数据库的性能指标,比如连接数、查询速度、慢查询等等。
- redis Exporter: 监控 Redis 数据库的性能指标,比如内存使用、键的数量、QPS 等等。
- HAProxy Exporter: 监控 HAProxy 负载均衡器的性能指标,比如连接数、请求数量、响应时间等等。
Prometheus 的指标类型有哪些?
Prometheus 的指标类型主要有四种:
- Counter: 计数器,只能增加,不能减少。 比如 HTTP 请求总数、错误数量等等。 重启后会清零。
- Gauge: 仪表盘,可以增加也可以减少。 比如 CPU 使用率、内存占用、温度等等。
- Histogram: 直方图,用于统计数据的分布情况。 比如 HTTP 请求的响应时间分布。
- Summary: 摘要,和直方图类似,但是它会直接计算分位数,比如 95% 响应时间。
Prometheus 的 PromQL 查询语言怎么用?
PromQL 是 Prometheus 的查询语言,功能很强大。
- 基本查询: 直接输入指标的名称,就可以查询该指标的当前值。 比如 node_cpu_seconds_total。
- 时间范围查询: 用 [] 指定时间范围。 比如 node_cpu_seconds_total[5m] 表示查询过去 5 分钟的 CPU 使用率。
- 聚合查询: 用 sum(), avg(), max(), min() 等函数进行聚合。 比如 sum(node_cpu_seconds_total) 表示计算所有 CPU 的总使用率。
- 过滤查询: 用 {} 指定过滤条件。 比如 node_cpu_seconds_total{cpu=”0″} 表示查询 CPU 0 的使用率。
- 速率查询: 用 rate() 函数计算指标的变化速率。 比如 rate(node_cpu_seconds_total[5m]) 表示计算过去 5 分钟的 CPU 使用率的变化速率。
Prometheus 和 Grafana 的最佳实践有哪些?
- 监控所有关键指标: CPU、内存、磁盘 I/O、网络 I/O、HTTP 请求数量、响应时间等等。
- 设置合理的告警: 当指标超过阈值时,及时发出告警。
- 使用现成的 Dashboard: Grafana 有很多现成的 Dashboard 可以直接使用,可以省去很多配置工作。
- 自定义 Dashboard: 根据自己的需求,自定义 Dashboard,把关键指标放在一起展示。
- 定期检查和优化: 定期检查 Prometheus 和 Grafana 的配置,优化查询语句,提高性能。
- 做好数据备份: 定期备份 Prometheus 的数据,防止数据丢失。