通过zap记录错误日志并在中间件中捕获panic;2. 使用OpenTelemetry注入trace_id实现链路追踪;3. 上报error_count至prometheus并用sentry收集异常;4. 实现/health接口与告警规则,结合Alertmanager通知。
在golang中实现微服务错误监控,关键是捕获、记录、上报并可视化运行时错误。一套完整的方案应包含错误捕获、日志记录、链路追踪和告警机制,确保问题可发现、可定位、可响应。
1. 统一错误处理与日志记录
使用结构化日志库(如 logrus 或 zap)记录错误信息,便于后续分析。
在每个服务入口(如http Handler或gRPC方法)中添加中间件,捕获未处理的panic和错误。
示例:使用 zap 记录错误
import "go.uber.org/zap" <p>func initLogger() *zap.Logger { logger, _ := zap.NewProduction() return logger }</p><p>func errorHandler(next http.HandlerFunc) http.HandlerFunc { return func(w http.ResponseWriter, r *http.Request) { defer func() { if err := recover(); err != nil { logger.Error("Panic recovered", zap.Any("error", err), zap.String("path", r.URL.Path)) http.Error(w, "Internal Server Error", 500) } }() next(w, r) } }
2. 集成链路追踪(Tracing)
使用 OpenTelemetry 或 Jaeger 跟踪请求链路,在错误发生时能快速定位源头。
立即学习“go语言免费学习笔记(深入)”;
为每个请求生成唯一 trace ID,并在日志中携带该ID,实现跨服务关联。
关键点:
- 在中间件中注入 trace context
- 将 trace_id 注入日志字段
- 通过 OTel Collector 上报到后端(如 Jaeger 或 Tempo)
3. 错误上报至监控系统
将严重错误实时上报到监控平台,如 Prometheus + Alertmanager 或 Sentry。
- 使用 Prometheus 暴露 error_count 指标,配合 grafana 展示趋势
- 对于可恢复错误,增加计数器;对于致命错误,触发告警
- 使用 Sentry SDK 直接上报异常堆栈(支持 Go)
Sentry 示例:
import "github.com/getsentry/sentry-go" <p>sentry.Init(sentry.ClientOptions{ Dsn: "your-dsn", })</p><p>// 在 panic 或错误时发送 sentry.CaptureException(err) sentry.Flush(2 * time.Second)
4. 健康检查与告警
实现 /health 接口供探针调用,结合 kubernetes Liveness Probe 及时重启异常实例。
配置告警规则,例如:
- 5xx 错误率超过 1% 持续 5 分钟
- 某服务平均延迟突增 3 倍
- 日志中出现关键字 “panic” 或 “timeout”