Linux高负载如何排查_最佳实践总结助你快速突破【教学】

3次阅读

linux高负载需综合评估 load average 与 CPU 核心数比值,关注 wa 值区分 CPU 或 I / O 瓶颈,并分层定位、溯源代码 / 配置,最后验证优化效果并告警防复发。

Linux 高负载如何排查_最佳实践总结助你快速突破【教学】

Linux 高负载不是“CPU 跑满”那么简单,它反映的是系统整体资源调度压力。关键要看 load average 是否持续超过 CPU 核心数的 0.7 倍——比如 4 核机器,长期负载>2.8 就要警惕;若>6,通常已影响服务响应。

一、先看整体:快速判断负载性质

执行 uptimetop,重点读三行:

  • load average: 2.45, 1.98, 1.72 —— 对比 nproc 结果(如为 4),当前 1 分钟负载 2.45 ÷ 4 ≈ 0.61,尚可;但若升至 5.2,就明显过载
  • %Cpu(s): 12.3 us, 8.5 sy, 0.0 wa, 79.2 id —— us+sy 高 + wa≈0 → CPU 密集型;wa>10% → I/ O 等待严重
  • KiB Mem / KiB Swap —— swap used 持续增长,可能内存不足触发换页

二、分层定位:按资源类型逐项排查

CPU 型高负载
pidstat -u 1找 CPU 消耗 TOP 进程;对 java 类服务,再用 top -Hp $PID + jstack $PID | grep -A 20 '0x$(printf "%x" $TID)' 定位 热点 方法。
I/ O 型高负载
运行 iostat -x 1%util是否接近 100%,await是否飙升;再用 iotop -o 直击正在刷盘的进程。
内存型高负载
free -h 看 available 是否过低;dmesg | grep -i "killed process"确认是否 OOM Killer 已介入杀进程。

三、查进程根源:别只盯 PID,要追到代码 / 配置

找到高负载进程后,别急着 kill:

  • pwdx $PID 看工作目录,常能识别服务归属(如/opt/app/web
  • cat /proc/$PID/cmdline | tr '' ' ' 还原完整启动命令,确认是否带了异常参数
  • 检查日志路径(ls -l /proc/$PID/fd/ | grep log),翻最近错误或慢查询
  • 如果是定时任务,查 crontab -l/etc/cron.d/下是否有高频或未收敛脚本

四、验证与收尾:确认解决,防复发

优化后观察 5–15 分钟负载趋势:

  • watch -n 2 'uptime; echo "---"; mpstat -P ALL 1 1 | tail -4' 持续盯核心指标
  • 写个简单监控脚本,当 load / $(nproc) > 0.75 时发告警(可用 mailcurl调用企业 微信hook)
  • 记录本次根因:是某个 sql 没走索引?是日志轮转配置错误?还是上游突发流量?归档进团队知识库

基本上就这些。不复杂但容易忽略——多数高负载问题,其实卡在第一步“没看清 wa 值”或“误把 I / O 等待当 CPU 忙”。

站长
版权声明:本站原创文章,由 站长 2025-12-23发表,共计1115字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
1a44ec70fbfb7ca70432d56d3e5ef742
text=ZqhQzanResources