Linux高负载如何排查_最佳实践总结助你快速突破【指导】

3次阅读

linux高负载需按“负载值→资源类型→进程→线程→调用链”逐层排查:先比对负载与 CPU 核心数(阈值 = 核数×0.7),再用 mpstat/iostat/pidstat 区分 CPU 型或 I / O 型,接着用 strace/jstack 定位线程级瓶颈,最后检查内存与 swap 影响。

Linux 高负载如何排查_最佳实践总结助你快速突破【指导】

Linux 高负载不是“CPU 用满了”那么简单——它反映的是系统整体任务队列的积压程度。真正关键的是:先看负载值是否越界,再分清是 CPU 忙、IO 堵、内存缺,还是进程卡在系统调用里。定位准了,修复才快。

一、确认负载是否真超标

别只盯着 uptimetop里那个数字。先查 CPU 核心数:

  • grep -c 'processor' /proc/cpuinfonproc
  • 合理阈值 = 核心数 × 0.7(比如 8 核,负载持续>5.6 就要查)
  • 重点看三个值:load average: 12.4, 9.8, 7.2 —— 若 1 分钟值远高于 15 分钟值,说明突发尖峰;若三者都高且平稳,大概率是长期瓶颈

二、区分负载类型:CPU 型 vs I/ O 型

高负载但 CPU 使用率低?大概率是 I / O 卡住了。反过来,CPU 使用率飙高 + 负载高,才是计算密集问题。

  • CPU 型:用 mpstat -P ALL 1 3 看各核 %idle 是否接近 0;再用 pidstat -u 1 找出 %CPU 最高的进程
  • I/ O 型:用 iostat -x 1 3 看 %util 是否持续>90%,同时 %wa(iowait)是否>10%;再用 iotop -o 找实际在刷盘的进程
  • 混合型:pidstat -u 1 -d 1 可同时输出 CPU 和 IO 指标,一眼比对

三、快速定位“元凶”进程

找到高消耗进程只是第一步,得往下挖一层——是哪个线程、哪段代码、甚至哪个系统调用在拖慢它。

  • java 进程:用 top -Hp [PID] 找到高 CPU 线程 TID,转成十六进制(printf "%xn" [TID]),再用 jstack [PID] | grep -A10 [hex] 定位
  • 对任意进程:用 strace -p [PID] -tt -T -f -o /tmp/trace.log 捕获系统调用耗时,重点关注反复出现的 readwritefutexepoll_wait 等长耗时调用
  • 如果进程卡在 D 状态(不可中断睡眠),基本可断定是磁盘或驱动层问题,ls /proc/[PID]/stack 能看到内核

四、别忽略内存与交换的影响

表面看是 CPU 或 IO 问题,背后常是内存不足触发了 OOM Killer 或频繁 swap,导致大量进程排队等待页回收。

  • free -h 看 available 是否严重偏低;用 cat /proc/meminfo | grep -E "^(MemAvailable|SwapTotal|SwapFree|PageIn|PageOut)" 查交换活动
  • 运行 dmesg -T | grep -i "killed process" 确认是否有进程被 OOM Killer 干掉
  • 观察vmstat 1 5 中的si/so(swap in/out)和pgmajfault(主缺页次数),若数值持续非零,说明内存压力真实存在

基本上就这些。排查不是靠猜,而是按“负载值→资源类型→进程→线程→调用链”逐层收窄。工具 不用全记,但 mpstatiostatpidstatstrace 这四个组合,覆盖 90% 的高负载场景。

站长
版权声明:本站原创文章,由 站长 2025-12-19发表,共计1317字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
1a44ec70fbfb7ca70432d56d3e5ef742
text=ZqhQzanResources