如何在Linux中查看系统负载 Linux uptime运行状态分析-小浪学习网

答案：linux系统负载和运行状态可通过uptime、top、htop、vmstat、sar、iostat等工具查看；uptime显示平均负载和运行时间，其三个数值代表1、5、15分钟内等待CPU或I/O的进程数，判断负载高低需结合CPU核心数；top和htop实时查看进程资源占用，htop界面更友好；vmstat分析内存与I/O瓶颈，关注r、b、si/so、bi/bo等指标；sar记录历史系统活动，用于趋势分析；iostat监控磁盘I/O性能，%util接近100%表示磁盘瓶颈；排查高负载需先定位是CPU、I/O还是内存问题，再针对性优化，如终止异常进程、优化查询、升级硬件或调整架构。

如何在Linux中查看系统负载 Linux uptime运行状态分析

在Linux系统中，要查看系统负载和运行状态，最常用的工具是

uptime

命令，它能迅速提供系统的平均负载和运行时间。而要进行更深入的诊断，则需要结合

top

、

htop

、

vmstat

、

sar

等一系列工具，它们能从不同维度揭示系统当前的运行瓶颈和历史趋势。

解决方案

要查看Linux系统的负载和运行状态，可以从以下几个命令入手：

uptime

: 这是最直接的命令，会显示当前时间、系统已运行时间、登录用户数以及过去1分钟、5分钟、15分钟的平均负载（load average）。
top

: 一个交互式的实时进程查看工具，能显示系统资源（CPU、内存、交换空间）使用情况，以及按CPU或内存占用排序的进程列表。
htop

:
top
的增强版，提供了更友好的界面和更多的功能，比如进程树视图、更便捷的排序和筛选。
vmstat

: 报告虚拟内存统计信息，包括进程、内存、分页、块IO、陷阱和CPU活动。常用于查看内存和IO的瓶颈。
sar

: 系统活动报告器，可以收集、报告或保存系统活动信息。它能提供CPU利用率、内存使用、磁盘IO、网络活动等历史数据，对于长期趋势分析非常有用。
mpstat

: 报告每个处理器的活动。在多核系统中，它能帮助你判断负载是否集中在某个核心。
iostat

: 报告CPU统计信息和I/O统计信息，特别是磁盘I/O的性能数据。

深入理解uptime的输出：那三个数字到底意味着什么？

很多人看到

uptime

命令输出的最后三个数字——例如

load average: 0.10, 0.25, 0.30

——会有点懵，或者只是笼统地觉得数字越大越不好。但具体它们代表什么，以及如何判断这些值是高是低，这才是理解系统负载的关键。

这三个数字分别代表了系统在过去1分钟、5分钟和15分钟内的平均负载。这里的“负载”不仅仅是CPU的占用率，它衡量的是系统上正在运行（runnable）和等待运行（uninterruptible sleep）的进程数量。可以把它们想象成等待在CPU“门口”的队伍长度。

Runnable (R)：正在使用CPU或等待使用CPU的进程。
Uninterruptible Sleep (D)：正在等待某些I/O操作完成的进程，比如磁盘I/O或网络I/O。这些进程不能被信号中断，如果它们长时间处于这种状态，通常意味着存在I/O瓶颈。

那么，多大的负载算是高呢？这没有一个绝对的标准，它取决于你的CPU核心数。一个经验法则是：理想情况下，平均负载应该接近或略低于你的CPU核心数。

单核CPU：如果平均负载持续高于1.00，就说明系统可能存在性能瓶颈，CPU资源已经饱和。
多核CPU：假设你的系统有N个CPU核心，那么平均负载达到N时，意味着所有CPU核心都处于满负荷状态。如果负载持续高于N，就说明有进程在排队等待CPU资源。

举个例子，如果一台4核服务器的平均负载是2.00，这意味着平均有2个进程在等待或正在使用CPU，这对于4个核心来说是比较健康的，还有余量。但如果负载是8.00，那就说明有严重的CPU瓶颈，平均有8个进程在竞争4个CPU核心，其中一半的进程处于等待状态。

所以，看

uptime

的输出，不仅仅是看数字大小，更要结合你的硬件配置来判断。

除了uptime，还有哪些工具能帮我全面诊断系统负载？

uptime

提供的是一个宏观概览，但当你发现负载偏高时，它并不能告诉你具体是哪个进程、哪个资源出了问题。这时，我们需要更精细的工具来“放大”问题。

top

和

htop

：实时进程的“指挥中心”
- 当你运行
  top
  或
  htop
  时，你看到的是一个动态的系统快照。它们会列出当前运行的进程，并显示每个进程的PID、用户、CPU使用率（%CPU）、内存使用率（%MEM）等关键信息。
- top
  
  默认按CPU使用率降序排列，你可以通过按
```
P
```
  键再次确认按CPU排序，按
```
M
```
  键按内存排序。它能帮你快速找出哪些进程是CPU或内存的“大户”。
- htop
  
  则更直观，它用彩色的进度条显示CPU和内存的使用情况，支持鼠标操作，可以方便地杀死进程、调整优先级，甚至以树状结构显示进程关系，这对于理解父子进程的资源占用非常有帮助。当系统负载高时，我通常会先打开
  htop
  ，一眼扫过去，看看是哪个进程的CPU或内存条拉得最长。
vmstat

：内存与I/O的“X光片”
- vmstat
  命令提供的是关于虚拟内存、进程、I/O、CPU活动等方面的统计信息。例如，运行
```
vmstat 1
```
  会每秒刷新一次数据，让你看到实时的变化。
- 它能告诉你：
  - ```
  r
```
  (runnable processes): 等待运行的进程数，与
  uptime
  的负载有呼应。
- b
  (blocked processes): 处于不可中断睡眠状态的进程数，通常是等待I/O。
- ```
si
```
    (swap in) 和
```
so
```
    (swap out): 内存交换活动，如果这两个值很高，说明物理内存可能不足。
  - ```
  bi
```
  (blocks in) 和
```
  bo
```
  (blocks out): 块设备（如磁盘）的读写量，可以反映磁盘I/O的压力。
- 当系统负载高且
  top
  没有显示明显的CPU瓶颈时，我就会怀疑是不是I/O或内存出了问题，
  vmstat
  是此时的首选。
sar

：系统活动的“历史记录仪”
- sar
  命令是sysstat工具包的一部分，它强大之处在于能够收集和报告历史系统活动数据。这意味着你不仅能看到当前的状况，还能回溯过去某个时间点的系统状态。
- 例如，
```
sar -u 1 5
```
  会每秒报告一次CPU利用率，共报告5次。
```
sar -q
```
  可以查看队列长度和负载平均值。
- 如果你想知道昨晚2点系统为什么变慢了，
  sar
  就是你的“时光机”。但前提是，你的系统要配置了
  sar
  的数据收集功能（通常通过cron任务定时收集）。这种历史数据对于发现周期性问题或事后分析故障非常关键。
iostat

：磁盘I/O的“侦察兵”
- iostat
  专注于磁盘I/O的性能统计。运行
```
iostat -x 1
```
  （每秒刷新一次扩展统计信息）可以得到每个磁盘设备的详细I/O数据，比如：
  - %util
    : 设备利用率，接近100%说明磁盘已是瓶颈。
  - ```
  svctm
```
  : 平均服务时间，表示磁盘处理I/O请求的平均耗时。
- await
  : 平均I/O等待时间，包括服务时间和在队列中的等待时间。
- 如果
  vmstat
  显示
```
bi/bo
```
  很高，或者
  top
  里有进程处于
```
D
```
  状态，那么
  iostat
  就能帮你定位具体是哪个磁盘设备成为了瓶颈。

这些工具各有侧重，往往需要组合使用，才能形成对系统负载和运行状态的全面理解。

系统负载高了怎么办？排查思路与初步优化建议

当通过上述工具发现系统负载确实偏高时，下一步就是找出根本原因并尝试解决。这通常是一个迭代的过程，需要结合具体情况进行分析。

1. 定位问题类型：是CPU、I/O还是内存瓶颈？

CPU瓶颈：
- 在
  top
  或
  htop
  中，查看
```
%CPU
```
  列，是否有某个或某几个进程持续占用很高的CPU。
- vmstat
  的
```
us
```
  (user CPU) 和
```
sy
```
  (system CPU) 很高。
- ```
mpstat
```
  显示某个或所有核心的利用率接近100%。
- 排查方向：找出高CPU进程对应的应用或脚本。是不是有无限循环、计算密集型任务、糟糕的查询（数据库）、或者编译任务在运行？
I/O瓶颈：
- top
  或
  htop
  中，大量进程处于
```
D
```
  （uninterruptible sleep）状态。
- vmstat
  的
```
bi/bo
```
  很高，
```
b
```
  （blocked processes）很多。
- ```
iostat -x
```
  显示磁盘的
```
%util
```
  接近100%，
```
await
```
  时间很长。
- 排查方向：哪些应用在进行大量读写操作？数据库、日志写入、文件同步、备份等。检查磁盘健康状况，考虑是否需要更快的存储（SSD），或者优化应用读写模式。
```
iotop
```
  （如果已安装）能直接显示哪个进程在进行大量I/O。
内存瓶颈：
- ```
free -h
```
  显示可用内存很少，或者
```
Swap
```
  区使用率很高。
- top
  或
  htop
  中，
```
%MEM
```
  列有进程占用大量内存，或者
```
VIRT
```
  和
```
RES
```
  值异常大。
- vmstat
  的
```
si/so
```
  （swap in/out）值很高。
- 排查方向：找出内存占用大的进程。是不是有内存泄漏？应用配置的内存限制是否合理？是否需要增加物理内存？

2. 初步优化与解决思路：

针对高CPU进程：
- 如果是已知且可控的进程（比如你自己的应用），检查其代码逻辑，是否有优化的空间。
- 如果是临时性任务（如编译、数据分析），等待其完成。
- 如果是意外的、失控的进程，可以尝试通过
```
kill
```
  命令终止它（慎用，可能影响服务）。
- 检查定时任务（cron jobs），是否有在不恰当的时间运行了资源密集型任务。
针对I/O瓶颈：
- 优化应用的读写模式，比如减少不必要的磁盘写入，使用缓存。
- 如果是数据库I/O，检查慢查询，优化索引。
- 考虑升级存储设备，例如从HDD升级到SSD。
- 检查文件系统是否健康，是否存在碎片。
针对内存瓶颈：
- 调整应用程序的内存配置，避免过度占用。
- 检查是否存在内存泄漏，重启服务可能是临时解决方案。
- 考虑增加服务器的物理内存。
- 如果大量使用Swap，这会严重拖慢系统，应该优先解决。