Linux性能调优 | 01 平均负载的理解和分析

程序员文章站 2022-04-25 15:02:39

01 uptime命令通常我们发现系统变慢时，我们都会执行top或者uptime命令，来查看当前系统的负载情况，比如像下面，我执行了uptime，系统返回的了结果。前几列的信息，相信大家都很熟悉，它们分别是当前时间、系统运行时间和正在登陆的用户个数，最后一个就是系统平均负载的情况。 Load A ......

01 uptime命令

通常我们发现系统变慢时，我们都会执行top或者uptime命令，来查看当前系统的负载情况，比如像下面，我执行了uptime，系统返回的了结果。

[root@lincoding ~]# uptime
 08:31:49 up 27 min,  1 user,  load average: 0.07, 0.04, 0.00

前几列的信息，相信大家都很熟悉，它们分别是当前时间、系统运行时间和正在登陆的用户个数，最后一个就是系统平均负载的情况。

08:31:49                        // 当前时间
up 27 min                       // 系统运行时间
1 user                          // 正在登录用户数
load average: 0.07, 0.04, 0.00  // 平均负载的情况

load average的三个数字，依次则是过去1分钟、5分钟、15分钟的平均负载。可以通过观察这三个数字的大小，可以简单判断系统的负载是下降的趋势还是上升的趋势。

如果 load average: 1.00, 5.00, 10.00 三个数字依次增大，则说明在过去的 1 分钟系统的负载比过去 15 分钟系统的负载小，表明系统的负载是下降的趋势。
如果 load average: 10.00, 5.00, 1.00 三个数字依次降低，则说明在过去的 1 分钟系统的负载比过去 15 分钟系统的负载大，表明系统的负载是上升的趋势。
如果 load average: 0.07, 0.04, 0.0 三个数字基本相同，或者相差不大，表明系统的负载是平稳的。

所以分析系统的负载情况，必须要看三个不同时间间隔的平均值。

02 平均负载概念

平均负载很多人容易理解成单位时间内的 cpu 使用率，这是不正确的。平均负载确实与 cpu 使用率有关系，但不是直接的关系。

简单来说，平均负载是指单位时间内，系统处于可运行状态和不可中断状态的平均进程数，也就是平均活跃进程数，它和 cpu 使用率并没有直接关系。

可运行状态，是指正在使用 cpu 或者正在等待 cpu 的进程，也就是在 ps 命令看到的 r 状态的进程。
不可中断状态，是指正处于内核关键流程中的进程，并且这些流程是不可以打断的，比如最常见的等待硬件设备的 i/o 响应，也就是在 ps 命令看到的 d 状态的进程。

因此，平均负载其实就是平均活跃进程数，可以更直观的理解成单位时间内的活跃进程数。

既然平均的是活跃进程数，那么最理想的，就是每个cpu上刚好运行着一个进程，这样每个cpu就得到了充分利用。
比如当平均负载为2时，意味着：

在只有 2 个 cpu 的系统上，意味着所有的 cpu 都刚好被完全占用。
在4个cpu的系统上，意味着 cpu 有 50% 的空闲。
在只有 1 个 cpu 的系统中，则意味着有一半的进程竞争不到 cpu。

03 平均负载为多少时合理

在评判你当前的系统平均负载是否合理的时，首先你要知道系统有几个 cpu，可以通过 lscpu 命令或者从文件 /proc/cpuinfo 中读取

# lscpu 命令查看 cpu 个数
[root@lincoding ~]# lscpu
architecture:          x86_64
cpu op-mode(s):        32-bit, 64-bit
byte order:            little endian
cpu(s):                4 # 这里数字表示 cpu 个数        
....

# 从文件 /proc/cpuinfo 中查看 cpu 个数
[root@lincoding ~]# grep 'model name' /proc/cpuinfo | wc -l
4

有了 cpu 个数，我们就可以判断出，当平均负载比 cpu 个数还大的时候，系统已经出现了过载。

这里我再举个例子，假设我们在一个单 cpu 系统上看到平均负载为 1.73，0.60，7.98

在过去 1 分钟内，系统有 73% 的超载
在过 15 分钟内，有 698%的超载，从整体趋势来看，系统的负载在降低。

平均负载高于 cpu 数量 70% 的时候，就应该分析排查负载高的问题了。一旦负载过高，就可能导致进程响应变慢，进而影响服务的正常功能。

04 平均负载与 cpu 使用率

我们经常容易把平均负载和 cpu 使用率混淆，所以在这里，我也做一个区分。

再次说明下，平均负载是指单位时间内，处于可运行状态和不可中断状态的进程数。所以，它不仅包括了正在使用 cpu 的进程，还包括等待 cpu 和等待 i/o 的进程。

而 cpu 使用率，是单位时间内 cpu 繁忙情况的统计，跟平均负载并不一定完全对应。比如：

cpu 密集型进程，使用大量 cpu 会导致平均负载升高，此时这两者是一致的；
i/o 密集型进程，等待 i/o 也会导致平均负载升高，但 cpu 使用率不一定很高；
大量等待 cpu 的进程调度也会导致平均负载升高，此时的 cpu 使用率也会比较高。

05 平均负载升高分析命令

我们现在很清楚的知道导致平均负载高的情况，不只是看 cpu 的使用率，也要观察系统 i/o 等待时间高不高。

当发现平均负载升高时，可以使用 mpstat 命令查看 cpu 的性能。

# -p all 表示监控所有cpu，后面数字1表示间隔1秒后输出一组数据
$ mpstat -p all 1
linux 2.6.32-431.el6.x86_64 (lzc)   11/05/2019  _x86_64_    (2 cpu)

07:51:45 pm  cpu    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest   %idle
07:51:50 pm  all   42.90    0.00   49.39    0.41    0.00    4.56    0.00    0.00    2.74
07:51:50 pm    0   44.38    0.00   48.67    0.41    0.00    2.86    0.00    0.00    3.68
07:51:50 pm    1   41.57    0.00   49.80    0.40    0.00    6.43    0.00    0.00    1.81

从上面发现

cpu 的用户层（%usr）使用率高达45%左右；
cpu 的系统层（%sys）使用率高达50%左右；
cpu 的 i/0 - 等待（%iowait）占用率为0.41%；
cpu 的空闲率（%idle）只有2~3%。

可以推断出是由于 cpu 使用率导致平均负载升高的情况。

假设只有 cpu 的i/0 等待（%iowait）占用率高，cpu 用户层和系统层使用率很轻松，那么导致平均负载升高的原因就是 iowait 的升高。

判断了是因为 cpu 使用率升高还是 iowait 升高导致平均负载升高后，我们还需要定位是哪个进程导致的。可以用 pidstat 来查询：

# 间隔1秒后输出一组数据，-u表示cpu指标
$ pidstat -u 1
08:07:55 pm       pid    %usr %system  %guest    %cpu   cpu  command
08:07:56 pm         4    0.00    1.00    0.00    1.00     0  ksoftirqd/0
08:07:56 pm         9    0.00    1.00    0.00    1.00     1  ksoftirqd/1
08:07:56 pm        11    0.00   16.00    0.00   16.00     0  events/0
08:07:56 pm        12    0.00   20.00    0.00   20.00     1  events/1
08:07:56 pm       616    7.00    6.00    0.00   13.00     1  pppoe
08:07:56 pm      2745    6.00    6.00    0.00   12.00     1  pppoe

可以发现是 events/0 和 events/1 内核进程 cpu 使用率非常高，所以可能这两个进程导致平均负载升高。

06 小结

平均负载提供了一个快速查看系统整体性能的手段，反映了整体的负载情况。但只看平均负载本身，我们并不能直接发现，到底是哪里出现了瓶颈。所以，在理解平均负载时，也要注意：

平均负载高有可能是 cpu 密集型进程导致的；
平均负载高并不一定代表 cpu 使用率高，还有可能是 i/o 更繁忙了；
当发现负载高的时候，你可以使用 mpstat、pidstat 等工具，辅助分析负载的来源。

上一篇： Ralasafe开源访问控制（权限管理）中间件 1.2发布

下一篇：白水蛋要煮多久也是要讲技巧的

Linux性能调优 | 01 平均负载的理解和分析

01 uptime命令

02 平均负载概念

03 平均负载为多少时合理

04 平均负载与 cpu 使用率

05 平均负载升高分析命令

06 小结

Android编程实现带渐变效果的圆角矩形示例

免费数据分析工具包括哪些（免费推荐这7个工具）

公司网站建设方案（网页制作策划书和流程）

个人建哪类的网站最赚钱，创建资源网站的流程和盈利模式！

未来20年最有前途的职业（这5个职业会是永不失业的职业）

创业事迹材料，优秀创业者事迹范文分析

移动网站seo优化排名的方法（移动站7天也可以上首页）

flash中怎么制作红黑两色逐渐变成两色太极图像的动画?

php 实现简单的登录功能示例【基于thinkPHP框架】

Python3视频转字符动画的实例代码