Linux性能调优 | 01 平均负载的理解和分析
01 uptime命令
通常我们发现系统变慢时,我们都会执行top或者uptime命令,来查看当前系统的负载情况,比如像下面,我执行了uptime,系统返回的了结果。
[root@lincoding ~]# uptime 08:31:49 up 27 min, 1 user, load average: 0.07, 0.04, 0.00
前几列的信息,相信大家都很熟悉,它们分别是当前时间、系统运行时间和正在登陆的用户个数,最后一个就是系统平均负载的情况。
08:31:49 // 当前时间 up 27 min // 系统运行时间 1 user // 正在登录用户数 load average: 0.07, 0.04, 0.00 // 平均负载的情况
load average的三个数字,依次则是过去1分钟、5分钟、15分钟的平均负载。可以通过观察这三个数字的大小,可以简单判断系统的负载是下降的趋势还是上升的趋势。
- 如果
load average: 1.00, 5.00, 10.00
三个数字依次增大,则说明在过去的 1 分钟系统的负载比过去 15 分钟系统的负载小,表明系统的负载是下降的趋势。 - 如果
load average: 10.00, 5.00, 1.00
三个数字依次降低,则说明在过去的 1 分钟系统的负载比过去 15 分钟系统的负载大,表明系统的负载是上升的趋势。 - 如果
load average: 0.07, 0.04, 0.0
三个数字基本相同,或者相差不大, 表明系统的负载是平稳的。
所以分析系统的负载情况,必须要看三个不同时间间隔的平均值。
02 平均负载概念
平均负载很多人容易理解成单位时间内的 cpu 使用率,这是不正确的。平均负载确实与 cpu 使用率有关系,但不是直接的关系。
简单来说,平均负载是指单位时间内,系统处于可运行状态和不可中断状态的平均进程数,也就是平均活跃进程数,它和 cpu 使用率并没有直接关系。
- 可运行状态,是指正在使用 cpu 或者正在等待 cpu 的进程,也就是在 ps 命令看到的 r 状态的进程。
- 不可中断状态,是指正处于内核关键流程中的进程,并且这些流程是不可以打断的,比如最常见的等待硬件设备的 i/o 响应,也就是在 ps 命令看到的 d 状态的进程。
因此,平均负载其实就是平均活跃进程数,可以更直观的理解成单位时间内的活跃进程数。
既然平均的是活跃进程数,那么最理想的,就是每个cpu上刚好运行着一个进程,这样每个cpu就得到了充分利用。
比如当平均负载为2时,意味着:
- 在只有 2 个 cpu 的系统上,意味着所有的 cpu 都刚好被完全占用。
- 在4个cpu的系统上,意味着 cpu 有 50% 的空闲。
- 在只有 1 个 cpu 的系统中,则意味着有一半的进程竞争不到 cpu。
03 平均负载为多少时合理
在评判你当前的系统平均负载是否合理的时,首先你要知道系统有几个 cpu,可以通过 lscpu 命令或者从文件 /proc/cpuinfo 中读取
# lscpu 命令查看 cpu 个数 [root@lincoding ~]# lscpu architecture: x86_64 cpu op-mode(s): 32-bit, 64-bit byte order: little endian cpu(s): 4 # 这里数字表示 cpu 个数 .... # 从文件 /proc/cpuinfo 中查看 cpu 个数 [root@lincoding ~]# grep 'model name' /proc/cpuinfo | wc -l 4
有了 cpu 个数,我们就可以判断出,当平均负载比 cpu 个数还大的时候,系统已经出现了过载。
这里我再举个例子,假设我们在一个单 cpu 系统上看到平均负载为 1.73,0.60,7.98
- 在过去 1 分钟内,系统有 73% 的超载
- 在过 15 分钟内,有 698%的超载,从整体趋势来看,系统的负载在降低。
平均负载高于 cpu 数量 70% 的时候,就应该分析排查负载高的问题了。一旦负载过高,就可能导致进程响应变慢,进而影响服务的正常功能。
04 平均负载与 cpu 使用率
我们经常容易把平均负载和 cpu 使用率混淆,所以在这里,我也做一个区分。
再次说明下,平均负载是指单位时间内,处于可运行状态和不可中断状态的进程数。所以,它不仅包括了正在使用 cpu 的进程,还包括等待 cpu 和等待 i/o 的进程。
而 cpu 使用率,是单位时间内 cpu 繁忙情况的统计,跟平均负载并不一定完全对应。比如:
- cpu 密集型进程,使用大量 cpu 会导致平均负载升高,此时这两者是一致的;
- i/o 密集型进程,等待 i/o 也会导致平均负载升高,但 cpu 使用率不一定很高;
- 大量等待 cpu 的进程调度也会导致平均负载升高,此时的 cpu 使用率也会比较高。
05 平均负载升高分析命令
我们现在很清楚的知道导致平均负载高的情况,不只是看 cpu 的使用率,也要观察系统 i/o 等待时间高不高。
当发现平均负载升高时,可以使用 mpstat
命令查看 cpu 的性能。
# -p all 表示监控所有cpu,后面数字1表示间隔1秒后输出一组数据 $ mpstat -p all 1 linux 2.6.32-431.el6.x86_64 (lzc) 11/05/2019 _x86_64_ (2 cpu) 07:51:45 pm cpu %usr %nice %sys %iowait %irq %soft %steal %guest %idle 07:51:50 pm all 42.90 0.00 49.39 0.41 0.00 4.56 0.00 0.00 2.74 07:51:50 pm 0 44.38 0.00 48.67 0.41 0.00 2.86 0.00 0.00 3.68 07:51:50 pm 1 41.57 0.00 49.80 0.40 0.00 6.43 0.00 0.00 1.81
从上面发现
- cpu 的用户层(%usr)使用率高达45%左右;
- cpu 的系统层(%sys)使用率高达50%左右;
- cpu 的 i/0 - 等待(%iowait)占用率为0.41%;
- cpu 的空闲率(%idle)只有2~3%。
可以推断出是由于 cpu 使用率导致平均负载升高的情况。
假设只有 cpu 的i/0 等待(%iowait)占用率高,cpu 用户层和系统层使用率很轻松,那么导致平均负载升高的原因就是 iowait 的升高。
判断了是因为 cpu 使用率升高还是 iowait 升高导致平均负载升高后,我们还需要定位是哪个进程导致的。可以用 pidstat
来查询:
# 间隔1秒后输出一组数据,-u表示cpu指标 $ pidstat -u 1 08:07:55 pm pid %usr %system %guest %cpu cpu command 08:07:56 pm 4 0.00 1.00 0.00 1.00 0 ksoftirqd/0 08:07:56 pm 9 0.00 1.00 0.00 1.00 1 ksoftirqd/1 08:07:56 pm 11 0.00 16.00 0.00 16.00 0 events/0 08:07:56 pm 12 0.00 20.00 0.00 20.00 1 events/1 08:07:56 pm 616 7.00 6.00 0.00 13.00 1 pppoe 08:07:56 pm 2745 6.00 6.00 0.00 12.00 1 pppoe
可以发现是 events/0
和 events/1
内核进程 cpu 使用率非常高,所以可能这两个进程导致平均负载升高。
06 小结
平均负载提供了一个快速查看系统整体性能的手段,反映了整体的负载情况。但只看平均负载本身,我们并不能直接发现,到底是哪里出现了瓶颈。所以,在理解平均负载时,也要注意:
- 平均负载高有可能是 cpu 密集型进程导致的;
- 平均负载高并不一定代表 cpu 使用率高,还有可能是 i/o 更繁忙了;
- 当发现负载高的时候,你可以使用
mpstat
、pidstat
等工具,辅助分析负载的来源。
上一篇: Centos 7修改hostname浅析