结合“性能监视器” 排查、处理性能瓶颈导致应用吞吐率等指标上不去的问题

程序员文章站 2022-06-08 18:57:29

双11备战前夕，总绕不过性能压测环节，TPS 一直上不去 / 不达标，除了代码上的问题外，服务器环境、配置、网络、磁盘、CPU 亦是导致性能瓶颈的重要一环，本文旨在分享最近项目性能压测过程中的排查经验，文中的表单你可以作为排查手册保存，如有不对之处，还请在评论区分享、交流你的经验和观点：）通过本文 ......

双11备战前夕，总绕不过性能压测环节，tps 一直上不去 / 不达标，除了代码上的问题外，服务器环境、配置、网络、磁盘、cpu 亦是导致性能瓶颈的重要一环，本文旨在分享最近项目性能压测过程中的排查经验，文中的表单你可以作为排查手册保存，如有不对之处，还请在评论区分享、交流你的经验和观点：）

通过本文，你可以了解和掌握：

了解常见的系统瓶颈的可能原因。
通过性能探查器定位性能瓶颈。
几点关于性能优化的策略。
一份关于 windows 性能监视器的部分计数器翻译及对应的经验结论。

吞吐量和延时的关系

关于吞吐量/吞吐率、延时，你可以通过 jmeter中的”聚合报告“和”用表格查看报告“来获取。

throughput 越大，latency 越差：因为请求过多，系统繁忙导致响应速度降低。
latency 的值越小说明能支持的 throughput 越高：latency 数值小说明系统处理速度快，自然便可以处理更多的请求。
throughput "不用" 通过降低 latency 的方式来提高，排查性能问题的时候，勿在降低 latency 值上消耗过多时间。

常见系统瓶颈：

类型转换：除了装箱拆箱外，还要着重看下 json 的一些转换类库，如 newtown，fastjson 等等，可能会引起 cpu 维持在高位。
异步操作：有些异步操作会非常影响性能，尤其是在网络较差的情况下，很可能阻塞业务。
- 如异步下的状态通知通常会影响性能。通常而言，异步操作会让”吞吐率“提升，但会牺牲延时（latency）。

定位性能瓶颈

定位的方式不一定是程序级别的，一开始可以先从操作系统的 cpu 使用率，内存使用率，系统 io 和网络 io，网络连接数着手分析。

cpu 使用率不高，但是 throughtput 和 latency 上不去： 说明程序没有忙于计算，可能问题在 i/o 上。
- 一般 cpu 和 io 是反着来的： cpu 没问题，问题可能在 io，反之亦然。
如果 cpu、io、内存、网络带宽使用都不高，但是系统性能上不去： 说明程序有问题，可能是为资源被锁，存在锁竞争关系，程序被阻塞；或者是在上下文切换等等。
关于 io，要看 3 个方面：磁盘io，网络io 以及内存换页率。
程序级别的性能瓶颈定位：
- 分段注释代码 / 让一些函数空转 / 做一些硬编码的 mock，然后再测试下 throughput 和 latency，看是否有好转，如果有，说明函数是瓶颈，再进一步在这个函数体内注释代码，直到找到最耗性能的语句。
分析内存：需要用到的计数器：memory 类别和 physical disk 类别的计数器，步骤如下：
1. 查看 memory：available mbytes 指标：如果该指标的数据较小，系统可能出现了内存方面的问题，需要继续下面步骤进一步分析。
2. 注意 memory：pages/sec、pages read/sec 和 page faults/sec 的值：操作系统会利用磁盘较好的方式提高系统可用内存量或者提高内存的使用效率。这 3 个指标直接反映了 os 进行磁盘交换的频度。
  - pages/sec 值持续高于几百，可能内存有问题。pages/sec 值大不一定就表明内存有问题，可能是运行使用内存映射文件的应用导致。
  - page faults/sec 越高说明每秒发生页面次数越多，说明 os 向内存读取的次数越多。此时需要查看 pages read/sec 的计数值，该值阈值是 5，超过 5，则可以判断存在内存方面的问题。
3. 根据 physical disk 计数器的值分析性能瓶颈：需要分析 page reads/sec 和 %disk time 及 average disk queue length 的分析。如果 pages read/sec 很低，同时 %disk time 和 average disk queue length 的值很高，则可能有磁盘瓶颈。但是，如果队列长度增加的同时 pages read/sec 并未降低，则是内存不足
分析处理器：
1. 排查 system：%total processor time 计数器的数值：该值体现的是服务器 cpu 的整体利用率，对于多核系统而言，该值体现的是所有 cpu 的平均利用率。
  - 如果该值持续超过 90%，说明整个系统面临着处理器方面的瓶颈，需要增加处理器来提高性能。
  - p.s.：多核下，如果该数据不大，但是各个 cpu 的负载不均衡，也可以认为是 cpu 产生了瓶颈。
2. 排查每个 cpu 的 processor：%processor time 和 %user time 和 %privileged time：
  - %processor time 很高时，一般 cpu 都阻塞着，但是反之并不亦然。
  - %user time：非系统内核操作消耗的 cpu 时间（如调用系统本身资源--网络、io等），若该值较大，可以考虑优化代码、优化算法；如果该服务器是数据库 server，则该值较大的话可能是数据库的”排序“或是”函数操作“消耗了过多的 cpu 时间，此时可考虑对 db 进行优化。
  - %privileged time：系统内核操作消耗的 cpu 时间
3. 验证是否系统 cpu 瓶颈：
  - 查看 system：processor queue length 计数器：如果该值大于 cpu 数量的总数 + 1 的时候，说明产生了处理器阻塞。
分析磁盘i/o：
1. 如果计算得出每个磁盘的i/o 超过了磁盘本身的i/o能力，则可以确认磁盘是引起瓶颈的因素之一。
2. 与 processor：%privileged time 联合分析：如果 physical disk：%disk time 较大，其他值比较适中，则硬盘可能是瓶颈，若几个值都比较大，且持续超过 80%，则可能是内存泄漏。
3. 分析 disk sec/transfer：一般来说，该值小于 15ms 为最佳，15~30ms 为良好，30~60ms 为可接受，超过 60ms 则需要考虑更换硬盘或者更换 raid 方式了。
分析进程：
- 查看 process：%processor time的值：每个进程的该值反映的是进程消耗 cpu 的时间。
- 查看 process：%page failures/sec 和 memory：%page failures/sec 的比值，过滤出是哪个进程产生的最多的页错误，一般这个进程是需要大量内存的进程，或者是非常活跃的进程（即在压测情况下，就是你要压测的进程）
- process：%private bytes：该计数器指进程所占有的私有数据（单位字节），即无法与其他进程共享的数据量，可以利用该值来判断应用是否存在内存泄漏。
  - 对于 iis 进程，可以重点监控下 inetinfo进程的 private bytes，如果在压测过程中，该值不断增加，或是在压测结束后，该值仍然处于一个高水平，则说明应用存在内存泄漏
分析网络：
- network interface：bytes total/sec 为发送和接收字节的速率，可以通过该计数器值来判断网络链接速度是否是瓶颈，具体操作方法是用该计数器的值和目前网络的带宽进行比较。
- 联合 processor：%privileged time 进行分析：如果 physical disk：%disk time比较大，其他值比较适中，则硬盘可能是瓶颈，若几个值都比较大，且持续超过 80%，则可能存在内存泄漏。

性能优化的几个策略

应用层面：
- 善用 cdn，缓存，冗余数据，slb。
- 如果瓶颈在网络传输，那么需要对传输数据进行压缩（需要注意，压缩算法是很耗时的，只在瓶颈是网络传输的时候再考虑，你需要根据测试数据自行权衡。）。
- 并行处理的时候需要注意下宿主机是否是多核。如果宿主机是单核的，而程序代码是多进程、多线程的，那么对于高计算密集型的应用会适得其反，反而更慢。
优化代码：
- 减少循环层数、减少递归。
- 在循环体中少做声明变量、分配 / 释放内存的操作：把循环体内的表达式抽离到循环体外。
- 注意函数调用在栈上的开销。
- 合理使用 try-catch：不要用抛异常作为常规业务的失败流程（如进行业务报错）。
- 字符串处理需注意：减少不必要的声明实例（.net core 出了一个 span 类型，可以用来替代 substring。）
- 不同的语言和代码库，对于复杂度是不一样的，这个需要注意：如应该用 list.count==0 来代替list.any() 来判断是否有数据。
  - 关于这点，你可以使用计数器来判断、测试自己写的代码在”耗时、cpu cycle，0/1/2代 gc回收“等数据的差异，择优而定。
算法调优：
- 哈希算法并不高效，使用时候还需注意。
- 善用预处理和分量分次分批处理：像月报表之类的执行频率低，但每次执行都很耗资源的，你可以尝试预先每天/每周处理，不用等到每月才执行。
多线程调优：
- 多线程的瓶颈主要在互斥和同步锁上，以及线程上下文切换的成本上：你应尽量少用甚至不用锁，或者用乐观锁替代现有直接用 lock 的锁。
内存分配：当内存出现碎片时，会相当耗时。
- 在编码的时候，意识上尽可能少的进行内存的分配。
池化技术对于一些短作业来说相当有效：如 httpclientfactory 就是用了 http 池，可以用来减少对象创建、线程创建的开销。
网络调优：
- tcp 很耗资源，对系统开销很大：你可以搜索关键字：tcp tuning 进行相关调优
- tcp 和 http 要配置下 keep-alive，尤其是像 http 这样的短连接，这也可以在一定程度上防止 ddos攻击。
- 对于 tcp 的 time_wait，这个状态默认会持续 4 分钟（持续 2 个 msl--max segment lifetime），time_wait 状态下的资源不能回收，有大量 time_wait 连接的情况一般是在 http 服务器上。
  - 你可以在注册表中新建、设置 tcp 的 tcptimedwaitdelay 和 maxuserport 项，来增加 tcp 连接释放时间和临时端口数。
- tcp 一旦发生丢包，tcp 的带宽使用率会受到影响（盲目减半），再丢包，再减半；什么时候不丢包了，就会逐步恢复。
cpu 调优：
- cpu0 很关键，它一般担任着调节功能（如内核和非内核操作，上下文切换等），如果 0 号 cpu 被用得过狠的话，别的 cpu 性能也会下降。
  - windows 下可在“任务管理器”中，右键“进程”选择“设置相关性”来设置该进程可以运行在哪些核上。
  - linux：使用 taskset 命令来设置（可以通过安装 schedutils 来安装这个命令）。

性能监视器

在服务器上最直观监视性能的方式就是直接使用系统自带的”性能监视器“。

>perfmon #直接在 "运行" 中输入 perfmon 即可打开

结合“性能监视器” 排查、处理性能瓶颈导致应用吞吐率等指标上不去的问题

若要进一步监控内存，可结合使用 rammap 和 vmmap 。

windows 下计数器说明：

类别	计数器名称	描述	结论
memory	available m bytes	当前空闲物理内存。	当这个数值变小时，说明 windows 开始频繁地调用磁盘页面文件，如果这个数值很小（如小于 5mb，系统会将大部分时间消耗在操作页面文件上），一般要保留 10% 的可用内存，此值过小可能是内存不足或者内存泄漏。
	pages/sec	是 pages input/sec 和 pages output/sec 总和。	pages/sec 推荐 0-20，如果服务器没有足够的内存处理其工作符合，此值数值将会一直很高，如果大于 80 ，表示有问题（太多的读写数据要访问磁盘，可考虑增加内存或优化读写数据的算法），该系列的值比较低，说明请求响应比较快，否则可能是服务器内存短缺引起（也可能是缓存太大，导致系统内存太少。）一般如果pages/sec 持续高于几百，那么应该进一步研究页交换活动。有可能需要增加内存，以减少换页的需求。pages/sec 的值很大不一定表明内存有问题，而可能是运行使用内存映射文件的程序所致。计数器的比率高表示分页过多。
	pages read/sec	读取磁盘，以提取解决页错误所需页的次数。	其阈值为 5，该值越低越好（越低，说明响应时间越短）；该值大表示磁盘读，而非缓存读。如果 page reads/sec 持续保持为 5，表示可能内存不足。
	page faults/sec	该值表示页错误的个数：当处理器向内存指定位置请求一页（可能是数据，也可能是代码）出现错误时，这就构成了一个“页错误”。如果该页在内存的其他位置，该错误就被称为软错误（用 transition fault/sec衡量）；如果该页必须从硬盘上重新读取时，被称为硬错误。	许多处理器可以在有大量软错误的情况下继续操作，而硬错误会导致明显的拖延。当进程使用的数据所处的内存页不在内存中时，就会产生该值。如果某页已经在主内存中，或者它正被共享此页的其他进程使用，那么就不会从磁盘调入该页。
	cache bytes	分配在ram中的驻留页面数。	默认情况下为 50% 的可用内存。
	committed bytes	指以字节表示的确认虚拟内存，是磁盘页面文件上保留空间的物理内存。	不超过物理内存的 75% 。
process	%processor time	处理器消耗的处理器时间，如果专用于某种特定应用（如数据库服务器和应用服务器），则可用应用相关进程 %process time 进行衡量。	可接受的上限一般不超过 85% 。
	page faults/sec	将进程产生的页故障与系统产生的相比较，以判断该进程对系统页故障产生的影响。
	working set	表示进程正在使用的物理内存的量。（至于是具体进程还是所有进程，需要看监控实例是具体的还是所有的。）	系统在工作集中的内存页进行寻址的时候，不会引发 page fault。另外，如果服务器有足够的空闲内存，页就会留在工作集中，而当空闲内存少于一个特定的阈值时，页就会被清除出工作集中。
	private bytes	此进程所分配的无法与其他进程共享的当前字节数量。如果系统性能随着时间而降低，则此计数器可以是内存泄漏的最佳指示器。
processor	%processor time	指处理器执行非闲置线程时间的百分比。此计数器可以作为处理器活动的主要指示器。（%processor time = 100% - idle process时间比例）	如果该值持续超过95%，表明瓶颈是 cpu，可以考虑增加或更换更快的处理器。正常情况下，保持在 80%±5% 比较好，过低说明 cpu 利用率不高，过高表示是瓶颈是 cpu。虽然该计数器高不一定是坏事，但如果其他处理器相关的计数器（如 privileged time 或者 processor queue length）线性增加的话，高 cpu 使用率就值得调查了。
	%user time	非内核操作耗费的cpu时间。一般来说，如果系统中使用了大量的算法或者复杂的计算操作，该值就会比较大。
	%privileged time	这个计数器表示一个线程在特权模式下所使用的时间比例，当你的程序调用操作系统的方法（如文件操作，i/o 或者分配内存）时，这些操作系统的方法就是在特权模式下运行的。	如果数值持续大于 75% 就表示存在瓶颈。
	%dpc time	cpu 消耗在网络处理上的时间。	该值越小越好。如果持续高 %dpc 时间，则可能存在 cpu 瓶颈或应用程序或硬件相关问题。
	%interrupt time	表示 cpu 接收、处理硬件中断所使用的时间比例。	阈值取决于处理器。一般，当该值 >15% 的时候说明可能存在硬件问题。这个值间接指出产生中断的硬件设备活动，比如网络变化。这个计数器显著增加的话表示硬件可能存在问题
	interrupts/sec	中断率，表示每秒设备中断 cpu 的次数，可以产生中断的装置包括：系统定时器，鼠标，数据通讯联网，网络卡以及其他外部设备等。中断操作在后台完成。	该值阈值取决于处理器，但越低越好，不宜超过 1000，如果该值显著增加而系统活动没有相应的增加，则表明存在硬件问题，需要检查引起中断的网络适配器、磁盘或其他硬件。
physical disk	%disk time	指所选磁盘驱动器忙于读/写入请求所用的时间百分比。	正常值<10，此值过大表示耗费太多时间来访问磁盘，可考虑增加内存、更换更快的硬盘、优化读写数据的算法。若数值持续超过 80（此时处理器和网络并没有饱和），则可能是内存泄漏。
	current disk queue length	是在收集性能数据时磁盘上当前的请求数量。它还包括在收集时处于服务的请求。这是瞬态的快照，不是时间间隔的平均值。此计数器会反映暂时的高或低的队列长度，但是如果磁盘驱动器*持续运行，它有可能一直处于高的状态。	请求的延迟与此队列的长度减去磁盘的轴数成正比。为了提高性能，此差应该平均小于 2。
	average disk queue length	指读取和写入请求的平均数。该值不应超过磁盘数的 1.5~2倍。要提高性能，可增加磁盘。注意，一个raid disk 实际有多个磁盘。	正常值应小于 5，此值持续过大表示磁盘 io 太慢，要更换更快的硬盘。建议结合 pages /sec 一起分析，看是内存分页过多导致磁盘一直在读写还是就是磁盘问题。
	average disk read/write queue length	指读取/写入请求（队列）的平均数。
	diskread(writes)/sec	物理磁盘上每秒磁盘读、写的次数。	两者相加，应该小于磁盘设备最大容量。
	average disk sec/read	指以秒计算的在磁盘上读取数据所需的平均时间。
	average disk sec/write	指以秒计算的在磁盘上写入数据所需的平均时间。
network interface	bytes total/sec	为发送和接受字节的速率，包括帧字符在内。判断网络连接速度是否是瓶颈，可以用该计数器的值和目前网络的带宽比较。	建议不要超过带宽的 50% 。
system	%total processor time	系统上所有处理器都忙于执行非空闲线程的平均时间的百分比，该值反映了用于有用作业上的时间的比率。对单处理器系统来说，该值很容易理解；对多处理器来上，该值体现了所有处理器的平均繁忙程度。eg：如果所有处理器都繁忙，此值为 100%，如果有一半的处理器繁忙，另一半处理器完全空闲，此值为 50%。
	file data operation/sec	计算机对文件系统设备执行读取和写入操作的速率。本计数器的计数不包括文件控制文件。
	processor queue length	处理器队列的线程数量，该计数器显示的是等待中的线程数量，不包括正在运行的线程数量。	在 cpu 利用率 80~90% 的系统中，该值应为 "*[1,3] 处理器数量**"：如在一台 8 核处理器，该值在 [8, 24] 区间范围内算正常；而在 cpu 利用率较低的系统上，该值应为 [0,1]，若持续大于 2，就有可能碰到了问题资源，需要进一步排查。
	call/sec	指运行在计算机上的所有处理器调用操作系统服务例行程序的综合速率，这些例行程序执行所有在计算机上的如安排和同步活动等基本的程序，并提供对非图形设备、内存管理和名称空间管理的访问。	该值跟 processor.interrupts/sec 联合使用，如果 processor.interrupts/sec 大于 call/sec，则说明系统中某一硬件产生了过多的终端。
	context switches/sec	进程切换率，指计算机上的所有处理器全部从一个线程切换到另一个线程的综合速率。产生上下文的可能情况：当正在运行的线程自动放弃处理器时出现上下文切换；一个有更高优先级的线程取代一个正在运行的低优先级线程的时候会发生上下文切换；在用户模式和内核模式之间切换时产生上下文切换。	一般，该值小于 5000/秒/cpu 是不需要担心的。如果context 该值达到 15000/秒/cpu 的话就是一个制约因素了，需要看下是否代码导致（如过多的异步操作）。p.s.：上下文切换同样会发生在许多线程拥有相同优先级的情况，如果 cpu 使用率不高且 context swtich 非常低，那么可能线程被堵塞。
web service	current connections	当前连接数（针对到 iis 实例）。	结合压测用户/线程数进行分析。
	current anonymous users	当前匿名连接数。	结合压测用户/线程数进行分析。
	current nonanonymous users	当前非匿名用户/匿名连接数。	结合压测用户/线程数进行分析。
	get/put/post requests/sec	使用get/put/post 方式 http 请求的速率。

参考

processor queue length：https://social.msdn.microsoft.com/forums/vstudio/en-us/356b87a3-e8b1-48ad-9355-e68ce3eef754/processor-queue-length?forum=vstest

interrupt time 说明：

性能计数器：

上一篇： 360搜索彩蛋自动化开发实践

下一篇： django中的media

结合“性能监视器” 排查、处理性能瓶颈导致应用吞吐率等指标上不去的问题

吞吐量 和 延时的关系

常见系统瓶颈：

定位性能瓶颈

性能优化的几个策略

性能监视器

windows 下计数器说明：

结合“性能监视器” 排查、处理性能瓶颈导致应用吞吐率等指标上不去的问题

结合“性能监视器” 排查、处理性能瓶颈导致应用吞吐率等指标上不去的问题

吞吐量和延时的关系