欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  后端开发

PHP执行大规模任务时如果提升效率?

程序员文章站 2024-01-14 15:00:52
...
我有一个php,每天计划任务执行一次,逻辑如下:
1.连接数据库,从数据库中Select读取相关数据到数组
2.根据得到的数据数量进行循环,循环中间包含3个mysql操作(select、insert、update各一个)
3.循环完后关闭数据库连接

循环执行的次数根据步骤1的mysql_num_rows而定,基本上几千上万。
那么在循环过程中就会短时间内连续执行几千上万X3次数据库操作,效率非常低下。并且因为循环次数多任务重需要很长时间才能执行完,会导致nginx出现504错误。
且频繁数据库操作和长连接,占用过多资源,导致整个环境效率低下。

请问该怎么优化呢?
麻烦各位大神赐教,先谢谢了

回复内容:

我有一个php,每天计划任务执行一次,逻辑如下:
1.连接数据库,从数据库中Select读取相关数据到数组
2.根据得到的数据数量进行循环,循环中间包含3个mysql操作(select、insert、update各一个)
3.循环完后关闭数据库连接

循环执行的次数根据步骤1的mysql_num_rows而定,基本上几千上万。
那么在循环过程中就会短时间内连续执行几千上万X3次数据库操作,效率非常低下。并且因为循环次数多任务重需要很长时间才能执行完,会导致nginx出现504错误。
且频繁数据库操作和长连接,占用过多资源,导致整个环境效率低下。

请问该怎么优化呢?
麻烦各位大神赐教,先谢谢了

就你说的这个情况,建议不要用请求的方式解决,用 crontab 加计划任务在后台运行 php 脚本,数据库查询时分批处理,比如总共 100000 条,每次 1000 条;如果必须逐条处理且速度不是很快,建议一边 fetch_row 一边处理,避免先放入 array 再循环。记得根据执行情况 set_time_limit 和数据库连接的超时时间。

关于这种数据量稍大的长时任务说几点我的看法:
1、web环境下不适合长时任务:nginx+php-fpm这种架构是不适合执行长时任务的,中间的各种超时能折磨死人,Apache+PHP要好一些起码好控制超时,简单一个set_time_limit(0)就能搞定。
2、任务调度通过web来实现:大多数PHP框架对命令行支持并不好,或者说实现的时候并没有考虑对命令行的支持,所以一个基于web任务分发机制会容易实现一些,这样对现有框架的侵入性也会小很多,而且一个稳定的项目,保证入口的统一是极其重要的。如果任务在命令行下运行的话需要考虑很多问题,最突出的问题就是文件权限问题,一般web项目都是用apache之类的用户运行的,所产生的文件所有者也是apache,而且apache普遍是不允许登陆的,虽然可以实现用apache用户运行命令,但是比较复杂。
3、分而治之:处理长时任务的一个解决方案就是分治,将大任务拆分为小任务,将长时任务转换为多个短时的小任务,降低对资源的占用时间,减少因为长时间执行而导致的各种问题,如数据库连接超时,PHP内存泄露等问题。

附上我写的一个例子请多多指教
https://github.com/zkc226/cur...

大量数据的时候交由任务系统去执行。首先发起一个请求,由消息生产者将请求交给消费者处理,并返回,避免等待出现超时。消费者执行多线程处理。建议使用Gearman,使用起来很方便,而且支持PHP接口。其它的类似Workman,Swoole等都能实现。

所有的操作都集中在同一台服务器上的同一个时间点执行, 肯定是耗时又耗资源的.
要么像 @黄弘 说的,分批次处理.
要么就增加服务器, 把这些任务分布到其他的服务器上执行, 所谓分布式处理, 但是又会增加任务的复杂度, 因为还要保证数据的一致性

1.导出数据到文件,读文件去循环。(比如mysqldump)
2.考虑是否可以先拼语句,批量执行。而不是每个循环都执行。
3.考虑是否可以用存储过程

并且因为循环次数多任务重需要很长时间才能执行完,会导致nginx出现504错误。

难道是实时计算?计算量大的任务是否考虑后台跑任务计算好写入缓存,实时请求只读缓存。

这个问题有一点像我之前回答的那个并行执行提高效率的问题

本质就是针对读这个大数据进行分流,按ID进行取模并行执行,比如你的服务器和数据库能承受20个并发执行

那并行的最简单方式就是开20个脚本进程执行
0.php -> select * from test where id%20=0;
1.php -> select * from test where id%20=1;
2.php -> select * from test where id%20=2;
....

这个是拉的方式。

还有一种方式是推到队列,队列再调用woker进程去执行,这样更规范化好管理,比如楼上有一个提到的gearman,我之前在做短信平台的时候也有每日定时任务,就是用的这个。

逻辑大概是你开一个定时任务脚本把所有查询出来的数据通过调用gearman客户端把数据任务发到gearman调度器,然后你开20个woker(可以在同一台服务器也可以在局域网内的不同服务器),然后调度器就会分配给这20个gearman woker脚本去执行,每个worker脚本代码一样,是一条数据一个任务的执行

用cli模式的PHP脚本处理即可,不要使用WEB方式,很容易超时

相关标签: php