欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

python开启多进程(使用进程池multiprocessing.Pool)

程序员文章站 2024-02-11 13:45:10
...

一、摘要

python和java、C++不一样,java一般在进行多项耗时计算时常采用多线程,而python则更适合采用多进程。关于线程和进程的区别,这里不作详细解释。这里介绍一种python开启多进程的方法,使用multiprocessing.Pool进程池。

 

二、示例

import traceback
from multiprocessing import Pool
import time

def work(province, arr):
    #在这里进行复杂或耗时的计算
    time.sleep(10)
    print(arr)
    print(time.strftime("%Y-%m-%d %H:%M:%S"), "finish....", province)
    arr.append("新数据:" + province)
    return arr

def workMulti(province, arr):
    try:
        work(province, arr)
    except Exception as e:
        print('Error: %s' % (province), traceback.print_exc())

if __name__ == '__main__':
    provinces = ["北京市", "天津市", "上海市", "重庆市", "河北省",
                "河南省", "云南省", "辽宁省", "黑龙江省", "湖南省",
                "广西壮族自治区", "广东省", "海南省"]
    arr=["原数据"]
    po = Pool(processes=5) #允许开几个进程
    for province in provinces:
        print("Add task:", province)
        # 开启进程运行workMulti函数,传入参数province,arr。
        # 注意最后一个逗号是必须的,不是多余的
        po.apply_async(workMulti, args=(province,arr,))
    print("AAA****************************")
    po.close() #关闭进程池入口,此后不能再向进程池中添加任务了
    print("BBB****************************")
    po.join() #阻塞等待,只有进程池中所有任务都完成了才往下执行
    print("CCC****************************")

这里开启多进程去简单打印省份,实际应用中只需把复杂或耗时的计算放到work中即可。运行结果如下:

python开启多进程(使用进程池multiprocessing.Pool)

 

三、注意事项及建议

1、关于进程的开启代码一定要放在if __name__ == '__main__':代码之下,不能放到函数中或其他地方。

2、po.apply_async(workMulti, args=(province,arr,))开启进程调用workMulti,需要几个参数传几个,最后需要加一个逗号,因为其传递的参数是tuple类型。

3、进程之间的参数变量是不共享的, 在某个进程中修改其函数参数, 在其他进程中是不可见的。这里每次打印的都是['原数据']足以说明。

4、进程池接受任务并非阻塞式。这里进程池虽然只开5个,但它可以一次性接受很多任务, 任务的执行由进程池Pool自行安排,这里打印的Add task是连续的,并不需要等待进程池有空进程。

5、这里为何要调用workMulti而不直接调用work?

答:假如work函数中报错,你会发现程序看起来运行正常,你将发现不了错误。通过在workMulti中加入try:...except:...以及traceback.print_exc(),我们可以打印出进程运行的异常。

6、多进程如何接收计算结果?

答:方法1:使用callback回调方法,我没使用过,不详细说明

       方法2:在进程中把计算结果保存下来,如保存到数据库或文件,所有进程计算结束后再提取。我多采用这种方法,这种方法在部分进程计算失败后仍然能保留计算成功的那些结果。

7、开启多少个进程合适?

答:看你跑的是什么类型的任务。如果是计算密集型(耗CPU的),建议开启和CPU核心线程数一样的进程,如果同时你还要操作计算机或进行其他任务,那最好再留出一点CPU,不然将会卡死。如果是耗时型(不耗CPU,如网络请求等),可以考虑开多一些进程,不需要考虑CPU核心线程数。

 

 

author:蓝何忠

email:aaa@qq.com