python并行运行
源于: 执行类代码 – MainOne.py – 函数main_faker
为保证多线程数据安全,python语言的设计中,有个全局解释锁GIL(global interpretor lock),每个线程在开始运行时必须获得锁,遇到I/O或sleep挂起时释放锁,从而保证同一时刻只有一个线程在运行,多个线程在不同的时间片上执行,达到多任务的目的,使python具有 并发 能力,使得python可以充分使用CPU的单个核心。多线程并发在python网络爬虫中使用普遍,可以一次性开启大量下载任务,而大部分任务都在等待I/O的状态,比单线程速度快很多倍,另外,使用协程也能达到到多线程的的效果。
我们希望提高效率,充分利用多核CPU的优势,同时执行多个任务,做到多任务 并行,应该怎样做呢?既然绕不开GIL,解决方案有:
1. 使用多进程,开启多个python实例,使用进程池
2.用C/C++写出多线程代码,通过cython调用;或者将C/C++编译成dll文件(linux下为so文件),通过ctypes模块直接调用其中的代码;用python的C接口写拓展,或者用Boost.Python等。
3.换解释器,不用C语言版的Pyhton,而是使用jpython(java),pypy(python),ironpython(C#)等
python多线程demo
import time
from threading import Thread
def countdown(n):
while n > 0:
n -= 1
count = 2e7
start = time.time()
n_threads = 10 # 线程数
threads = [Thread(target=countdown, args=(count//n_threads,)) for i in range(n_threads)]
for t in threads: t.start() # 启动多个线程
for t in threads: t.join() # 等待线程结束
print(time.time() - start)
在多核CPU上运行上述代码,无论线程数是1还是10,运行时间几乎相同,多线程不能利用多核优势提高效率。
python多进程demo
import time
import os
from multiprocessing import Pool
def countdown(n):
while n > 0:
n -= 1
if __name__ == "__main__":
count = 2e7
start = time.time()
# n_processes = os.cpu_count()
n_processes = 8 # 进程数
pool = Pool(processes=n_processes) # 进程池
for i in range(n_processes):
pool.apply_async(countdown, (count//n_processes,)) # 启动多进程
pool.close() # 使进程池不能添加新任务
pool.join() # 等待进程结束
print(time.time() - start)
在多核CPU上运行,两个进程明显比1个快,效率差异明显,但多进程的系统开销也更大。
注释: 在windows上执行时,多进程代码一定要放在if __name__ == '__main__':
里面执行,否则,这些全局表达式在子进程中也会执行,从而导致不断生成大量进程,直到崩溃,这一点与linux中通过fork调用实现多进程是完全不同的。
学习链接:
python怎么并行