python __爬虫__线程池的应用。
程序员文章站
2022-07-12 11:12:12
...
想必搞爬虫的都知道,有时候需要爬取的网站量比较大,像大众点评或者一些大的电商网站,我们爬取大量的网站有时候速度也是必须的,此时笔者在网上看到很多加线程池来提高速度的方法,都没有添加到实际的爬虫例子,仅仅是比较一下添加线程池和没有添加的时候函数的调用的速度。这里笔者分享一下实际运用到爬虫代码来提高速度的方法。
环境:python2.7
因为作者这里是用的实际的工作代码,牵涉到时间的循环,这里也分享一下时间循环的方法直接上代码:
from dateutil.rrule import rrule, DAILY
def _time_parse(self, t):
return time_parse('%s' % t)
def _set_st(self, st):
"""
转化为日期的格式
:param st: 开始的时间
:return: True or False
"""
self.st = self._time_parse(st).date()
def _set_et(self, et):
"""
转化为日期的格式
:param et: 结束的时间
:return: True or False
"""
self.et = self._time_parse(et).date()
以上方法直接调用即可返回自己想要的时间格式。在这里继续添加线程池,代码如下:
def use_threadpool(self):
task_pool = threadpool.ThreadPool(5) # 准备5个线程池
dr = rrule(freq=DAILY, dtstart=self.st, until=self.et)
requests = threadpool.makeRequests(self.fache, dr)
for req in requests:
task_pool.putRequest(req)
task_pool.wait()
以上是几个步骤的分布,在这里笔者分享一下自己代码的结构图如下:
这里是笔者的项目的结构,在这里首先分享Mythod文件的代码:
# coding=utf-8
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
import threadpool
from dateutil.rrule import rrule, DAILY
from dateutil.parser import parse as time_parse
class Mythod:
def __init__(self, st, et):
self._set_st(st)
self._set_et(et)
def _time_parse(self, t):
return time_parse('%s' % t)
def _set_st(self, st):
"""
转化为日期的格式
:param st: 开始的时间
:return: True or False
"""
self.st = self._time_parse(st).date()
def _set_et(self, et):
"""
转化为日期的格式
:param et: 结束的时间
:return: True or False
"""
self.et = self._time_parse(et).date()
def use_threadpool(self):
task_pool = threadpool.ThreadPool(5) # 准备5个线程池
dr = rrule(freq=DAILY, dtstart=self.st, until=self.et)
requests = threadpool.makeRequests(self.fache, dr) // 建议
for req in requests: // 每个方法点进去看源码进行理解。
task_pool.putRequest(req)
task_pool.wait()
def fache(self): // 自己的方法是实现爬虫的方法在gps175文件中,这里先进行
pass // 声明和调用,在下个文件需要重写此方法
自己爬虫的代码:
# coding=utf-8
import requests
import time
from DaiQian_Gps.Mythod import Mythod
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
class CarInfo(Mythod):
def fache(self, d):
d = d.date()
爬虫的代码,这就需要你们自己写自己的爬虫了。
if __name__ == '__main__':
car = CarInfo('2018-08-01', '2018-08-13')
car.use_threadpool()
好了,到这里笔者就分享结束了,当然可能不适用你们的代码,你们也可以从网上看一些线程池的开启,添加到自己的爬虫中即可。在这里笔者就不分享连接了,因为网上太多了。
上一篇: DRF03--视图、视图集、路由