【新手必学】Python爬虫之多线程实战

程序员文章站 2023-08-30 22:42:58

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。作者：清风化煞_ 正文新手注意：如果你学习遇到问题找不到人解答，可以点我进裙，里面大佬解决问题及Python教.程下载和一群上进的人一起交流！ 1.先附上没有用多线程的包图网爬 ......

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。作者：清风化煞_
【新手必学】Python爬虫之多线程实战

正文

新手注意：如果你学习遇到问题找不到人解答，可以，里面大佬解决问题及python教.程下载和一群上进的人一起交流！

1.先附上没有用多线程的包图网爬虫的代码

import requests

from lxml import etree
import os
import time

start_time = time.time()#记录开始时间
for i in range(1,7):
    #1.请求包图网拿到整体数据
    response = requests.get("https://ibaotu.com/shipin/7-0-0-0-0-%s.html" %str(i))

    #2.抽取 视频标题、视频链接
    html = etree.html(response.text)
    tit_list = html.xpath('//span[@class="video-title"]/text()')#获取视频标题
    src_list = html.xpath('//div[@class="video-play"]/video/@src')#获取视频链接
    for tit,src in zip(tit_list,src_list):
        #3.下载视频
        response = requests.get("http:" + src)
        #给视频链接头加上http头,http快但是不一定安全,https安全但是慢

        #4.保存视频
        if os.path.exists("video1") == false:#判断是否有video这个文件夹
            os.mkdir("video1")#没有的话创建video文件夹
        filename = "video1\\" + tit + ".mp4"#保存在video文件夹下，用自己的标题命名，文件格式是mp4
                                            #有特殊字符的话需要用\来注释它，\是特殊字符所以这里要用2个\\
        print("正在保存视频文件: " +filename)#打印出来正在保存哪个文件
        with open (filename,"wb") as f:#将视频写入filename命名的文件中
           f.write(response.content)

end_time = time.time()#记录结束时间
print("耗时%d秒"%(end_time-start_time))#输出用了多少时间

2.将上述代码套用多线程，先创建多线程

data_list = []#设置一个全局变量的列表
# 创建多线程
class mythread(threading.thread):
    def __init__(self, q):
        threading.thread.__init__(self)
        self.q = q

    #调用get_index()
    def run(self) -> none:
        self.get_index()

    #拿到网址后获取所需要的数据并存入全局变量data_list中
    def get_index(self):
        url = self.q.get()
        try:
            resp = requests.get(url)# 访问网址
            # 将返回的数据转成lxml格式，之后使用xpath进行抓取
            html = etree.html(resp.content)
            tit_list = html.xpath('//span[@class="video-title"]/text()')  # 获取视频标题
            src_list = html.xpath('//div[@class="video-play"]/video/@src')  # 获取视频链接
            for tit, src in zip(tit_list, src_list):
                data_dict = {}#设置一个存放数据的字典
                data_dict['title'] = tit#往字典里添加视频标题
                data_dict['src'] = src#往字典里添加视频链接
                # print(data_dict)
                data_list.append(data_dict)#将这个字典添加到全局变量的列表中

        except exception as e:
            # 如果访问超时就打印错误信息，并将该条url放入队列，防止出错的url没有爬取
            self.q.put(url)
            print(e)

3.用队列queue,queue模块主要是多线程，保证线程安全使用的

def main():
    # 创建队列存储url
    q = queue.queue()
    for i in range(1,6):

        # 将url的参数进行编码后拼接到url
        url = 'https://ibaotu.com/shipin/7-0-0-0-0-%s.html'%str(i)
        # 将拼接好的url放入队列中
        q.put(url)

    # 如果队列不为空，就继续爬
    while not q.empty():
        # 创建3个线程
        ts = []
        for count in range(1,4):
            t = mythread(q)
            ts.append(t)
        for t in ts:
            t.start()
        for t in ts:
            t.join()

4.创建存储方法，如果你学习遇到问题找不到人解答，可以，里面大佬解决问题及python教.程下载和一群上进的人一起交流！

#提取data_list的数据并保存
def save_index(data_list):
    if data_list:
        for i in data_list:
            # 下载视频
            response = requests.get("http:" + i['src'])
            # 给视频链接头加上http头，http快但是不安全,https安全但是慢

            # 保存视频
            if os.path.exists("video") == false:  # 判断是否有video这个文件夹
                os.mkdir("video")  # 没有的话创建video文件夹
            filename = "video\\" + i['title'] + ".mp4"  # 保存在video文件夹下，用自己的标题命名，文件格式是mp4
            # 有特殊字符的话需要用\来注释它，\是特殊字符所以这里要用2个\\
            print("正在保存视频文件: " + filename)  # 打印出来正在保存哪个文件
            with open(filename, "wb") as f:  # 将视频写入filename命名的文件中
                f.write(response.content)

5.最后就是调用函数了

if __name__ == '__main__':
    start_time = time.time()
    # 启动爬虫
    main()
    save_index(data_list)
    end_time = time.time()
    print("耗时%d"%(end_time-start_time))

6.附上完整的多线程代码

import requests
from lxml import etree
import os
import queue
import threading
import time

data_list = []#设置一个全局变量的列表

# 创建多线程
class mythread(threading.thread):
    def __init__(self, q):
        threading.thread.__init__(self)
        self.q = q

    #调用get_index()
    def run(self) -> none:
        self.get_index()

    #拿到网址后获取所需要的数据并存入全局变量data_list中
    def get_index(self):
        url = self.q.get()
        try:
            resp = requests.get(url)# 访问网址
            # 将返回的数据转成lxml格式，之后使用xpath进行抓取
            html = etree.html(resp.content)
            tit_list = html.xpath('//span[@class="video-title"]/text()')  # 获取视频标题
            src_list = html.xpath('//div[@class="video-play"]/video/@src')  # 获取视频链接
            for tit, src in zip(tit_list, src_list):
                data_dict = {}#设置一个存放数据的字典
                data_dict['title'] = tit#往字典里添加视频标题
                data_dict['src'] = src#往字典里添加视频链接
                # print(data_dict)
                data_list.append(data_dict)#将这个字典添加到全局变量的列表中

        except exception as e:
            # 如果访问超时就打印错误信息，并将该条url放入队列，防止出错的url没有爬取
            self.q.put(url)
            print(e)



def main():
    # 创建队列存储url
    q = queue.queue()
    for i in range(1,7):

        # 将url的参数进行编码后拼接到url
        url = 'https://ibaotu.com/shipin/7-0-0-0-0-%s.html'%str(i)
        # 将拼接好的url放入队列中
        q.put(url)

    # 如果队列不为空，就继续爬
    while not q.empty():
        # 创建3个线程
        ts = []
        for count in range(1,4):
            t = mythread(q)
            ts.append(t)
        for t in ts:
            t.start()
        for t in ts:
            t.join()

#提取data_list的数据并保存
def save_index(data_list):
    if data_list:
        for i in data_list:
            # 下载视频
            response = requests.get("http:" + i['src'])
            # 给视频链接头加上http头，http快但是不安全,https安全但是慢

            # 保存视频
            if os.path.exists("video") == false:  # 判断是否有video这个文件夹
                os.mkdir("video")  # 没有的话创建video文件夹
            filename = "video\\" + i['title'] + ".mp4"  # 保存在video文件夹下，用自己的标题命名，文件格式是mp4
            # 有特殊字符的话需要用\来注释它，\是特殊字符所以这里要用2个\\
            print("正在保存视频文件: " + filename)  # 打印出来正在保存哪个文件
            with open(filename, "wb") as f:  # 将视频写入filename命名的文件中
                f.write(response.content)

if __name__ == '__main__':
    start_time = time.time()
    # 启动爬虫
    main()
    save_index(data_list)
    end_time = time.time()
    print("耗时%d"%(end_time-start_time))

7.这2个爬虫我都设置了开始时间和结束时间，可以用(结束时间-开始时间)来计算比较两者的效率。
【新手必学】Python爬虫之多线程实战

上一篇：报告：苹果是第三季度最赚钱手机厂商独占66%

下一篇： hadoop 完全分布式部署

【新手必学】Python爬虫之多线程实战

Python爬虫实现抓取腾讯视频所有电影【实战必学】

Python爬虫之cookie的获取、保存和使用【新手必学】

【新手必学】Python爬虫之多线程实战

python实现爬虫统计学校BBS男女比例之多线程爬虫（二）

Python多线程爬虫获取糗事百科段子(Python爬虫实战2)

Python之多线程爬虫抓取网页图片的示例代码

Python多线程爬虫实战_爬取糗事百科段子的实例

Python之多线程爬虫抓取网页图片的实战代码

2020最新Python 爬虫入门实战项目，新手必学

Python爬虫实现抓取腾讯视频所有电影【实战必学】