爬取海量表情包，让你表情包仓库持续更新，成为群里的图王（附代码）

程序员文章站 2022-03-08 13:16:21

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。看到小伙伴一张又一张不知道从何而来的表情包是不是有点羡慕？今天小编就带大家，使用python爬取网站表情包，打造一个自己的表情包图库，让大家斗图从此永无败绩知识点： re ......

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

看到小伙伴一张又一张不知道从何而来的表情包是不是有点羡慕？

今天小编就带大家，使用python爬取网站表情包，打造一个自己的表情包图库，让大家斗图从此永无败绩

知识点：

requests 的简单使用

css选择器的简单使用

os模块操作文件夹

文件保存

开发环境：

1.python环境：annaconda5.2.0(python3.6.5)

2.编辑器：pycharm

分析：

f12检查来获取图片在源代码的位置

每一次请求的url参数，几乎都一样，只有一个参数是不同的，那就是pn，它指的是当前页面中已经展示的图片数目。

我们所需要的信息都已经找到，那么开始编写代码吧

代码如下：

import requests
import parsel  #pip install parsel
import os
import concurrent.futures

headers = {
    'user-agent': 'mozilla/5.0 (windows nt 10.0; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/73.0.3683.86 safari/537.36'
}


def get_image_url(url):
    #url = 'https://www.fabiaoqing.com/bqb/lists/type/hot/page/1.html'
    # 发送网络请求获取网业数据
    response = requests.get(url, headers=headers)
    html = response.text
    # 对数据进行筛选
    sel = parsel.selector(html)
    image_links = sel.css('a.bqba::attr(href)').getall()
    return image_links


def get_image_info(url):
    # url = 'https://www.fabiaoqing.com/bqb/detail/id/53912.html'
    response = requests.get(url, headers=headers)
    html = response.text
    sel = parsel.selector(html)
    image_url_list = sel.css('img.bqbppdetail.lazy::attr(data-original)').getall()
    folder_name = sel.css('h1.ui.header::text').re('\w+')[0]
    print('正在下载\t{}\t表情包系列'.format(folder_name))
    return folder_name, image_url_list


def save(folder_name, image_url_list):
    for url in image_url_list:
        folder_path = '表情包/{}'.format(folder_name)
        if not os.path.exists(folder_path):
            os.mkdir(folder_path)
        image_name = url.split('/')[-1]
        file_path = folder_path + '/' + image_name
        with open(file_path, mode='wb') as f:
            f.write(requests.get(url, headers=headers).content)


def download_image(page_num):
    url_links = get_image_url('https://www.fabiaoqing.com/bqb/lists/type/hot/page/{}.html'.format(page_num))
    for url_link in url_links:
        url_link = 'https://www.fabiaoqing.com' + url_link
        folder_name, image_url_list = get_image_info(url_link)
        save(folder_name, image_url_list)


if __name__ == '__main__':
    thread_pool = concurrent.futures.threadpoolexecutor(max_workers=100)
    for i in range(1, 1041):
        thread_pool.submit(download_image, i)
    thread_pool.shutdown()

最终效果图：

今天也是闲的无聊，看到好多沙雕图，就想爬下来，心情一好就爬了100页哈哈~面对五千多张表情包我也是很快乐的~

ps：如果你处于想学python或者正在学习python，python的教程不少了吧，但是是最新的吗？说不定你学了可能是两年前人家就学过的内容，在这小编分享一波2020最新的python教程。获取方式，私信小编 “ 资料 ”，即可免费获取哦！

上一篇：一个简单的文件压缩程序

下一篇： Objective-C之图片加载框架SDWebImage