PYTHON 2.7爬虫获取斗图啦网站的表情包数据（区分gif和jpg图片格式）

程序员文章站 2022-03-24 18:37:51
...
通过python实现斗图啦网站上的表情的获取和下载
#encoding=utf-8

#导入模块
import random
import requests
import re
from bs4 import BeautifulSoup
import bs4
import os

#创建请求头列表，帮助我们在进行数据爬取的时候伪装成浏览器
my_headers = [
    "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36",
    "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14",
    "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)",
]

kv = {"User-Agent": "Mozilla/5.0"}

def getHTMLText(url, headers):
    try:
        #随机从headers列表中选择一个header使用
        random_header = random.choice(headers)
        r = requests.get(url, headers={"User-Agent": random_header}, timeout = 30)
        #校验是否爬取成功，如果获取失败，输出“爬取失败”
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        # print r.text
        return r.text
    except:
        print "爬取失败"

def getImgList(Ilist, html):
    #使用python自带的html解析器，html.parser进行返回的html数据的解析工作
    soup = BeautifulSoup(html, "html.parser")
    # print html
    
    #分析解析后的html代码，通过正则表达式获取每一个图片对应的url地址，然后组成获取url的正则表达式
    pattern_img = re.compile(r'data-original="(.+?)"')
    #获取图片对应的标题
    pattern_title = re.compile(r'alt="(.+?)"')
    #找到所有的图片url值
    imgList = re.findall(pattern_img, html)
    # print imgList
    #获取所有的图片对应的标题信息
    titleList = re.findall(pattern_title, html)
    # print titleList[0].encode('utf-8')
    
    #将每一对urli地址和title组成一个列表项，放入到另外一个列表项中可以通过下表进行调用
    for i in range(len(imgList)):
        # print i,
        titleList[i] = titleList[i].encode('utf-8')
        # print titleList[i]
        Ilist.append([imgList[i], titleList[i]])
    return Ilist

#判断是否存在指定的文件夹，然后创建文件夹
def mkdir(i):
    if not os.path.exists('img-0%d' %i):
        os.mkdir('img-0%d' %i)
def printImg(Ilist,page):
    # print len(Ilist)
    for i in range(len(Ilist)):
        # print Ilist[i][0], Ilist[i][1].encode('utf-8')
        # print Ilist[i][0][-4:] == '.jpg'
        # print type(Ilist[i][1].decode())
        # print type(Ilist[0][1].decode('utf-8'))
        img_content = requests.get(Ilist[i][0]).content
        if (Ilist[i][0][-4:] == '.jpg'):
            with open('img-0%d/%s.jpg' % ( page, Ilist[i][1].decode('utf-8')), 'wb') as f:
                f.write(img_content)
                f.close()
        elif (Ilist[i][0][-4:] == '.gif'):
            with open('img-0%d/%s.gif' % ( page, Ilist[i][1].decode('utf-8')), 'wb') as f:
                f.write(img_content)
                f.close()

def main(page):
    Ilist = []
    url = "https://www.doutula.com/photo/list/?page=%d" %page
    html = getHTMLText(url, my_headers)
    Ilist = getImgList(Ilist, html)
    mkdir(page)
    printImg(Ilist, page)

# page = 1
if __name__ == "__main__":
    print "开始获取表情包图片..."
    for page in range(16):
        print "开始获取第%d页中的内容..." % page
        main(page)
        print "第%d页的内容获取完毕..."%page
        page += 1
    print "恭喜你，你想要的内容获取完毕！！"
    # i = 1
    # for i in range(12):
    #     print i,
上一篇： python gif动态图的合成
下一篇： U盘无法打开和格式化显示0字节的修复教程