python入门爬虫，爬取女生头像（无需反爬）

程序员文章站 2022-05-02 17:37:46

...

环境：python3.8
IDE：pycharm

# coding: utf-8
import requests
from lxml import etree
import re
import uuid
import time
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                        'Chrome/63.0.3239.132 Safari/537.36'}

class Spider:
    def imgrun(self,url,count):
        # 设置保存路径
        imgpath="A:\img"
        num = 1
        self.url=url
        self.count=count
        print('url========'+url)
        res=requests.get(url=url,headers=header)
        # utf8编码
        res.encoding = 'utf8'
        # 输出访问网站返回code
        print(res.status_code)
        # 将request.content 转化为 Element
        html = etree.HTML(res.content)
        # 选取图片
        items = html.xpath('//*[@id="main"]/div[3]/div[1]/div[2]/div/a[1]/img/@src')
        # print(type(items))
        for i in items:
            i+=''
            imgurl = 'https:' + i
            print('开始第'+str(count)+'次 的第'+str(num)+'张图片')
            # 去掉400*400
            # imgurl = re.sub(r'!400x400', "", imgurl)
            print(imgurl)
            result=requests.get(imgurl)
            with open(imgpath+'\\'+str(uuid.uuid1())+'.jpeg', 'wb') as f:
                f.write(result.content)
                time.sleep(1)
            num+=1
            print('download ok')
    def imgmain(self):
        # 拼接下一页,从第几次开始就是range起始值加2
        for i in range(103,110):
            print("开始第" + str(i-1) + "次")
            url = "https://www.woyaogexing.com/touxiang/nv/index_{}.html".format(i)
            self.imgrun(url,i-1)
            # time.sleep(1)

            # print(url)


sp=Spider()
# sp.modular()
sp.imgmain()

python入门爬虫，爬取女生头像（无需反爬）

Python爬虫入门教程 13-100 斗图啦表情包多线程爬取

Python爬取租房数据实例，据说可以入门爬虫的小案例！

python3爬虫-快速入门-爬取图片和标题

Python 爬虫入门(一)——爬取糗百

Python爬虫入门教程 64-100 反爬教科书级别的网站-汽车之家，字体反爬之二

Python爬虫入门教程 13-100 斗图啦表情包多线程爬取

Python爬虫入门教程 12-100 半次元COS图爬取

python爬虫爬取淘宝商品比价(附淘宝反爬虫机制解决小办法)

Python爬虫入门教程02之笔趣阁小说爬取

Python爬虫入门教程01之爬取豆瓣Top电影