简单的爬虫

程序员文章站 2022-04-02 11:05:28

import requests,re,time,osfrom lxml import etree#先定义一个图片保存的路径path = r'C:\Users\wxzhanghs\Desktop\必应'#判断路径是否存在，如果不存在则创建一个，存在则忽略folder= os.path.exists(path)if not folder: folder = os.mkdir(path)else: pass#定义要爬取的页数for page in range(9,10):...

import requests,re,time,os
from lxml import etree
#定义要爬取的页数
for page in range(9,10):
    # 先定义一个图片保存的路径
    path = fr'C:\Users\wxzhanghs\Desktop\必应\第{page}页'
    # 判断路径是否存在，如果不存在则创建一个，存在则忽略
    folder = os.path.exists(path)
    if not folder:
        folder = os.mkdir(path)
    else:
        pass
    #第一页的网址是不带参数的
    if page == 1:
        url = 'https://bing.ioliu.cn'
    #后面所有页码的网址都要加一个页码的参数
    else:
        url = f'https://bing.ioliu.cn/?p={page}'
    #加入请求头，模拟浏览器发起请求，防止被反扒
    user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.170 Safari/537.36'
    header = {'user-agent':user_agent}
    req = requests.get(url=url,headers=header)
    #转换返回的html网页
    str1 = etree.HTML(req.content)
    urls = str1.xpath('//img/@src')
    names = str1.xpath('//h3/text()')
    #定义一个图片编号
    imgnum = 1
    #同时遍历图片url和name列表
    for (imgurl,imgname) in zip(urls,names):
        # 直接获取图片分辨率很小，要替换成电脑屏幕的分辨率
        imgurl1 = imgurl.replace('640x480', '1920x1080')
        # 剔除图片描述中不需要的内容
        imgname1 = imgname.split('(')[0]
        #获取图片
        img = requests.get(url=imgurl1, headers=header).content
        #写入建好的文件夹中，因为有的文件名没有括号，所以会报错，这种情况下跳过
        #无论失败还是成功都更新图片编号
        try:
            with open(path+f'\\{imgname1}.jpg'.format(imgnum),'wb') as f:
                f.write(img)
            print(f'获取第{page}页第{imgnum}张图片成功')
            imgnum += 1
        except FileNotFoundError:
            print(f'获取第{page}页第{imgnum}张图片失败')
            imgnum+=1
    #在每页爬取完后，等待2秒，防止被禁
    time.sleep(2)

本文地址：https://blog.csdn.net/weixin_44746955/article/details/110877539

简单的爬虫

sql server跟my sql 命令（语句）的区别，sql server与mysql的比

【Android开发】Android Studio 打开AVD遇到的问题

富士康表示有做搬迁工厂的准备：以满足输美iPhone

python数据分析Numpy库的常用操作

05.布尔类型也很简单

!important、CSS样式、选择器优先级高低的深入理解

对labelme标注的图片和json文件做resize操作

真正可以赚人民币的手游有哪些（正规可靠的一款赚钱游戏）

小度独立智能的灵魂卖货的命

Java - 手动解析不带引号的JSON字符串

简单的爬虫

sql server跟my sql 命令（语句）的区别，sql server与mysql的比

【Android开发】Android Studio 打开AVD遇到的问题

富士康表示有做搬迁工厂的准备：以满足输美iPhone

python数据分析Numpy库的常用操作

05.布尔类型也很简单

!important、CSS样式、选择器优先级高低的深入理解

对labelme标注的图片和json文件做resize操作

真正可以赚人民币的手游有哪些（正规可靠的一款赚钱游戏）

小度独立 智能的灵魂 卖货的命

Java - 手动解析不带引号的JSON字符串

小度独立智能的灵魂卖货的命