只用20行python代码爬取必应高质量图片

程序员文章站 2024-01-21 14:22:22

最近需要一些数据来训练神经网络，发现必应上照片的质量很高，于是写了个脚本来爬取照片。我用的selenium框架，简单实用，代码在最后面，只需要修改三个参数就行。下面简单介绍一下使用步骤。先打开必应网站，在搜索栏里输入自己要爬取图片的关键词（如“企鹅”），再选择图片，如下所示然后点击第一张图片查看原图（否则这一页都是缩略图），进入如下页面然后复制上面的链接，粘贴到代码里面driver.get()中，再设置一下爬取上限和保存路径就可以了。代码如下# -*-.coding: utf-8 -*-...

最近需要一些数据来训练神经网络，发现必应上照片的质量很高，于是写了个脚本来爬取照片。
我用的selenium框架，简单实用，代码在最后面，只需要修改三个参数就行。

下面简单介绍一下使用步骤。

先打开必应网站，在搜索栏里输入自己要爬取图片的关键词（如“企鹅”），再选择图片，如下所示

只用20行python代码爬取必应高质量图片

然后点击第一张图片查看原图（否则这一页都是缩略图），进入如下页面

只用20行python代码爬取必应高质量图片

然后复制上面的链接，粘贴到代码里面driver.get()中，再设置一下爬取上限和保存路径就可以了（注意URL里面不能有中文字符，我这里复制下来后放在jupyter-notebook里面自动将中文字符转为英文字符串了）。

代码如下

# -*-.coding: utf-8 -*-
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
import time
import urllib

with webdriver.Safari() as driver:
    wait = WebDriverWait(driver, 10)
    driver.get("https://cn.bing.com/images/search?view=detailV2&ccid=Ox48xUaY&id=71B7C20B885E0BC65D2D4E044662FB55A3078486&thid=OIP.Ox48xUaYQvUeC90Ws2wQQQHaHa&mediaurl=http%3a%2f%2fpic28.nipic.com%2f20130406%2f9483785_165021459000_2.jpg&exph=1024&expw=1024&q=%e4%bc%81%e9%b9%85&simid=608011899868351589&ck=947915F9DF09EA0AF6344C192232B62C&selectedIndex=0&ajaxhist=0")     # 替换为自己的URL
    time.sleep(5)
    num = 1
    for i in range(1000):    # 设置爬取图片上限
        src = driver.find_element_by_class_name("imgContainer").find_element_by_tag_name('img').get_attribute("src")
        print(src)
        try:
            time.sleep(0.2)
            urllib.request.urlretrieve(src,'./bing/' + str(num)+'.jpg')  # 设置为自己保存路径
            num += 1
            time.sleep(0.2)
        except Exception :
            time.sleep(1)
            print("产生未知错误，放弃保存")
            driver.find_element_by_xpath("//span[@title='Next image result']").click()
        else:
            print("图" + str(num))
            driver.find_element_by_xpath("//span[@title='Next image result']").click()

帮助到您的话点个赞哦！

本文地址：https://blog.csdn.net/DSTJWJW/article/details/107378486

相关标签：数据科学 Python python 爬虫图片 selenium 必应

上一篇：前端开发小知识点

下一篇：双系统启动问题 cannot find grldr in all devices 解决指南

只用20行python代码爬取必应高质量图片

只用20行python代码爬取必应高质量图片

Python最简单的图片爬虫，只用20行代码爬遍全网

Python爬虫实现爬取京东手机页面的图片(实例代码)

python3 爬取图片的实例代码

Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码

Python爬虫爬取一个网页上的图片地址实例代码

Python爬虫爬取煎蛋网图片代码实战

Python 爬虫批量爬取网页图片保存到本地的实现代码

python爬取优美图库海量图片，附加代码，一键爬取

python百行代码实现汉服圈图片爬取