欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

只用20行python代码爬取必应高质量图片

程序员文章站 2022-04-16 16:22:07
最近需要一些数据来训练神经网络,发现必应上照片的质量很高,于是写了个脚本来爬取照片。我用的selenium框架,简单实用,代码在最后面,只需要修改三个参数就行。下面简单介绍一下使用步骤。先打开必应网站,在搜索栏里输入自己要爬取图片的关键词(如“企鹅”),再选择图片,如下所示然后点击第一张图片查看原图(否则这一页都是缩略图),进入如下页面然后复制上面的链接,粘贴到代码里面driver.get()中,再设置一下爬取上限和保存路径就可以了。代码如下# -*-.coding: utf-8 -*-...

最近需要一些数据来训练神经网络,发现必应上照片的质量很高,于是写了个脚本来爬取照片。
我用的selenium框架,简单实用,代码在最后面,只需要修改三个参数就行。

下面简单介绍一下使用步骤。

先打开必应网站,在搜索栏里输入自己要爬取图片的关键词(如“企鹅”),再选择图片,如下所示

只用20行python代码爬取必应高质量图片

然后点击第一张图片查看原图(否则这一页都是缩略图),进入如下页面

只用20行python代码爬取必应高质量图片

然后复制上面的链接,粘贴到代码里面driver.get()中,再设置一下爬取上限和保存路径就可以了(注意URL里面不能有中文字符,我这里复制下来后放在jupyter-notebook里面自动将中文字符转为英文字符串了)。

代码如下

# -*-.coding: utf-8 -*-
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
import time
import urllib

with webdriver.Safari() as driver:
    wait = WebDriverWait(driver, 10)
    driver.get("https://cn.bing.com/images/search?view=detailV2&ccid=Ox48xUaY&id=71B7C20B885E0BC65D2D4E044662FB55A3078486&thid=OIP.Ox48xUaYQvUeC90Ws2wQQQHaHa&mediaurl=http%3a%2f%2fpic28.nipic.com%2f20130406%2f9483785_165021459000_2.jpg&exph=1024&expw=1024&q=%e4%bc%81%e9%b9%85&simid=608011899868351589&ck=947915F9DF09EA0AF6344C192232B62C&selectedIndex=0&ajaxhist=0")     # 替换为自己的URL
    time.sleep(5)
    num = 1
    for i in range(1000):    # 设置爬取图片上限
        src = driver.find_element_by_class_name("imgContainer").find_element_by_tag_name('img').get_attribute("src")
        print(src)
        try:
            time.sleep(0.2)
            urllib.request.urlretrieve(src,'./bing/' + str(num)+'.jpg')  # 设置为自己保存路径
            num += 1
            time.sleep(0.2)
        except Exception :
            time.sleep(1)
            print("产生未知错误,放弃保存")
            driver.find_element_by_xpath("//span[@title='Next image result']").click()
        else:
            print("图" + str(num))
            driver.find_element_by_xpath("//span[@title='Next image result']").click()

帮助到您的话点个赞哦!

本文地址:https://blog.csdn.net/DSTJWJW/article/details/107378486