只用20行python代码爬取必应高质量图片
程序员文章站
2024-01-21 14:22:22
最近需要一些数据来训练神经网络,发现必应上照片的质量很高,于是写了个脚本来爬取照片。我用的selenium框架,简单实用,代码在最后面,只需要修改三个参数就行。下面简单介绍一下使用步骤。先打开必应网站,在搜索栏里输入自己要爬取图片的关键词(如“企鹅”),再选择图片,如下所示然后点击第一张图片查看原图(否则这一页都是缩略图),进入如下页面然后复制上面的链接,粘贴到代码里面driver.get()中,再设置一下爬取上限和保存路径就可以了。代码如下# -*-.coding: utf-8 -*-...
最近需要一些数据来训练神经网络,发现必应上照片的质量很高,于是写了个脚本来爬取照片。
我用的selenium框架,简单实用,代码在最后面,只需要修改三个参数就行。
下面简单介绍一下使用步骤。
先打开必应网站,在搜索栏里输入自己要爬取图片的关键词(如“企鹅”),再选择图片,如下所示
然后点击第一张图片查看原图(否则这一页都是缩略图),进入如下页面
然后复制上面的链接,粘贴到代码里面driver.get()
中,再设置一下爬取上限和保存路径就可以了(注意URL里面不能有中文字符,我这里复制下来后放在jupyter-notebook里面自动将中文字符转为英文字符串了)。
代码如下
# -*-.coding: utf-8 -*-
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
import time
import urllib
with webdriver.Safari() as driver:
wait = WebDriverWait(driver, 10)
driver.get("https://cn.bing.com/images/search?view=detailV2&ccid=Ox48xUaY&id=71B7C20B885E0BC65D2D4E044662FB55A3078486&thid=OIP.Ox48xUaYQvUeC90Ws2wQQQHaHa&mediaurl=http%3a%2f%2fpic28.nipic.com%2f20130406%2f9483785_165021459000_2.jpg&exph=1024&expw=1024&q=%e4%bc%81%e9%b9%85&simid=608011899868351589&ck=947915F9DF09EA0AF6344C192232B62C&selectedIndex=0&ajaxhist=0") # 替换为自己的URL
time.sleep(5)
num = 1
for i in range(1000): # 设置爬取图片上限
src = driver.find_element_by_class_name("imgContainer").find_element_by_tag_name('img').get_attribute("src")
print(src)
try:
time.sleep(0.2)
urllib.request.urlretrieve(src,'./bing/' + str(num)+'.jpg') # 设置为自己保存路径
num += 1
time.sleep(0.2)
except Exception :
time.sleep(1)
print("产生未知错误,放弃保存")
driver.find_element_by_xpath("//span[@title='Next image result']").click()
else:
print("图" + str(num))
driver.find_element_by_xpath("//span[@title='Next image result']").click()
帮助到您的话点个赞哦!
本文地址:https://blog.csdn.net/DSTJWJW/article/details/107378486