Python Scrapy图片爬取原理及代码实例

程序员文章站 2022-06-15 11:39:08

1.在爬虫文件中只需要解析提取出图片地址，然后将地址提交给管道在管道文件对图片进行下载和持久化存储class imgspider(scrapy.spider): name = 'img' # al...

1.在爬虫文件中只需要解析提取出图片地址，然后将地址提交给管道

在管道文件对图片进行下载和持久化存储

class imgspider(scrapy.spider):
  name = 'img'
  # allowed_domains = ['www.xxx.com']
  start_urls = ['http://www.521609.com/daxuemeinv/']
  url = 'http://www.521609.com/daxuemeinv/list8%d.html'
  pagenum = 1
  def parse(self, response):
    li_list = response.xpath('//*[@id="content"]/div[2]/div[2]/ul/li')
    for li in li_list:
      img_src = 'http://www.521609.com'+li.xpath('./a[1]/img/@src').extract_first()
      item = imgproitem()
      item['src'] = img_src

      yield item

2.配置文件修改

配置文件要增加images_store = './imgslib'表明图片存放的路径

3.管道类的修改

原本管道类继承的object，处理item对象使用时process_item方法，该方法不能发送请求，要想对图片地址发送请求，需要继承imagespipeline类，然后重写该类中的三个方法:get_media_requests，file_path，item_completed

from scrapy.pipelines.images import imagespipeline
import scrapy

class imgpropipeline(imagespipeline):

  #对某一个媒体资源进行请求发送
  #item就是接收到的spider提交过来的item
  def get_media_requests(self, item, info):
    yield scrapy.request(item['src'])

  #制定媒体数据存储的名称
  def file_path(self, request, response=none, info=none):
    name = request.url.split('/')[-1]
    print('正在下载：',name)
    return name

  #将item传递给下一个即将给执行的管道类
  def item_completed(self, results, item, info):
    return item

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

相关标签： Python Scrapy 图片爬取

上一篇：深入讲解Python函数中参数的使用及默认参数的陷阱

下一篇： Python中的数据对象持久化存储模块pickle的使用示例

Python Scrapy图片爬取原理及代码实例

Python 爬取携程所有机票的实例代码

python面向对象多线程爬虫爬取搜狐页面的实例代码

Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码

Python爬虫爬取一个网页上的图片地址实例代码

荐 Python爬虫：基于Scrapy爬取京东商品数据并保存到mysql且下载商品图片

Python3爬取英雄联盟英雄皮肤大图实例代码

PHP实现爬虫爬取图片代码实例

Python 爬取携程所有机票的实例代码

Python爬虫爬取煎蛋网图片代码实战

Python下使用Scrapy爬取网页内容的实例