python爬虫scrapy图书分类实例讲解

程序员文章站 2022-03-06 14:37:33

我们去图书馆的时候，会直接去自己喜欢的分类栏目找寻书籍。如果其中的分类不是很细致的话，想找某一本书还是有一些困难的。同样的如果我们获取了一些图书的数据，原始的文件里各种数据混杂在一起，非常不利于我们的...

我们去图书馆的时候，会直接去自己喜欢的分类栏目找寻书籍。如果其中的分类不是很细致的话，想找某一本书还是有一些困难的。同样的如果我们获取了一些图书的数据，原始的文件里各种数据混杂在一起，非常不利于我们的查找和使用。所以今天小编教大家如何用python爬虫中scrapy给图书分类，大家一起学习下：

spider抓取程序：

在贴上代码之前，先对抓取的页面和链接做一个分析：

python爬虫scrapy图书分类实例讲解

网址：

这个是当当网图书的链接，经过分析发现：大种类的id号对应 cp01.25 中的25，小种类对应id号中的第三个 17，pg4代表大种类 —>小种类下图书的第17页信息。

为了在抓取图书信息的同时找到这本图书属于哪一大种类下的小种类的归类信息，我们需要分三步走，第一步：大种类划分，在首页找到图书各大种类名称和对应的id号；第二步，根据大种类id号生成的链接，找到每个大种类下的二级子种类名称，及对应的id号；第三步，在大种类 —>小种类的归类下抓取每本图书信息。

分步骤介绍下：

1、我们继承redisspider作为父类，start_urls作为初始链接，用于请求首页图书数据

# -*- coding: utf-8 -*-
import scrapy
import requests
from scrapy import selector
from lxml import etree
from ..items import dangdangitem
from scrapy_redis.spiders import redisspider
 
class dangdangspider(redisspider):
  name = 'dangdangspider'
  redis_key = 'dangdangspider:urls'
  allowed_domains = ["dangdang.com"]
  start_urls = 'http://category.dangdang.com/cp01.00.00.00.00.00.html'
  def start_requests(self):
    user_agent = 'mozilla/5.0 (windows nt 6.1; wow64) applewebkit/537.36 (khtml, like gecko) chrome/49.0.2623.22 \
           safari/537.36 se 2.x metasr 1.0'
    headers = {'user-agent': user_agent}
    yield scrapy.request(url=self.start_urls, headers=headers, method='get', callback=self.parse)

2、在首页中抓取大种类的名称和id号，其中yield回调函数中传入的meta值为本次匹配出的大种类的名称和id号

def parse(self, response):
    user_agent = 'mozilla/5.0 (windows nt 6.1; wow64) applewebkit/537.36 (khtml, like gecko) chrome/49.0.2623.22 \
           safari/537.36 se 2.x metasr 1.0'
    headers = {'user-agent': user_agent}
    lists = response.body.decode('gbk')
    selector = etree.html(lists)
    goodslist = selector.xpath('//*[@id="leftcate"]/ul/li')
    for goods in goodslist:
      try:
        category_big = goods.xpath('a/text()').pop().replace('  ','') # 大种类
        category_big_id = goods.xpath('a/@href').pop().split('.')[1]  # id
        category_big_url = "http://category.dangdang.com/pg1-cp01.{}.00.00.00.00.html".\
                 format(str(category_big_id))
        # print("{}:{}".format(category_big_url,category_big))
        yield scrapy.request(url=category_big_url, headers=headers,callback=self.detail_parse,
                   meta={"id1":category_big_id,"id2":category_big})
      except exception:
        pass

3、根据传入的大种类的id号抓取每个大种类下的小种类图书标签，yield回调函数中传入的meta值为大种类id号和小种类id号

def detail_parse(self, response):
    id1:大种类id  id2:大种类名称  id3:小种类id id4:小种类名称
    url = 'http://category.dangdang.com/pg1-cp01.{}.00.00.00.00.html'.format(response.meta["id1"])
    category_small = requests.get(url)
    contents = etree.html(category_small.content.decode('gbk'))
    goodslist = contents.xpath('//*[@class="sort_box"]/ul/li[1]/div/span')
    for goods in goodslist:
      try:
        category_small_name = goods.xpath('a/text()').pop().replace(" ","").split('(')[0]
        category_small_id = goods.xpath('a/@href').pop().split('.')[2]
        category_small_url = "http://category.dangdang.com/pg1-cp01.{}.{}.00.00.00.html".\
                 format(str(response.meta["id1"]),str(category_small_id))
        yield scrapy.request(url=category_small_url, callback=self.third_parse, meta={"id1":response.meta["id1"],\
            "id2":response.meta["id2"],"id3":category_small_id,"id4":category_small_name})
 
        # print("============================ {}".format(response.meta["id2"])) # 大种类名称
        # print(goods.xpath('a/text()').pop().replace(" ","").split('(')[0])  # 小种类名称
        # print(goods.xpath('a/@href').pop().split('.')[2])  # 小种类id
      except exception:
        pass

4、抓取各大种类——>小种类下的图书信息

def third_parse(self,response):
    for i in range(1,101):
      url = 'http://category.dangdang.com/pg{}-cp01.{}.{}.00.00.00.html'.format(str(i),response.meta["id1"],\
                                           response.meta["id3"])
      try:
        contents = requests.get(url)
        contents = etree.html(contents.content.decode('gbk'))
        goodslist = contents.xpath('//*[@class="list_aa listimg"]/li')
        for goods in goodslist:
          item = dangdangitem()
          try:
            item['comments'] = goods.xpath('div/p[2]/a/text()').pop()
            item['title'] = goods.xpath('div/p[1]/a/text()').pop()
            item['time'] = goods.xpath('div/div/p[2]/text()').pop().replace("/", "")
            item['price'] = goods.xpath('div/p[6]/span[1]/text()').pop()
            item['discount'] = goods.xpath('div/p[6]/span[3]/text()').pop()
            item['category1'] = response.meta["id4"]    # 种类(小)
            item['category2'] = response.meta["id2"]    # 种类(大)
          except exception:
            pass
          yield item
      except exception:
        pass

到此这篇关于python爬虫scrapy图书分类实例讲解的文章就介绍到这了,更多相关python爬虫中scrapy如何给图书分类内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

上一篇：移动支付普及有商家拒收现金人民日报：违法

下一篇：湖南出台区块链五年规划专家称赋能数字文化大有可为

python爬虫scrapy图书分类实例讲解

Python 网络爬虫--关于简单的模拟登录实例讲解

Python简单爬虫导出CSV文件的实例讲解

Python网络爬虫实例讲解

以视频爬取实例讲解Python爬虫神器Beautiful Soup用法

Python爬虫UA伪装爬取的实例讲解

python中用Scrapy实现定时爬虫的实例讲解

Python3多线程爬虫实例讲解代码

Python 网络爬虫--关于简单的模拟登录实例讲解

Python3爬虫关于识别点触点选验证码的实例讲解

Python爬虫实例（Scrapy爬取视频网站资源）