欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

网络爬虫之scrapy的基本实现

程序员文章站 2022-05-06 18:47:33
...

前言

该来的还是要来的,作为网络爬虫,通用的requests库、beautifulsoup库还有常用的selenium库是非常优秀的,他们可以帮助我们解决绝大部分问题的。对于我们个人使用而言,学会这些,基本是够用了。但是哦,使用框架的爬虫可以帮助我们更高效的解决问题,所以…我们今天来看下scrapy的基础使用…

准备工作

  1. 安装scrapy库
    pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple
  2. 创建一个项目(这里创建一个通用图书爬虫项目)
    scrapy startproject book_spider
  3. 创建一个爬虫
    scrapy genspider a69novel 69shu.com

开始实践

此时我们就创建了一个完整的项目了,在这之前,先给大家看一下这个项目的目录树

.
├── book_spider
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders
│       ├── __init__.py
│       └── a69novel.py
└── scrapy.cfg

接下来我们开始书写69shu.com网址的爬虫,为了只是做一个演示,对该网站中的一本小说进行爬取下载(ps:杀鸡用牛刀),这里选用校花的贴身高手叭(ps:笑哭),我们开始针对不同的py文件进行编写。

  1. item.py文件
    用来定义一个容器,这里我们定义四个字段
    novel_name = scrapy.Field()
    novel_chapter =scrapy.Field()  
    novel_content = scrapy.Field() 
    _id = scrapy.Field()
    
    分别用来存储小说名、小说章节、小说章节内容、小说章节id值
  2. a69novel.py文件
    这是一个爬虫文件,,由我们刚刚创建的爬虫命令生成的模板文件,这里我们需要对他进行改写。
  • 首先,我们需要创建一个item实例,导入刚刚创建好的对象

    from book_spider.items import BookSpiderItem_A69Novel
    item = BookSpiderItem_A69Novel() 
    
  • 接下来使用xpath获取内容,这里需要注意一点,由于文本内容需要点进去才可以看到,我们需要定义一个内容解析方法,具体如下:

    def parse_content(self, response):
            item = BookSpiderItem_A69Novel()  
            item['_id'] = response.xpath('//td[@valign="top"]/h1/text()').extract()
            item['novel_name'] = response.xpath('//div[@class="weizhi"]//a[3]/text()').extract_first()
            item['novel_chapter'] = response.xpath('//td[@valign="top"]/h1/text()').extract()
            item['novel_content'] = response.xpath('//div[@class="yd_text2"]/text()').extract()
            yield item
    
  • 针对我们的解析方法,我们需要做如下处理,将解析的url地址传给上述的内容解析方法

    def parse(self, response):
            temp_link = response.xpath('//div[@class="mu_contain"][2]/ul/li/a/@href').extract()
            for url in temp_link[:-1]:
                yield scrapy.Request(
                    str(url),
                    callback=self.parse_content
                )
    
到这里其实我们已经实现了一个简单的爬虫,但是我们的数据没有保存啊,来接下来,我们在settings.py中打开ITEM_PIPELINES,让数据传递到 pipelines让我们做下一步处理,当然,在这里大家可以自己设置USER_AGENT啥的。
ITEM_PIPELINES = {
   'book_spider.pipelines.BookSpiderPipeline': 300,
}
pipelines中我们做如下操作即可
from pymongo import MongoClient
import re
import json
cliect = MongoClient()
db = cliect['book_spider']

class BookSpiderPipeline(object):
    def process_item(self, item, spider):
        if spider.name == 'a69novel':
            collection = db['a69novel']
            # 去除多余字符和空字符
            temp = [re.sub('\r|\n|(\xa0\xa0\xa0\xa0)', '', str(i)) for i in item['novel_content']]
            t = [i for i in temp if i != '']
            content = ''
            for i in t[1:]:
                content += i
            id = re.findall('\d+', item['_id'][0])[0]
            novel_chapter = re.sub('\d+\.', '', item['novel_chapter'][0])
            item['_id'] = id
            item['novel_content'] = content
            item['novel_chapter'] = novel_chapter
            collection.insert(dict(item))
            print('ok')
        return item
最后一步,运行爬虫

scrapy crawl a69novel
耐心等待一下,效果就出来了哦
附源码地址,欢迎大家来玩

相关标签: 网络爬虫 python