欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

python爬虫之scrapy 框架学习复习整理一

程序员文章站 2022-06-13 20:48:33
...

说明:

由于好久(半年以上了)没有用到scrapy框架做爬虫了,日常的使用request+多线程和协程就能高速爬取了,时间久了发现不怎么熟练了,抽空闲时间再复习一下,巩固。

我的工作环境:

windows10系统
python3.6

学习目标

  1. 创建一个Scrapy项目
  2. 定义提取的结构化数据(Item)
  3. 编写爬取网站的 Spider 并提取出结构化数据(Item)
  4. 编写 Item Pipelines 来存储提取到的Item(即结构化数据)

1、scrapy的爬虫流程:

python爬虫之scrapy 框架学习复习整理一
python爬虫之scrapy 框架学习复习整理一

2、scrapy入门:

  1. 创建一个scrapy项目
    scrapy startproject mySpider

  2. 生成一个爬虫
    scrapy genspider xiaohuar “xiaohuar.com”

  3. 提取数据
    完善spider,使用xpath等方法

  4. 保存数据
    pipeline中保存数据

3、几个必须掌握的全局命令:

1. scrapy startproject(创建项目)
2. scrapy genspider demo demo.com (初始化爬虫文件)
3. scrapy crawl XX(运行XX蜘蛛)、
4. scrapy shell http://www.scrapyd.cn(调试网址为http://www.scrapyd.cn的网站)-- 可以用来调试测试response含有的方法,或者xpath提取的方法,进行测试。

1、创建一个scrapy项目

scrapy startproject mySpider

scrapy startproject这里是固定的,注意scrapy和startproject和mySpider中间是有空格的!后面的:mySpider是我们创建的蜘蛛名字,后面我们运行的时候用得到,你需要根据你的情况创建,比如你是想爬取淘宝你可以这样创建:

scrapy startproject taobao

会在当前目录下生成一个test_1的目录,结构如下图
python爬虫之scrapy 框架学习复习整理一

下面来简单介绍一下各个主要文件的作用:

  1. scrapy.cfg :项目的配置文件
  2. mySpider/ :项目的Python模块,将会从这里引用代码
  3. mySpider/items.py :项目的目标文件
  4. mySpider/pipelines.py :项目的管道文件
  5. mySpider/settings.py :项目的设置文件
  6. mySpider/spiders/ :存储爬虫代码目录

2、明确目标(mySpider/items.py)

我们打算抓取:http://top.baidu.com/百度风云榜实时热点前十条信息

  1. 打开mySpider目录下的items.py
  2. Item 定义结构化数据字段,用来保存爬取到的数据,有点像Python中的dict,但是提供了一些额外的保护减少错误。
  3. 可以通过创建一个 scrapy.Item 类, 并且定义类型为 scrapy.Field的类属性来定义一个Item(可以理解成类似于ORM的映射关系)。
  4. 接下来,创建一个BaiduItem 类,和构建item模型(model)。

items.py 默认会是这种:

python爬虫之scrapy 框架学习复习整理一

改为这个:

import scrapy

class BaiduItem(scrapy.Item):
    bd_id = scrapy.Field()
    bd_title = scrapy.Field()
    bd_num = scrapy.Field()

python爬虫之scrapy 框架学习复习整理一

3、制作爬虫 (spiders/baidu.py)

这里主要分为俩步:爬数据+取数据
python爬虫之scrapy 框架学习复习整理一

1、制作爬虫文件默认格式

cd mySpider
scrapy genspider baidu "top.baidu.com/"

然后会在spiders下面生成一个baidu.py文件,里面内容是下面的默认格式,自己再进行修改。
python爬虫之scrapy 框架学习复习整理一

打开 mySpider/spider目录里的 baidu.py,默认增加了下列代码:
python爬虫之scrapy 框架学习复习整理一

其实也可以由我们自行创建baidu.py并编写上面的代码,只不过使用命令可以免去编写固定代码的麻烦

要建立一个Spider, 你必须用scrapy.Spider类创建一个子类,并确定了三个强制的属性 和 一个方法。

  1. name = “” :这个爬虫的识别名称,必须是唯一的,在不同的爬虫必须定义不同的名字。
  2. allow_domains = [] 是搜索的域名范围,也就是爬虫的约束区域,规定爬虫只爬取这个域名下的网页,不存在的URL会被忽略。
  3. start_urls = () :爬取的URL元组/列表。爬虫从这里开始抓取数据,所以,第一次下载的数据将会从这些urls开始。其他子URL将会从这些起始URL中继承性生成。
  4. parse(self, response) :解析的方法,每个初始URL完成下载后将被调用,调用的时候传入从每一个URL传回的Response对象来作为唯一参数,主要作用如下:
    负责解析返回的网页数据(response.body),提取结构化数据(生成item)
    生成需要下一页的URL请求。

如果需要将start_urls的值修改为需要爬取的第一个url,或多个url,会多线程爬取这些。

2、修改parse()方法

  def parse(self, response):
	        # pass
	        print("进来了")
	        with open('./baidu.html', 'wb') as file:
	            file.write(response.body)

结果发现打印不出来“进来了”,我这里猜想是robot协议问题
python爬虫之scrapy 框架学习复习整理一
更改robot协议,为False,并且将log级别更改为:

ROBOTSTXT_OBEY = False

_LEVEL = 'DEBUG'
LOG_LEVEL = "WARNING"

成功打印出“进来了”:
python爬虫之scrapy 框架学习复习整理一

然后在项目目录下生成一个baidu.html,这个就是爬取http://top.baidu.com/返回的页面。
python爬虫之scrapy 框架学习复习整理一
这个时候,我们可以提取数据了,但是我忘记之前是如何提取的了,我只记得和request返回的是不一样的,怎么办,这时候可以考虑打印出来,看看response是什么类型,有什么方法:
python爬虫之scrapy 框架学习复习整理一
打印出类型和拥有的方法:
python爬虫之scrapy 框架学习复习整理一

3、使用xpath提取数据:

保存的页面分析:
python爬虫之scrapy 框架学习复习整理一

提取代码:

 def parse(self, response):
        # 测试是否能进来
        print("进来了")
        # 保存下来响应页面
        # with open('./baidu.html', 'wb') as file:
        #     file.write(response.body)
        # 打印出类型和方法
        # print("type_response", type(response))
        # print("dir_response", dir(response))
        # xpath提取数据
        li_list = response.xpath('//*[@id="hot-list"]//li')
        items = []
        for li in li_list:
            # 将我们得到的数据封装到一个 `BaiduItem` 对象
            item = BaiduItem()
            # extract()方法返回的都是字符串
            # 名次
            bd_id = li.xpath('./span[@class="num-top" or @class="num-normal"]/text()').extract()
            # 标题
            bd_title = li.xpath('./a[@class="list-title"]/text()').extract()
            # 搜索指数
            bd_num = li.xpath('./span[@class="icon-rise" or @class="icon-fall" or @class="icon-fair"]/text()').extract()

            # xpath返回的是包含一个元素的列表
            item['bd_id'] = bd_id[0]
            item['bd_title'] = bd_title[0]
            item['bd_num'] = bd_num[0]
            print(bd_id, bd_title, bd_num)
            items.append(item)
            # 直接返回最后数据
        print("items",items)
        return items

注意点:

  1. 使用xpath提取字符串:
    后来补充测试,截图如图:
    python爬虫之scrapy 框架学习复习整理一

    ①、extract() 返回的是一个包含字符串数据的列表【和getall()方法返回的结果一样】

    ②、extract_first() 返回的是列表的第一个字符串【和get()方法返回的结果一样,】

  2. response.xpath() 返回的是一个含有selector对象的列表

  3. 需要爬取的url必须在allowed_domains域名下的链接,allowed_domains里面可以存放多个域名,如果需要爬取其他地址,可以自己想需要爬取的跳转网页的域名加入allowed_domains的列表中。

打印出来的数据:
python爬虫之scrapy 框架学习复习整理一

4、管道保存数据(pipelines.py)

先在pipelines.py文件中增加一句,测试内容:
python爬虫之scrapy 框架学习复习整理一

发现没有进入管道pipelinespython爬虫之scrapy 框架学习复习整理一

我们修改baidu.py,将return改为yield,不能对于单个dict数据返回给管道pipelines
python爬虫之scrapy 框架学习复习整理一
需要在setting里面把设置的管道注销的打开,这样才能进入管道。
python爬虫之scrapy 框架学习复习整理一
这时候就可以进入管道了。
python爬虫之scrapy 框架学习复习整理一

注意点:yield返回的只能是dict或者None,

yield返回进入管道的,只能是字典格式的,如果是其他的就会报错:
python爬虫之scrapy 框架学习复习整理一

python爬虫之scrapy 框架学习复习整理一

5、保存到MongoDB数据库:

管道代码:

from pymongo import MongoClient


class MyspiderPipeline(object):

    def open_spider(self, spider):
        print("准备创建一个数据库")
        # 这个会在项目开始时第一次进入pipelines.py进入,之后不再进入
        # 建立于MongoClient 的连接:
        self.client = MongoClient('localhost', 27017)
        # 得到数据库
        self.db = self.client['111_test_database_baidu']
        # 得到一个集合
        self.collection = self.db['111_test_collection_baidu']

    def close_spider(self, spider):
        print('项目结束,断开数据库连接')
        # 这个会在结束时开始时第一次进入pipelines.py进入,之后不再进入
        self.client.close()

    def process_item(self, item, spider):
        print("process_item", item, spider)
        print("type",type(item))
        # 储存到数据库
        print("准备保存到数据库")
        self.collection.save(dict(item))
        return item

注意点:

item看着是dict,但是还不python里面的dict,需要使用dict(item)转换一下,才能正常保存,不然报错,我这里改了就成功了:

成功报错效果图:
python爬虫之scrapy 框架学习复习整理一

参考:
https://doc.scrapy.org/en/latest/topics/item-pipeline.html