Python的Scrapy框架解析

程序员文章站 2022-06-17 23:43:56

目录一.为什么使用scrapy框架?二.scrapy框架每个组件介绍三.scrapy框架工作原理总结一.为什么使用scrapy框架?scrapy是一个快速、高层次的屏幕抓取和web抓取...

一.为什么使用scrapy框架?

scrapy是一个快速、高层次的屏幕抓取和web抓取的框架,可用于数据挖掘、监测和自动化检测，任何人都可以根据需要去进行修改。

二.scrapy框架每个组件介绍

1.scrapy引擎（scrapy engine）：负责控制数据流在系统的所以组件中的流动，并在相应动作发生时触发事件。

2.调度器（scheduler）:从引擎接受reques并将其入队，便于以后请求它们提供给引擎。

3.下载器（downloader）：负责获取网页数据并且提供给引擎，然后提供给spider。

4.spiders：指scrapy用户编写用于分析response并且提取item或额外跟进的url类人。每个spider负责处理一些特定网站。

5.item pipeline：负责处理被spider提取出来的item。典型的处理有清洁、验证及持久化

6.下载器中间件（downloader middlewares）：指在引擎及下载器之间的特定钩子（specific hook），处理downloader 传递给引擎的response。它提供一个简便的机制，通过插入自定义代码来扩展scrapy功能。

7.spiders中间件（spider middlewares）:指在引擎及spider之间的特定钩子（specific hook），处理spider 的输入（response）和输出（items及requests）。它提供一个简便的机制，通过插入自定义代码来扩展scrapy功能。

三.scrapy框架工作原理

Python的Scrapy框架解析

1.引擎向spider要url

2.引擎将要爬取的url给调度器

3.调度器会将url生成请求对象放入指定的队列中

4.从队列中出队一个请求

5.引擎将请求交给下载器进行处理

6.下载器发送请求获取互联网数据

7.下载器将数据返回给引擎

8.引擎将数据再次给到spiders

9.spiders通过xpath解析该数据，得到数据或url

10.spiders将数据或url给到引擎

11.引擎判断该数据是url还是数据，交给管道处理，url交给调度器处理

12.当调度器里没有任何数据之后，整个程序停止

下面是我根据工作原理画的可以结合去看：

Python的Scrapy框架解析

总结

本篇文章就到这里了，希望能够给你带来帮助，也希望您能够多多关注的更多内容!

相关标签： Python Scrapy 框架解析

上一篇：芋圆怎么煮不会粘在一起

下一篇：士官学校的报考条件2021分数线汇总（2022年参考）

Python的Scrapy框架解析

目录

一.为什么使用scrapy框架?

二.scrapy框架每个组件介绍

三.scrapy框架工作原理

总结

python中多态的实例解析（详细）

使用Python的Scrapy框架十分钟爬取美女图

Python实现从脚本里运行scrapy的方法

使用Python的web.py框架实现类似Django的ORM查询的教程

深入解析AngularJS框架中$scope的作用与生命周期_AngularJS

在Python的Flask中使用WTForms表单框架的基础教程

Python解析excel文件存入sqlite数据库的方法

基于Python的接口测试框架实例

Python 基于Twisted框架的文件夹网络传输源码

Python抓取框架 Scrapy的架构