python爬虫框架之Scrapy

程序员文章站 2022-05-06 18:50:51

...

Scrapy

是一个爬虫框架，提取结构性的数据。其可以应用在数据挖掘，信息处理等方面。提供了许多的爬虫的基类，帮我们更简便使用爬虫。基于Twisted

准备步骤

首先安装依赖库Twisted

在这个网址http://www.lfd.uci.edu/~gohlke/pythonlibs#twisted 下面去寻找符合你的python版本和系统版本的Twisted

pip install （依赖库的路径）

然后在安装scrapy框架

 pip install scrapy

用法

1.创建项目

在cmd路径下输入指令

scrapy startproject 项目名

2.项目目录结构
       firstSpider
firstSpider
spiders 爬虫目录（写代码位置）
__init__.py
myspider.py 爬虫文件,以后的爬虫代码写在这里
__init__.py
items.py     定义数据结构地方
middlewares.py 中间件（了解）
pipelines.py 管道文件
settings.py 项目配置文件
  scrapy.cfg

项目创建处理，里面是没有爬虫的，我们需要通过指令来创建一个爬虫：

scrapy genspider 项目名字 域名(baidu.com)

3.定制item.py，其实就是您的数据结构

4.撰写蜘蛛

根据response获取网页内容
response.text 字符串类型
response.body 二进制类型

打印response对象，简单的跑一把
指令

scrapy crawl qiubai

【注意】抓取的时候会出错执行
pip install pypiwin32

5.运行（自动生成对应格式文件）

scrapy crawl qiubai -o qiubai.json
scrapy crawl qiubai -o qiubai.xml
scrapy crawl qiubai -o qiubai.csv

用Scrapy写爬虫的一步骤：

1）创建项目 scrapy startproject 项目名

2）创建爬虫 scrapy genspider 爬虫名域名

运行爬虫 scrapy crawl 爬虫名 [-o xx.json/xml/csv]

3）根据需求编写item

4）在spiders里面解析数据

5）在管道中处理解析完的数据

python爬虫框架之Scrapy

Scrapy

准备步骤

用法

scrapy在python爬虫中搭建出错的解决方法

Python爬虫入门案例之爬取去哪儿旅游景点攻略以及可视化分析

Python爬虫之Selenium实现窗口截图

使用selenium框架的Python爬虫被检测到的解决方法

爬虫scrapy框架爬取一药网

Python ORM框架SQLAlchemy学习笔记之数据查询实例

Python ORM框架SQLAlchemy学习笔记之映射类使用实例和Session会话介绍

Python ORM框架SQLAlchemy学习笔记之关系映射实例

python实现爬虫统计学校BBS男女比例之数据处理（三）

玩转python爬虫之URLError异常处理

python爬虫框架之Scrapy

Scrapy

准备步骤

用法

scrapy在python爬虫中搭建出错的解决方法

Python爬虫入门案例之爬取去哪儿旅游景点攻略以及可视化分析

Python爬虫之Selenium实现窗口截图

使用selenium框架的Python爬虫被检测到的 解决方法

爬虫scrapy框架 爬取一药网

Python ORM框架SQLAlchemy学习笔记之数据查询实例

Python ORM框架SQLAlchemy学习笔记之映射类使用实例和Session会话介绍

Python ORM框架SQLAlchemy学习笔记之关系映射实例

python实现爬虫统计学校BBS男女比例之数据处理（三）

玩转python爬虫之URLError异常处理

使用selenium框架的Python爬虫被检测到的解决方法

爬虫scrapy框架爬取一药网