欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

3.scrapy的简介、安装及项目创建

程序员文章站 2022-05-07 17:48:37
...

1.简介

使用Python开发的主要进行数据采集的一个应用程序框架,核心使用它来进行爬虫程序的快速开发,底层使用了twisted异步模块,所以在进行数据采集下载时效率非常高!
常用的scrapy中文文档:
1.0.5:http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/tutorial.html
latest:http://scrapy-chs.readthedocs.io/zh_CN/latest/topics/selectors.html#topics-selectors-htmlcode

2.安装

安装scrapy模块

pip install scrapy 
或指定python版本
python2 -m pip install scrapy

安装win32模块
由于scrapy模块可能调用win底层C库进行函数操作,所以需要安装一个pypiwin32模块

pip install pypiwin32
或者
python(版本号) -m pip install pypiwin32

3.创建scrapy项目

通过执行如下命令,创建一个scrapy项目

scrapy startproject <spider_name>
如:
scrapy startproject myspider

创建好后会得到如下的文件结构

|-- myspider/  项目根目录
    |-- scrapy.cfg  项目配置文件 [cfg: config]
    |-- myspider/  爬虫 模块->以后的爬虫程序开发都在这个模块中
        |-- spiders/   爬虫程序所在的目录
        |-- items.py   采集的数据->定义封装模型类的模块
        |-- pipelines.py 采集的数据->采集完成之后进行数据验证、存储的模块
        |-- middlewares.py 中间件定义的模块
        |-- settings.py 项目设置模块