Scrapy 概览笔记

程序员文章站 2022-04-29 18:49:30

本项目代码可参考 "imzhizi/myspider: a scrapy demo with elasticsearch" 虚拟环境的创建建议爬虫项目都创建虚拟环境虚拟环境在 Python 项目中真的非常重要并且非常有意义虚拟空间的使用可参考 "Python 虚拟空间的使用难以想象的晴朗" ......

本项目代码可参考

虚拟环境的创建

建议爬虫项目都创建虚拟环境
虚拟环境在 python 项目中真的非常重要并且非常有意义
虚拟空间的使用可参考 python 虚拟空间的使用 - 难以想象的晴朗.

# 创建虚拟环境
mkdir spider-demo
cd spider-demo
python3 -m venv spidervenv
 
# 进入虚拟环境
source spidervenv/bin/activate

# 安装 scrapy
pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple

新建项目

# 使用 scrapy 新建工程
scrapy startproject myspider

# 此时文件夹中会创建一个 myspider 文件夹
# 项目结构大概是
spider-demo                                 # 根文件夹
├── myspider                          # 创建的爬虫项目, 若使用 ide, 可把此文件夹当作根文件夹
│   ├── myspider                    # 真正的爬虫代码文件夹
│   │   ├── __init__.py
│   │   ├── items.py              # 用于规定爬取数据形成的 model
│   │   ├── middlewares.py  # 中间件
│   │   ├── pipelines.py        # 流水线, 决定了爬取的数据的流向
│   │   ├── settings.py         # 配置信息
│   │   └── spiders              # 爬虫代码所在地
│   │       ├── __init__.py
│   │       └── __pycache__ 
│   └── scrapy.cfg                # 项目设置
└── spidervenv # 此处为虚拟环境文件, 已经忽略

新建爬虫

# 首先来到爬虫代码文件夹
cd myspider/myspider/spiders
# 使用 scrapy genspider 创建简单的爬虫模版
# 会在 spiders 文件夹下创建名为 doubanspider.py 的文件, 同时该爬虫也命名为 doubanspider
scrapy genspider doubanspider douban.com

pycharm 适配

经过一系列创建操作, 基本上一个爬虫应该有的组件就都准备好了, 一般情况下会使用命令 scrapy crawl name 启动爬虫, 但为了方便 ide (pycharm) 中直接开始爬虫, 一般会在 spider-demo/myspider 文件夹下创建 start.py 文件, 其中包含以下代码

若使用 pycharm 打开项目，还需将 interpreter 改为 spidervenv

from scrapy.cmdline import execute

import sys
import os

# 将系统当前目录设置为项目根目录
# os.path.abspath(__file__) 为当前文件所在绝对路径
# os.path.dirname 为文件所在目录
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy", "crawl", "doubanspider"])

工作流程

Scrapy 概览笔记

流程图中部分代码的参考

# items.py
class doubanitem(scrapy.item):
    title = scrapy.field()
    douban_link = scrapy.field()
    rating = scrapy.field()
    
    def save_to_db():
        douban = doubanmodel()
        douban.title = self['title']
        douban.douban_link = self['douban_link']
        douban.rating = self['rating']
        douban.save()

# pipelines.py
class doubanpipeline(object):

    def process_item(self, item, spider):
        item.save_to_db()
        return item

# es model, 继承的 document 提供了 save() 方法
# 一般保存在 spiders 文件夹上层
class doubantype(document):
    title = text()
    douban_link = text()
    rating = double()

其他配置

为了让爬虫顺利进行, 需要对 settings.py 进行一些修改

# settings.py

## 不遵守 robot.tx 规则
robotstxt_obey = false

## 下载延迟
download_delay = 3

## 用户代理( 爬豆瓣用 )
user_agent = 'mozilla/5.0 (windows nt 6.1; wow64) applewebkit/537.36 (khtml, like gecko) chrome/55.0.2883.87 safari/537.36'

## 请求头
default_request_headers = {
  'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'accept-language': 'en',
}

## 启用的流水线
item_pipelines = {
   'myspider.pipelines.myspiderpipeline': 300,
}

参考项目
【python分布式爬虫开发搜索引擎_python数据挖掘/抓取_python网页抓取_工程师】-慕课网

上一篇：使用pycharm开发web——django2.1.5（一）入坑尝试第一步，基本搭建

下一篇：【转载】C#中List集合使用Min()方法查找到最小值

Scrapy 概览笔记

虚拟环境的创建

新建项目

新建爬虫

pycharm 适配

工作流程

流程图中部分代码的参考

其他配置

PHP入门学习笔记之一

如何快速设置笔记本电脑一键锁屏图文步骤

10种淘宝上不可以购买的笔记本电脑

CSS3弹性盒模型开发笔记（二）

python线程池（threadpool）模块使用笔记详解

有道云笔记怎么恢复历史记录? 有道云笔记恢复记录的教程

scikit-learn使用笔记与sign prediction简单小结

笔记本ghost自动关机用u盘重装系统的方法分享

红米蜕变！今天一口气发布四款新品：手机、笔记本都有了

php 学习笔记第1/2页

Scrapy 概览笔记

虚拟环境的创建

新建项目

新建爬虫

pycharm 适配

工作流程

流程图中部分代码的参考

其他配置

PHP入门学习笔记之一

如何快速设置笔记本电脑一键锁屏图文步骤

10种淘宝上不可以购买的笔记本电脑

CSS3弹性盒模型开发笔记（二）

python线程池（threadpool）模块使用笔记详解

有道云笔记怎么恢复历史记录? 有道云笔记恢复记录的教程

scikit-learn使用笔记与sign prediction简单小结

笔记本ghost自动关机 用u盘重装系统的方法分享

红米蜕变！今天一口气发布四款新品：手机、笔记本都有了

php 学习笔记第1/2页

笔记本ghost自动关机用u盘重装系统的方法分享