欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Gerapy分布式部署

程序员文章站 2022-06-04 10:06:41
...

Gerapy分布式部署

1. 介绍

Gerapy 是一个基于scrapyd,scrapyd api,django,vue.js搭建的分布式爬虫管理框架
优点:
    (1) 更方便地控制爬虫运行
    (2) 更直观地查看爬虫状态
    (3) 更实时地查看爬取结果
    (4) 更简单地实现项目部署
    (5) 更统一地实现主机管理

2. 准备工作

(1)安装Gerapy(pip install gerapy)
(2)安装Scrapyd(pip install scrapyd)
(3)安装scrapyd-client(pip install scrapyd-client)

3. 部署

(1) 新建项目(gerapy init),会在当前目录下生成一个gerapy文件夹,gerapy文件夹里一个projects文件夹
(2) cd到gerapy文件夹下执行gerapy migrate, 对数据库进行初始化
(3) 将scrapy项目放到projects文件夹下
(4) 通过gerapy runserver 0.0.0.0:8080启动gerapy 服务
(5) 打开浏览器访问 127.0.0.1:8080 (ip port 可自己设置(Django))
(6) 新开一个终端开启scrapyd
(7) 在gerapy中加载scrapyd服务器
(8) 打包部署项目

Gerapy分布式部署

Gerapy分布式部署

Gerapy分布式部署

Gerapy分布式部署
Gerapy分布式部署

4. scrapy 项目创建及源码

CSDN地址