scrapy爬虫调试

程序员文章站 2022-05-10 17:14:38

...

在scrapy框架运行时，调试爬虫是必不可少的一步，用于常规检查爬虫运行过程中item与接口返回值，主要操作如下：

新建 debug.py文件，写入内容如下：

from scrapy import cmdline
name = 'main' # scrapy的名称
cmd = 'scrapy crawl {0}'.format(name)
cmdline.execute(cmd.split())

主要利用scrapy中的cmdline工具，跟踪爬虫运行的过程。但是有个容易被忽略的问题，即：

在python3中，该debug.py文件的位置必须与scrapy.cfg位置保持一致！

即在工程的根目录下才能模拟正常执行爬虫时的指令：scrapy crawl main

Docker容器化PHP开发环境搭建-DVWA (含xdebug调试)