欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

scrapy爬虫调试

程序员文章站 2022-05-10 17:14:38
...

在scrapy框架运行时,调试爬虫是必不可少的一步,用于常规检查爬虫运行过程中item与接口返回值,主要操作如下:

新建 debug.py文件,写入内容如下:

from scrapy import cmdline
name = 'main' # scrapy的名称
cmd = 'scrapy crawl {0}'.format(name)
cmdline.execute(cmd.split())

主要利用scrapy中的cmdline工具,跟踪爬虫运行的过程。但是有个容易被忽略的问题,即:

在python3中,该debug.py文件的位置必须与scrapy.cfg位置保持一致!

即在工程的根目录下才能模拟正常执行爬虫时的指令:scrapy crawl main