scrapy爬虫调试
程序员文章站
2022-05-10 17:14:38
...
在scrapy框架运行时,调试爬虫是必不可少的一步,用于常规检查爬虫运行过程中item与接口返回值,主要操作如下:
新建 debug.py文件,写入内容如下:
from scrapy import cmdline
name = 'main' # scrapy的名称
cmd = 'scrapy crawl {0}'.format(name)
cmdline.execute(cmd.split())
主要利用scrapy中的cmdline工具,跟踪爬虫运行的过程。但是有个容易被忽略的问题,即:
在python3中,该debug.py文件的位置必须与scrapy.cfg位置保持一致!
即在工程的根目录下才能模拟正常执行爬虫时的指令:scrapy crawl main
上一篇: Yii 关闭debug保存数据时报错
推荐阅读
-
Docker容器化PHP开发环境搭建-DVWA (含xdebug调试)
-
Python使用scrapy抓取网站sitemap信息的方法
-
一个PHP实现的轻量级简单爬虫
-
Oracle 11g 触发器调试记录Error: PLS-00201: identifier'SYS.DBMS_SYST
-
打开PHP调试
-
python制作爬虫并将抓取结果保存到excel中
-
python爬虫scrapy运行ImportError:Nomodulenamedwin32api错误解决办法
-
Python爬虫学习==>第三章:Redis环境配置
-
推荐:Web开发者的六个代码调试平台_html/css_WEB-ITnose
-
PHP程序员的调试技术