欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Scrapy爬虫遇到的坑

程序员文章站 2022-05-07 23:09:28
...

使用scrapy crawl XXX 爬取淘宝数据时,控制台不报错,代码也没有错误,但是一直没有生成文件。偶然发现关闭爬虫君子协议配置就可以爬取数据了。

在settings.py中修改ROBOTSTXT_OBEY:

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

就可以顺利爬取数据了。

 

在爬取豆瓣时,即使像上面一样修改了ROBOTS_OBEY,仍然报 DEBUG: Crawled (403)错误,于是在seetings文件中添加user-agent,终于成功。

 

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'