Scrapy爬虫遇到的坑
程序员文章站
2022-05-07 23:09:28
...
使用scrapy crawl XXX 爬取淘宝数据时,控制台不报错,代码也没有错误,但是一直没有生成文件。偶然发现关闭爬虫君子协议配置就可以爬取数据了。
在settings.py中修改ROBOTSTXT_OBEY:
# Obey robots.txt rules
ROBOTSTXT_OBEY = False
就可以顺利爬取数据了。
在爬取豆瓣时,即使像上面一样修改了ROBOTS_OBEY,仍然报 DEBUG: Crawled (403)错误,于是在seetings文件中添加user-agent,终于成功。
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
上一篇: Promise
下一篇: python爬虫学习:第三章:数据解析