Python 爬虫返回403错误解决方法
程序员文章站
2022-04-04 08:52:03
...
问题
抓取数据时,通常调试信息是:
DEBUG: Crawled (200) <GET http://www.php.cn/> (referer: None)
如果出现
DEBUG: Crawled (403) <GET http://www.php.cn/> (referer: None)
表示网站采用了防爬技术anti-web-crawling technique(Amazon所用),比较简单即会检查用户代理(User Agent)信息。
解决方法
在请求头部构造一个User Agent,如下所示:
def start_requests(self): yield Request("http://www.php.cn/", headers={'User-Agent': "your agent string"})
以上就是Python 爬虫返回403错误解决方法的详细内容,更多请关注其它相关文章!
上一篇: js删除操作delete步骤详解
下一篇: JVM之内存管理
推荐阅读
-
Python2.7版os.path.isdir中文路径返回false的解决方法
-
神箭手云爬虫-爬取携程【国际】航班/机票信息-利用python解析返回的json文件将信息存储进Mysql数据库
-
scrapy在python爬虫中搭建出错的解决方法
-
使用selenium框架的Python爬虫被检测到的 解决方法
-
表单提交错误后返回内容消失问题的解决方法(PHP网站)
-
python爬虫scrapy运行ImportError:Nomodulenamedwin32api错误解决办法
-
python安装PIL模块时Unable to find vcvarsall.bat错误的解决方法
-
python安装PIL模块时Unable to find vcvarsall.bat错误的解决方法
-
Python os模块中的isfile()和isdir()函数均返回false问题解决方法
-
表单提交错误后返回内容消失问题的解决方法(PHP网站)