python爬虫快速响应服务器的做法
程序员文章站
2022-06-26 17:56:21
不论是打开网页或者爬取一些资料的时候,我们想要的是计算机能在最短的时间内运行出结果,不然等待的时间过长会影响下一步工作的计划。这时候我们可以给计算机一个指令,限制最久能等待的时间,在我们能接受的时间内...
不论是打开网页或者爬取一些资料的时候,我们想要的是计算机能在最短的时间内运行出结果,不然等待的时间过长会影响下一步工作的计划。这时候我们可以给计算机一个指令,限制最久能等待的时间,在我们能接受的时间内运行出结果。那么这个指令方法是什么呢?接下来我们一起看看吧。
requests之所以称为“http for human”,因为其封装层次很高,其中一处体现就在:requests会自动处理服务器响应的重定向。我在做搜狗微信公众号抓取的时候,搜狗搜索列表页面的公众号文章地址,其实不是微信的地址而需要请求到搜狗到服务器做重定向,而requests的默认处理则是将整个过程全部搞定,对此可以这样:
in [1]: r = requests.get('http://xlzd.me', allow_redirects=false)
allow_redirects参数为false则表示不会主动重定向。
另外,有时候对方网站的响应时间太长了,我们希望在指定时间内完事,或者直接停止这个请求,这时候的做法是:
in [1]: r = requests.get('http://xlzd.me', timeout=3)
timeout表示这次请求最长我最长只等待多少秒
拓展:
为requests套上一层代理的做法也非常简单:
import requests proxies = { "http": "http://192.168.31.1:3128", "https": "http://10.10.1.10:1080", } requests.get("http://xlzd.me", proxies=proxies)
到此这篇关于python爬虫快速响应服务器的做法的文章就介绍到这了,更多相关python爬虫中如何快速响应服务器内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!