python3 urllib 爬虫 Handler 处理器 自定义opener
程序员文章站
2022-05-03 21:36:03
...
# 背景
- opener是 urllib.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)
- 但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能:
- 使用相关的 Handler处理器 来创建特定功能的处理器对象
- 然后通过 urllib.request.build_opener()方法使用这些处理器对象,创建自定义opener对象;
- 使用自定义的opener对象,调用open()方法发送请求
- 如果程序里所有的请求都使用自定义的opener,可以使用urllib.request.install_opener() 将自定义的 opener 对象 定义为 全局opener,表示如果之后凡是调用urlopen,都将使用这个opener(根据自己的需求来选择)
具体的实现代码
import urllib.request
# 构建一个HTTPHandler 处理器对象,支持处理HTTP请求
# http_handler = urllib.request.HTTPHandler(debuglevel=1)
http_handler = urllib.request.HTTPHandler()
# 构建一个HTTPHandler 处理器对象,支持处理HTTPS请求
# http_handler = urllib.request.HTTPSHandler()
# 调用urllib2.build_opener()方法,创建支持处理HTTP请求的opener对象
opener = urllib.request.build_opener(http_handler)
# 构建 Request请求
request = urllib.request.Request("http://www.baidu.com/")
# 调用自定义opener对象的open()方法,发送request请求
response = opener.open(request)
# 获取服务器响应内容
print(response.read().decode("utf8"))
这种方式发送的请求得到的结果, 和使用urllib.request.urlopen() 的效果是一样的。如果在httphandle()增加debuglevel=1 参数。 还会将debug log 打开, 这样的程序在执行的时候会把收包和发包的报头打印出来, 方便调试省去了抓包的工作