python3 urllib 爬虫 Handler 处理器自定义opener

程序员文章站 2022-05-03 21:36:03

...

# 背景

opener是 urllib.OpenerDirector 的实例，我们之前一直都在使用的urlopen，它是一个特殊的opener（也就是模块帮我们构建好的）
但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能：
1. 使用相关的 Handler处理器来创建特定功能的处理器对象
2. 然后通过 urllib.request.build_opener()方法使用这些处理器对象，创建自定义opener对象；
3. 使用自定义的opener对象，调用open()方法发送请求
如果程序里所有的请求都使用自定义的opener，可以使用urllib.request.install_opener() 将自定义的 opener 对象定义为全局opener，表示如果之后凡是调用urlopen，都将使用这个opener（根据自己的需求来选择）

具体的实现代码



import urllib.request

# 构建一个HTTPHandler 处理器对象，支持处理HTTP请求
# http_handler = urllib.request.HTTPHandler(debuglevel=1)
http_handler = urllib.request.HTTPHandler()

# 构建一个HTTPHandler 处理器对象，支持处理HTTPS请求
# http_handler = urllib.request.HTTPSHandler()

# 调用urllib2.build_opener()方法，创建支持处理HTTP请求的opener对象
opener = urllib.request.build_opener(http_handler)

# 构建 Request请求
request = urllib.request.Request("http://www.baidu.com/")

# 调用自定义opener对象的open()方法，发送request请求
response = opener.open(request)

# 获取服务器响应内容
print(response.read().decode("utf8"))

这种方式发送的请求得到的结果，和使用urllib.request.urlopen() 的效果是一样的。如果在httphandle（）增加debuglevel=1 参数。还会将debug log 打开，这样的程序在执行的时候会把收包和发包的报头打印出来，方便调试省去了抓包的工作

python3 urllib 爬虫 Handler 处理器 自定义opener

具体的实现代码

python3 urllib 爬虫 Handler 处理器PRoxyHandlr 处理器（代理设置）

python3 urllib 爬虫 Handler 处理器 自定义opener

python3 urllib 爬虫 Handler 处理器自定义opener

python3 urllib 爬虫 Handler 处理器自定义opener