爬虫之urllib.error模块

程序员文章站 2022-05-03 19:57:50

...

error模块简介

我们在爬虫的时候发请求的时候难免出现错误，如访问不到服务器或者访问被禁止等等，

出错了之后urllib将错误信息封装成了一个模块对象中，这个模块就叫error模块

error的分类

分为URLError和HTTPError。

URLError是OSError的一个子类

有以下错误的时候错误信息就会被封装在URLError里：

无网络
有网络但是由于种种原因导致服务器连接失败

而如果能够连接服务器但是服务器返回了错误代码如404，403等等（400以上），那么催无信息就会被封装在HTTPError里

URLError与HttpError的区别和关系

区别：

URLError封装的错误信息一般是由网络引起的，包括url错误
HTTPError封装的错误信息一般是服务器返回了错误状态码

关系：

URLError是OSERROR的子类，HTTPError是URLError的子类

使用方法

error类是在捕获错误信息的时候使用，而且一般我们也需要进行捕获，因为你很难确定访问请求一定不会出现错误

from urllib import request
from urllib import error

url = 'http://baiduuuu.com'

try:
    res = request.Request(url)
    response = request.urlopen(res)

    print(response.read().decode())

except error.HTTPError as he:
    print(he)
    # print(he.reason)

except error.URLError as ue:
    print(ue)
    # print(ue.reason)

except Exception as e:
    print(e)

注意：由于HTTPError是URLError的子类，所以捕获的时候HTTPError要放在URLError的上面

上一篇： jQuery 跳出each循环

下一篇： 01精通Python网络爬虫——快速使用Urllib爬取网页

爬虫之urllib.error模块

error模块简介

error的分类

URLError与HttpError的区别和关系

使用方法

asp.net abp模块化开发之通用树2：设计思路及源码解析

Python 标准类库-数字和数学模块之decimal使用简介

python通配符之glob模块的使用详解

从零学习node.js之简易的网络爬虫（四）

node.js入门学习之url模块

python爬虫之xpath的基本使用详解

Python标准库之Sys模块使用详解

Python爬虫【解析库之pyquery】

Python爬虫之cookie的获取、保存和使用【新手必学】

Django学习之四：Django Model模块