Python爬虫：HTTP协议、Requests库

程序员文章站 2022-05-10 13:29:30

...

HTTP协议：

HTTP（Hypertext Transfer Protocol）：即超文本传输协议。URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源。

HTTP协议对资源的操作：

Python爬虫：HTTP协议、Requests库

Requests库提供了HTTP所有的基本请求方式。官方介绍：

Requests库的6个主要方法：

Python爬虫：HTTP协议、Requests库

Requests库的异常：

Python爬虫：HTTP协议、Requests库

Requests库的两个重要对象：Request（请求）、Response（相应）。Request对象支持多种请求方法；Response对象包含服务器返回的所有信息，也包含请求的Request信息。

Response对象的属性：

Python爬虫：HTTP协议、Requests库

其中，r.encoding指：如果header中不存在charset，则认为编码为ISO‐8859‐1。

r.raise_for_status()可以直接知道r.status_code是否等于200。

HTTP协议与Requests库对比：

Python爬虫：HTTP协议、Requests库

爬取网页的通用代码框架：

1 try:2     r = requests.get(url,timeout = 30)3     r.raise_for_status()4     # 如果状态不是200，引发HTTPError异常5     r.encoding = r.apparent_encoding6     return r.text7 except:8     return '产生异常'

例如，获取PMCAFF首页的信息：

 1 import requests 2  3 def getHtmlText(url): 4     try: 5         r = requests.get(url,timeout = 30) 6         r.raise_for_status() 7         r.encoding = r.apparent_encoding 8         return r.text 9     except:10         return '产生异常'11 12 if __name__ == '__main__':13     url = ''14     print(getHtmlText(url))

爬取网页的通用代码框架：操作环境：Mac，Python 3.6，PyCharm 2016.2

参考资料：中国大学MOOC课程《Python网络爬虫与信息提取》

----- End -----

作者：杜王丹，微信公众号：杜王丹，互联网产品经理。

以上就是Python爬虫：HTTP协议、Requests库的详细内容，更多请关注其它相关文章！

相关标签： Requests Python HTTP 爬虫协议

上一篇：使用Python的urllib2模块处理url和图片的技巧两则

下一篇： Oracle bitand()和trunc()函数使用方法

Python爬虫：HTTP协议、Requests库

requests库爬虫如何设置代理ip

零基础写python爬虫之HTTP异常处理

python3第三方爬虫库BeautifulSoup4安装教程

Python 中 Requests 库的用法

python爬虫的数据库连接问题【推荐】

Python使用Flask实现RESTful API，使用Postman工具、requests库测试接口

爬虫入门：requests库初步理解

Python Requests库基本用法示例

python利用requests库模拟post请求时json的使用

python爬虫之urllib库常用方法用法总结大全