Python爬虫速成------Requests库
程序员文章站
2022-07-14 11:19:08
...
Requests库
Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。
警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症、冗余代码症、重新发明*症、啃文档症、抑郁、头疼、甚至死亡。
看吧,这就是 Requests 的威力:
>>> r = requests.get('https://api.github.com/user', auth=('user', 'pass'))
>>> r.status_code
200
>>> r.headers['content-type']
'application/json; charset=utf8'
>>> r.encoding
'utf-8'
>>> r.text
u'{"type":"User"...'
>>> r.json()
{u'private_gists': 419, u'total_private_repos': 77, ...}
以上这句话摘自Requests库的官方文档
import requests
r = requests.get('http://www.baidu.com')
print('状态码:', r.status_code)
# 更改字符编码
r.encoding = 'utf-8'
print('显示文本:\n' + r.text)
requests.get(url)
返回Response类型对象
r.apparent_encoding
根据网页内容分析出来的编码方式
假设URL位置有一组数据UserInfo,包括UserID、UserName等20个字段
需求:用户修改了UserName,其他不变
- 采用PATCH,仅向URL提交UserName的局部更新请求
- 采用PUT,必须将所有20个字段一并提交到URL,未提交字段被删除
PATCH的最主要好处:节省网络带宽
通过 https://www.jd.com/robots.txt 访问京东的Robots协议
User-agent: *
Disallow: /?*
Disallow: /pop/*.html
Disallow: /pinpai/*.html?*
User-agent: EtaoSpider
Disallow: /
User-agent: HuihuiSpider
Disallow: /
User-agent: GwdangSpider
Disallow: /
User-agent: WochachaSpider
Disallow: /
robots协议一定要放在网站的根目录下,基本格式:
User-agent: *
Disallow: /
*代表所有,/代表根目录
上一篇: python爬虫-Requests库
下一篇: 在OpenCV里实现霍夫圆检测1