欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Python爬虫速成------Requests库

程序员文章站 2022-07-14 11:19:08
...

Requests库

Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。

警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症、冗余代码症、重新发明*症、啃文档症、抑郁、头疼、甚至死亡。

看吧,这就是 Requests 的威力:

>>> r = requests.get('https://api.github.com/user', auth=('user', 'pass'))
>>> r.status_code
200
>>> r.headers['content-type']
'application/json; charset=utf8'
>>> r.encoding
'utf-8'
>>> r.text
u'{"type":"User"...'
>>> r.json()
{u'private_gists': 419, u'total_private_repos': 77, ...}

以上这句话摘自Requests库的官方文档

import requests
r = requests.get('http://www.baidu.com')
print('状态码:', r.status_code)
# 更改字符编码
r.encoding = 'utf-8'
print('显示文本:\n' + r.text)

Python爬虫速成------Requests库

requests.get(url)返回Response类型对象

Python爬虫速成------Requests库

r.apparent_encoding根据网页内容分析出来的编码方式

Python爬虫速成------Requests库

假设URL位置有一组数据UserInfo,包括UserID、UserName等20个字段

需求:用户修改了UserName,其他不变

  • 采用PATCH,仅向URL提交UserName的局部更新请求
  • 采用PUT,必须将所有20个字段一并提交到URL,未提交字段被删除
    PATCH的最主要好处:节省网络带宽

通过 https://www.jd.com/robots.txt 访问京东的Robots协议

User-agent: * 
Disallow: /?* 
Disallow: /pop/*.html 
Disallow: /pinpai/*.html?* 
User-agent: EtaoSpider 
Disallow: / 
User-agent: HuihuiSpider 
Disallow: / 
User-agent: GwdangSpider 
Disallow: / 
User-agent: WochachaSpider 
Disallow: /

robots协议一定要放在网站的根目录下,基本格式:

User-agent: * 
Disallow: /

*代表所有,/代表根目录

推荐课程《Python网络爬虫与信息提取 》

相关标签: 笔记