python爬虫------requests库入门

程序员文章站 2022-09-13 23:27:28

requests库的安装pip指令安装pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple/安装成功，测试以访问百度为例用status检测状态码：如果状态码是200，访问成功，否则访问失败requests库的7个主要方法requests.request七种请求方法13个参数requests.get()requests.head()request.post()requests...

requests库的安装

pip指令安装
pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple/
python爬虫------requests库入门
安装成功，测试
以访问百度为例
用status检测状态码：如果状态码是200，访问成功，否则访问失败

requests库的7个主要方法

python爬虫------requests库入门

requests.request

python爬虫------requests库入门
七种请求方法

13个参数

requests.get()

python爬虫------requests库入门

requests.head()

python爬虫------requests库入门

request.post()

python爬虫------requests库入门

requests.put()

python爬虫------requests库入门

requests.patch()

python爬虫------requests库入门

requests.delete()

python爬虫------requests库入门

get方法

访问一个网页的常用方法
python爬虫------requests库入门

response对象的属性

python爬虫------requests库入门

理解response的编码：

网页爬取有风险，异常处理

python爬虫------requests库入门

爬取网页的通用代码框架

import requests
def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()  #如果状态不是200，引发HTTPError异常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"
if __name__ == "__main__":
    url = "http://www.baidu.com"
    print(getHTMLText(url))