欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

python初识爬虫

程序员文章站 2022-03-15 15:07:55
爬虫爬虫概念:爬虫模拟客户端发送请求, 接受响应,按照一定的规则 ,自动抓取互联网程序原则上 客户端 能做的事情 , 爬虫都可以做爬虫作用:数据采集软件测试网站投票等爬虫流程:获取一个 url 地址向目标 url 地址发送请求,并获取响应如果从响应中提取 url 地址,则继续发送请求获取响应如果从响应中提取数据,则将数据进行保存requests模块:通过使用requests 模拟发送请求已虚拟环境为例:pip install requests查看虚拟环境...

爬虫

爬虫概念:

  • 爬虫模拟客户端发送请求, 接受响应,按照一定的规则 ,自动抓取互联网程序
  • 原则上 客户端 能做的事情 , 爬虫都可以做

爬虫作用:

  • 数据采集
  • 软件测试
  • 网站投票等

爬虫流程:
python初识爬虫

  • 获取一个 url 地址
  • 向目标 url 地址发送请求,并获取响应
  • 如果从响应中提取 url 地址,则继续发送请求
  • 获取响应
  • 如果从响应中提取数据,则将数据进行保存

requests模块:

通过使用requests 模拟发送请求
已虚拟环境为例:
pip install requests
python初识爬虫
查看虚拟环境下载包:
pip list
python初识爬虫

使用requests模块发送请求:

  1. 发送get请求:
    r = requests.get(‘https://postman-echo.com/get’)
  2. 发送post请求:
    r = requests.post(‘https://postman-echo.com/post’)
  3. 发送put请求:
    r = requests.put(‘https://postman-echo.com/put’)
  4. 发送delete请求:
    r = requests.delete(‘https://postman-echo.com/delete’)

获取响应状态码、响应头、响应体
python初识爬虫

我们也可以自己设置我们的编码方法:
对象.encoding = ‘编码方法’
python初识爬虫

这里你们可能看不出编码不同的不同结果,请把结果向后拉:
python初识爬虫

不同编码结果也不同

获取响应对象的json方法

python初识爬虫
对象.json()
通过响应对象的 json 方法获取 json 数据
如果json解码失败 ,对象.json()会抛出一个异常。

传递URL参数
结果会把我们传递 url 参数时, 通过响应 响应体返回
python初识爬虫
我们传递url参数使用 params 参数传递。

定制请求头
python初识爬虫
通过 headers 参数传递自定义请求头

传递cookies到服务器python初识爬虫
通过 cookies 参数发送 cookies

通过post请求 传递json数据
python初识爬虫
将 数据 传递给 json

本文地址:https://blog.csdn.net/sky_carrot/article/details/109646534

相关标签: 爬虫 python