【爬虫】1.get与post请求

程序员文章站 2024-01-19 11:33:10

...

1.学习get与post请求

任务说明：

尝试使用requests和urllib用get方法向百度https://www.baidu.com/发出一个请求，并将其返回结果输出。

1.1get与 post区别

表单提交中get和post方式的区别有5点

1.get是从服务器上获取数据，post是向服务器传送数据。

2.get是把参数数据队列加到提交表单的ACTION属性所指的URL中，值和表单内各个字段一一对应，在URL中可以看到。post是通过HTTPpost机制，将表单内各个字段与其内容放置在HTML HEADER内一起传送到ACTION属性所指的URL地址。用户看不到这个过程。

3.对于get方式，服务器端用Request.QueryString获取变量的值，对于post方式，服务器端用Request.Form获取提交的数据。

4.get传送的数据量较小，不能大于2KB。post传送的数据量较大，一般被默认为不受限制。但理论上，IIS4中最大量为80KB，IIS5中为100KB。（这里有看到其他文章介绍get和post的传送数据大小跟各个浏览器、操作系统以及服务器的限制有关）

5.get安全性非常低，post安全性较高。

HTTP 定义了与服务器交互的不同方法，最基本的方法是 get 和 post。事实上 get 适用于多数请求，而保留 post仅用于更新站点。根据 HTTP 规范，get 用于信息获取，而且应该是安全的和幂等的。所谓安全的意味着该操作用于获取信息而非修改信息。换句话说，get 请求一般不应产生副作用。幂等的意味着对同一 URL的多个请求应该返回同样的结果。完整的定义并不像看起来那样严格。从根本上讲，其目标是当用户打开一个链接时，她可以确信从自身的角度来看没有改变资源。比如，新闻站点的头版不断更新。虽然第二次请求会返回不同的一批新闻，该操作仍然被认为是安全的和幂等的，因为它总是返回当前的新闻。反之亦然。post请求就不那么轻松了。post 表示可能改变服务器上的资源的请求。仍然以新闻站点为例，读者对文章的注解应该通过 post请求实现，因为在注解提交之后站点已经不同了。

1.2 requests发送请求

（1）发送get请求：

r=requests.get('https://www.baidu.com/?dsp=ipad')

（2）获取响应内容

print(r.text)

requests会自动解码来自服务器的内容，大多数unicode字符集都能被无缝地解码。

（3）改变编码方式

r.encoding='utf-8'

结果如下：

【爬虫】1.get与post请求

1.3urllib发送请求

代码如下：

import urllib.request  
url = "https://www.baidu.com/?dsp=ipad"
html = urllib.request.urlopen(url).read()
data = html.decode("utf-8")
print(data)

结果如下：

【爬虫】1.get与post请求

2.申请返回的状态码

任务说明：如果是断开了网络，再发出申请，结果又是什么。了解申请返回的状态码。

2.1状态码的获取

requests中可以用.status_code函数获取状态码。

如下：

print(r.status_code)

结果：

【爬虫】1.get与post请求

2.2状态码介绍

HTTP状态码的英文为HTTP Status Code。状态代码由三位数字组成，第一个数字定义了响应的类别，且有五种可能取值。
　　1xx：指示信息--表示请求已接收，继续处理。
　　2xx：成功--表示请求已被成功接收、理解、接受。
　　3xx：重定向--要完成请求必须进行更进一步的操作。
　　4xx：客户端错误--请求有语法错误或请求无法实现。
　　5xx：服务器端错误--服务器未能实现合法的请求。

常见状态代码、状态描述的说明如下。
　　200 OK：客户端请求成功。
　　400 Bad Request：客户端请求有语法错误，不能被服务器所理解。
　　401 Unauthorized：请求未经授权，这个状态代码必须和WWW-Authenticate报头域一起使用。
　　403 Forbidden：服务器收到请求，但是拒绝提供服务。
　　404 Not Found：请求资源不存在，举个例子：输入了错误的URL。
　　500 Internal Server Error：服务器发生不可预期的错误。
　　503 Server Unavailable：服务器当前不能处理客户端的请求，一段时间后可能恢复正常。

2.3断网后发送请求

我断网后用get请求报如下错误：

【爬虫】1.get与post请求

3.请求头

3.1请求头含义

https://blog.****.net/qq_30553235/article/details/79282113

HTTP消息头是在，客户端请求（Request）或服务器响应（Response）时传递的，位请求或响应的第一行，HTTP消息体（请求或响应的内容）是其后传输。HTTP消息头，以明文的字符串格式传送，是以冒号分隔的键/值对，如：Accept-Charset: utf-8，每一个消息头最后以回车符(CR)和换行符(LF)结尾。HTTP消息头结束后，会用一个空白的字段来标识，这样就会出现两个连续的CR-LF。

常用的请求头：

协议头	说明	示例	状态
Accept	可接受的响应内容类型（`Content-Types`）。	`Accept: text/plain`	固定
Accept-Charset	可接受的字符集	`Accept-Charset: utf-8`	固定
Accept-Encoding	可接受的响应内容的编码方式。	`Accept-Encoding: gzip, deflate`	固定
Accept-Language	可接受的响应内容语言列表。	`Accept-Language: en-US`	固定
Accept-Datetime	可接受的按照时间来表示的响应内容版本	Accept-Datetime: Sat, 26 Dec 2015 17:30:00 GMT	临时
Authorization	用于表示HTTP协议中需要认证资源的认证信息	Authorization: Basic OSdjJGRpbjpvcGVuIANlc2SdDE==	固定
Cache-Control	用来指定当前的请求/回复中的，是否使用缓存机制。	`Cache-Control: no-cache`	固定
Connection	客户端（浏览器）想要优先使用的连接类型	`Connection: keep-alive` `Connection: Upgrade`	固定
Cookie	由之前服务器通过`Set-Cookie`（见下文）设置的一个HTTP协议Cookie	`Cookie: $Version=1; Skin=new;`	固定：标准
Content-Length	以8进制表示的请求体的长度	`Content-Length: 348`	固定
Content-MD5	请求体的内容的二进制 MD5 散列值（数字签名），以 Base64 编码的结果	Content-MD5: oD8dH2sgSW50ZWdyaIEd9D==	废弃
Content-Type	请求体的MIME类型（用于POST和PUT请求中）	Content-Type: application/x-www-form-urlencoded	固定
Date	发送该消息的日期和时间（以RFC 7231中定义的"HTTP日期"格式来发送）	Date: Dec, 26 Dec 2015 17:30:00 GMT	固定
Expect	表示客户端要求服务器做出特定的行为	`Expect: 100-continue`	固定
From	发起此请求的用户的邮件地址	`From: aaa@qq.com`	固定
Host	表示服务器的域名以及服务器所监听的端口号。如果所请求的端口是对应的服务的标准端口（80），则端口号可以省略。	`Host: www.itbilu.com:80` `Host: www.itbilu.com`	固定
If-Match	仅当客户端提供的实体与服务器上对应的实体相匹配时，才进行对应的操作。主要用于像 PUT 这样的方法中，仅当从用户上次更新某个资源后，该资源未被修改的情况下，才更新该资源。	If-Match: "9jd00cdj34pss9ejqiw39d82f20d0ikd"	固定
If-Modified-Since	允许在对应的资源未被修改的情况下返回304未修改	If-Modified-Since: Dec, 26 Dec 2015 17:30:00 GMT	固定
If-None-Match	允许在对应的内容未被修改的情况下返回304未修改（ 304 Not Modified ），参考超文本传输协议的实体标记	If-None-Match: "9jd00cdj34pss9ejqiw39d82f20d0ikd"	固定
If-Range	如果该实体未被修改过，则向返回所缺少的那一个或多个部分。否则，返回整个新的实体	If-Range: "9jd00cdj34pss9ejqiw39d82f20d0ikd"	固定
If-Unmodified-Since	仅当该实体自某个特定时间以来未被修改的情况下，才发送回应。	If-Unmodified-Since: Dec, 26 Dec 2015 17:30:00 GMT	固定
Max-Forwards	限制该消息可被代理及网关转发的次数。	`Max-Forwards: 10`	固定
Origin	发起一个针对跨域资源共享的请求（该请求要求服务器在响应中加入一个`Access-Control-Allow-Origin`的消息头，表示访问控制所允许的来源）。	`Origin: http://www.itbilu.com`	固定: 标准
Pragma	与具体的实现相关，这些字段可能在请求/回应链中的任何时候产生。	`Pragma: no-cache`	固定
Proxy-Authorization	用于向代理进行认证的认证信息。	Proxy-Authorization: Basic IOoDZRgDOi0vcGVuIHNlNidJi2==	固定
Range	表示请求某个实体的一部分，字节偏移以0开始。	`Range: bytes=500-999`	固定
Referer	表示浏览器所访问的前一个页面，可以认为是之前访问页面的链接将浏览器带到了当前页面。`Referer`其实是`Referrer`这个单词，但RFC制作标准时给拼错了，后来也就将错就错使用`Referer`了。	Referer: http://itbilu.com/nodejs	固定
TE	浏览器预期接受的传输时的编码方式：可使用回应协议头`Transfer-Encoding`中的值（还可以使用"trailers"表示数据传输时的分块方式）用来表示浏览器希望在最后一个大小为0的块之后还接收到一些额外的字段。	`TE: trailers,deflate`	固定
User-Agent	浏览器的身份标识字符串	`User-Agent: Mozilla/……`	固定
Upgrade	要求服务器升级到一个高版本协议。	Upgrade: HTTP/2.0, SHTTP/1.3, IRC/6.9, RTA/x11	固定
Via	告诉服务器，这个请求是由哪些代理发出的。	Via: 1.0 fred, 1.1 itbilu.com.com (Apache/1.1)	固定
Warning	一个一般性的警告，表示在实体内容体中可能存在错误。	Warning: 199 Miscellaneous warning	固定

3.2添加请求头

（1）requests

在requests中添加请求头：

header = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*,q=0.8',
'Accept-Encoding': 'gzip, deflate, br',
'Accept-Language': 'zh-CN,zh;q=0.9',
'Connection': 'keep-alive' }
r = requests.post(url, headers=header)

读取请求头和响应头:

head = r.headers   #响应头
print(head)   
print(r.request.headers)  #请求头

结果如下：

【爬虫】1.get与post请求

（2）urllib

在urllib中添加请求头：

import urllib.request  
url = "https://www.baidu.com/?dsp=ipad"
header = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*,q=0.8',
'Accept-Encoding': 'gzip, deflate, br',
'Accept-Language': 'zh-CN,zh;q=0.9',
'Connection': 'keep-alive' }
request = urllib.request.Request(url=url,headers=header)
resp =urllib.request.urlopen(request)

结果如下：

【爬虫】1.get与post请求

上一篇：爬虫get请求与post请求处理

下一篇： [服务器] 用Servlet搭建自己的HTTP服务|后台向前端传输文件|Java文件传输

【爬虫】1.get与post请求

1.学习get与post请求

1.1get与 post区别

1.2 requests发送请求

1.3urllib发送请求

2.申请返回的状态码

2.1状态码的获取

2.2状态码介绍

2.3断网后发送请求

3.请求头

3.1请求头含义

3.2添加请求头

java模拟http的Get/Post请求,并设置ip与port代理的方法

java模拟http的Get/Post请求,并设置ip与port代理的方法

springboot获取request请求的原始url与post参数

GET请求与POST请求

爬虫——requests基本请求，get和post

【爬虫】1.get与post请求

python爬虫学习笔记 1.8 （urllib:get请求和post请求）

爬虫get请求与post请求处理

GET请求与POST请求

python爬虫——Request之get请求和post请求