HTTP请求：从浏览器地址栏输入url到页面显示的全过程（Complete Procedure of How an HTTP Request Works）

程序员文章站 2022-07-10 15:26:08

...

本文转载自从浏览器地址栏输入url到显示页面的步骤(以HTTP为例)与在浏览器中简单输入一个网址，解密其后发生的一切（http请求的详细过程），结合了笔者自己的一部分补充说明。

在浏览器地址栏输入URL，按下回车
浏览器查看缓存，如果请求资源在缓存中并且”新鲜”，跳转到转码步骤
- 如果资源未缓存，发起新请求
- 如果已缓存，检验是否足够”新鲜”，足够”新鲜”直接提供给客户端，否则与服务器进行验证。
- 检验”新鲜”通常有两个HTTP头进行控制Expires和Cache-Control：
  - HTTP1.0提供Expires，值为一个绝对时间表示缓存”新鲜”日期
  - HTTP1.1增加了Cache-Control: max-age=,值为以秒为单位的最大”新鲜”时间
浏览器解析URL获取协议，主机，端口，path
浏览器组装一个HTTP（GET/POST）请求报文
- 这里简单说一下get和post的区别。两个都是最常用的HTTP请求的方法，而最显著的区别在于，GET方法的查询字符串（名称/值对）是在GET请求的url中发送出去的，即你会在浏览器的地址栏里看到页面将请求转发到别的地方时的参数。而POST请求则将查询字符串（名称/值对）包装在了HTTP消息主体中，因此浏览器地址栏的url后面是看不到任何查询字符串参数的，这种特性使得POST有参数传递的隐蔽性，相对更安全。
- 另外GET请求是会保留在本地浏览器的历史记录中的，而POST请求不会。相应的，GET请求可被收藏为书签，POST请求不行。
- GET请求有长度限制，而POST请求没有限制。
浏览器获取主机ip地址，过程如下：
1.浏览器缓存
2.本机缓存
3.hosts文件
4.路由器缓存
5.ISP DNS缓存
6.DNS递归查询（可能存在负载均衡导致每次IP不一样）

注意这个过程涉及到DNS（Domain Name Service）的服务。我们本地机器一般在上网后会有一个对应的DNS服务器，要么是自己手工配置的，要么是你连接的网络自动给你分配的。那么浏览器在发现你要对这个url发送请求后，便会将这个url交给配置好的DNS服务器，问它你这里有没有对应url里那个域名的ip信息，如果没有，那么这个DNS会将该url传给它的上层DNS。整个DNS可以看做是一个树状结构，该请求将一直发送到根域名服务器直到得到结果。
打开一个socket与目标IP地址，端口建立TCP链接，三次握手如下：
客户端发送一个TCP的SYN=1，Seq=X的包到服务器端口
服务器发回SYN=1， ACK=X+1， Seq=Y的响应包
客户端发送ACK=Y+1， Seq=Z
TCP连接建立后，客户端将HTTP请求发送出去。
服务器接受请求并解析，将请求转发到服务程序，如虚拟主机使用HTTP Host头部判断请求的服务程序
服务器检查HTTP请求头是否包含缓存验证信息如果验证缓存”新鲜”，返回304等对应状态码。

处理程序读取完整请求并准备HTTP响应，可能需要查询数据库等操作

        为了告知浏览器，，Web服务器首先传送一些HTTP头信息，然后传送具体内容（即HTTP体信息），HTTP头信息和HTTP体信息之间用一个空行分开。
常用的HTTP头信息有：
　　① HTTP 1.0 200 OK 　这是Web服务器应答的第一行，列出服务器正在运行的HTTP版本号和应答代码。代码"200 OK"表示请求完成。
　　② MIME_Version:1.0　它指示MIME类型的版本。
　　③ content_type:类型　这个头信息非常重要，它指示HTTP体信息的MIME类型。如：content_type:text/html指示传送的数据是HTML文档。
　　④ content_length:长度值　它指示HTTP体信息的长度（字节）。

服务器将响应报文通过TCP连接发送回浏览器。
浏览器接收HTTP响应，然后根据情况选择关闭TCP连接或者保留重用，关闭TCP连接的四次握手如下：
主动方发送Fin=1， Ack=Z， Seq= X报文
被动方发送ACK=X+1， Seq=Z报文
被动方发送Fin=1， ACK=X， Seq=Y报文
主动方发送ACK=Y， Seq=X报文
浏览器检查响应状态吗：是否为1XX，3XX， 4XX， 5XX，这些情况处理与2XX不同(2XX一般代表请求成功)
如果资源可缓存，进行缓存
对响应进行解码（例如gzip压缩）
根据资源类型决定如何处理（假设资源为HTML文档，则以下过程基本可总结为：浏览器对HTML文档进行解析）
解析HTML文档，构件DOM树，下载资源，构造CSSOM树，执行js脚本，这些操作没有严格的先后顺序，以下分别解释
构建DOM树：
- Tokenizing：根据HTML规范将字符流解析为标记
- Lexing：词法分析将标记转换为对象并定义属性和规则
- DOM construction：根据HTML标记关系将对象组成DOM树
解析过程中遇到图片、样式表、js文件，启动下载
构建CSSOM树：
- Tokenizing：字符流转换为标记流
- Node：根据标记创建节点
- CSSOM：节点创建CSSOM树
根据DOM树和CSSOM树构建渲染树:
- 从DOM树的根节点遍历所有可见节点，不可见节点包括：1）script,meta这样本身不可见的标签。2)被css隐藏的节点，如display: none
- 对每一个可见节点，找到恰当的CSSOM规则并应用
- 发布可视节点的内容和计算样式
js解析如下：
- 浏览器创建Document对象并解析HTML，将解析到的元素和文本节点添加到文档中，此时document.readystate为loading
- HTML解析器遇到没有async和defer的script时，将他们添加到文档中，然后执行行内或外部脚本。这些脚本会同步执行，并且在脚本下载和执行时解析器会暂停。这样就可以用document.write()把文本插入到输入流中。同步脚本经常简单定义函数和注册事件处理程序，他们可以遍历和操作script和他们之前的文档内容
- 当解析器遇到设置了async属性的script时，开始下载脚本并继续解析文档。脚本会在它下载完成后尽快执行，但是解析器不会停下来等它下载。异步脚本禁止使用document.write()，它们可以访问自己script和之前的文档元素
- 当文档完成解析，document.readState变成interactive
- 所有defer脚本会按照在文档出现的顺序执行，延迟脚本能访问完整文档树，禁止使用document.write()
- 浏览器在Document对象上触发DOMContentLoaded事件
- 此时文档完全解析完成，浏览器可能还在等待如图片等内容加载，等这些内容完成载入并且所有异步脚本完成载入和执行，document.readState变为complete,window触发load事件
显示页面（HTML解析过程中会逐步显示页面）