基于HTTP浏览器缓存机制全面解析
什么是浏览器缓存
web缓存是指一个web资源(如html页面,图片,js,数据等)存在于web服务器和客户端(浏览器)之间的副本。缓存会根据进来的请求保存输出内容的副本;当下一个请求来到的时候,如果是相同的url,缓存会根据缓存机制决定是直接使用副本响应访问请求,还是向源服务器再次发送请求。
比较常见的就是浏览器会缓存访问过网站的网页,当再次访问这个url地址的时候,如果网页没有更新,就不会再次下载网页,而是直接使用本地缓存的网页。
只有当网站明确标识资源已经更新,浏览器才会再次下载网页。浏览器和网站服务器是根据缓存机制进行缓存的
非http协议定义的缓存机制
浏览器缓存机制,其实主要就是http协议定义的缓存机制(如: expires; cache-control等)。但是也有非http协议定义的缓存机制,如使用html meta 标签,web开发者可以在html页面的节点中加入标签
<meta http-equiv="pragma" content="no-cache">
上述代码的作用是告诉浏览器当前页面不被缓存,每次访问都需要去服务器拉取。使用上很简单,但只有部分浏览器可以支持,而且所有缓存代理服务器都不支持,因为代理不解析html内容本身。
缓存流程图
利用浏览器缓存的过程:
http缓存机制
根据response header里面的cache-control和expires这两个属性,当两个都存在时,cache-control优先级较高。
cache-control
该字段用于控制浏览器在什么情况下直接使用本地缓存而不向服务器发送请求。一般具有以下值:
-
public
:指示响应可被任何缓存区缓存。 -
private
:指示对于单个用户的整个或部分响应消息,不能被共享缓存处理。这允许服务器仅仅描述当用户的部分响应消息,此响应消息对于其他用户的请求无效。 -
no-cache
:指示请求或响应消息不能缓存。 -
no-store
:用于防止重要的信息被无意的发布。在请求消息中发送将使得请求和响应消息都不使用缓存。 -
max-age
:指示浏览器可以接收生存期不大于指定时间(以秒为单位)的响应。 -
min-fresh
:指示浏览器可以接收响应时间小于当前时间加上指定时间的响应。 -
max-stale
:指示浏览器可以接收超出超时期间的响应消息。如果指定max-stale消息的值,那么浏览器可以接收超出超时期指定值之内的响应消息。
expires(石器时代的缓存机制)
expires 头部字段提供一个日期和时间,在该日期前的所有对该资源的请求都会直接使用浏览器缓存而不用向服务器请求。
例如:expires: sun, 08 nov 2009 03:37:26 gmt
注意:
- cache-control max-age 和 max-stale将覆盖expires header。
- 使用expires存在服务器端时间和浏览器时间不一致的问题。
- 另外有人说expires 是http 1.0的东西,现在默认浏览器均默认使用http 1.1。
服务端如何判断缓存已失效
服务端通过if-modified-since(last-modified)和if-none-match(etag)这两个属性的值来判断缓存是否失效的。
last-modified/if-modified-since
last-modified/if-modified-since要配合cache-control使用。
last-modified
:响应资源的最后修改时间。
if-modified-since
:当缓存过期时,发现资源具有last-modified声明,则在请求头带上if-modified-since(值就是last-modified)。服务器收到请求后发现有头if-modified-since则与被请求资源的最后修改时间进行比对。若最后修改时间较新,说明资源又被改动过,则响应http 200整片资源内容(写在响应消息包体内);若最后修改时间较旧,说明资源无新修改,则响应http 304,告知浏览器继续使用所保存的cache。
etag/if-none-match
etag/if-none-match也要配合cache-control使用。
etag
:资源在服务器的唯一标识(生成规则由服务器决定)。apache中,etag的值,默认是对文件的索引节(inode),大小(size)和最后修改时间(mtime)进行hash后得到的。
if-none-match
:当缓存过期时,发现资源具有etage声明,则在请求头带上if-none-match(值就是etag)。服务器收到请求后发现有头if-none-match 则与被请求资源的相应校验串进行比对,决定返回200或304。
为什么有了last-modified还要etag?
etag的出现主要是为了解决几个last-modified比较难解决的问题:
- last-modified标注的最后修改只能精确到秒级,如果某些文件在1秒钟以内,被修改多次的话,它将不能准确标注文件的修改时间。
- 如果某些文件会被定期生成,当有时内容并没有任何变化,但last-modified却改变了,导致文件没法使用缓存。
- 有可能存在服务器没有准确获取文件修改时间,或者与代理服务器时间不一致等情形。
200 ok(from cache)与304 not modified的区别
200 ok( from cache )不向服务器发送请求,直接使用本地缓存文件。304 not modified则向服务器询问,若服务器认为浏览器的缓存版本还可用,那么便会返回304。
200 ok( from cache ) 出现操作:
1.地址栏回车
2.页面链接跳转
3.前进、后退
304 not modified 出现操作:
1.f5刷新
2.新开窗口
缓存的不同来源
from disk cache
:从磁盘中获取缓存资源,等待下次访问时不需要重新下载资源,而直接从磁盘中获取。它的直接操作对象为curlcachemanager。
from memory cache
:从内存中获取资源,等待下次访问时不需要重新下载资源,而直接从内存中获取。
两者区别:当退出进程时,内存中的数据会被清空,而磁盘的数据不会,所以,当下次再进入该进程时,该进程仍可以从diskcache中获得数据,而memorycache则不行。
不能被缓存的请求
当然并不是所有请求都能被缓存。
无法被浏览器缓存的请求:
- http信息头中包含cache-control:no-cache,pragma:no-cache(http1.0),或cache-control:max-age=0等告诉浏览器不用缓存的请求
- 需要根据cookie,认证信息等决定输入内容的动态请求是不能被缓存的
- 经过https安全加密的请求
- post请求无法被缓存
- http响应头中不包含last-modified/etag,也不包含cache-control/expires的请求无法被缓存
以上为个人经验,希望能给大家一个参考,也希望大家多多支持。
上一篇: 使用CSS实现一个搜索引擎的原理解析