大型网站多级缓存的分层架构
这种说法带有片面性,甚至是一知半解,但是作为专业人士的我们,需要对缓存有更深、更广的了解。
缓存技术存在于应用场景的方方面面。从浏览器请求,到反向代理服务器,从进程内缓存到分布式缓存。其中缓存策略,算法也是层出不穷,今天就带大家走进缓存。
正文
缓存对于每个开发者来说是相当熟悉了,为了提高程序的性能我们会去加缓存,但是在什么地方加缓存,如何加缓存呢?
假设一个网站,需要提高性能,缓存可以放在浏览器,可以放在反向代理服务器,还可以放在应用程序进程内,同时可以放在分布式缓存系统中。
从用户请求数据到数据返回,数据经过了浏览器,cdn,代理服务器,应用服务器,以及数据库各个环节。每个环节都可以运用缓存技术。
从浏览器/客户端开始请求数据,通过 http 配合 cdn 获取数据的变更情况,到达代理服务器(nginx)可以通过反向代理获取静态资源。
再往下来到应用服务器可以通过进程内(堆内)缓存,分布式缓存等递进的方式获取数据。如果以上所有缓存都没有命中数据,才会回源到数据库。
缓存的请求顺序是:用户请求 → http 缓存 → cdn 缓存 → 代理服务器缓存 → 进程内缓存 → 分布式缓存 → 数据库。
看来在技术的架构每个环节都可以加入缓存,看看每个环节是如何应用缓存技术的。
1. http缓存
当用户通过浏览器请求服务器的时候,会发起 http 请求,如果对每次 http 请求进行缓存,那么可以减少应用服务器的压力。
当第一次请求的时候,浏览器本地缓存库没有缓存数据,会从服务器取数据,并且放到浏览器的缓存库中,下次再进行请求的时候会根据缓存的策略来读取本地或者服务的信息。
一般信息的传递通过 http 请求头 header 来传递。目前比较常见的缓存方式有两种,分别是:
-
强制缓存
-
对比缓存
1.1. 强制缓存
当浏览器本地缓存库保存了缓存信息,在缓存数据未失效的情况下,可以直接使用缓存数据。否则就需要重新获取数据。
这种缓存机制看上去比较直接,那么如何判断缓存数据是否失效呢?这里需要关注 http header 中的两个字段 expires 和 cache-control。
expires 为服务端返回的过期时间,客户端第一次请求服务器,服务器会返回资源的过期时间。如果客户端再次请求服务器,会把请求时间与过期时间做比较。
如果请求时间小于过期时间,那么说明缓存没有过期,则可以直接使用本地缓存库的信息。
反之,说明数据已经过期,必须从服务器重新获取信息,获取完毕又会更新最新的过期时间。
这种方式在 http 1.0 用的比较多,到了 http 1.1 会使用 cache-control 替代。
cache-control 中有个 max-age 属性,单位是秒,用来表示缓存内容在客户端的过期时间。
例如:max-age 是 60 秒,当前缓存没有数据,客户端第一次请求完后,将数据放入本地缓存。
那么在 60 秒以内客户端再发送请求,都不会请求应用服务器,而是从本地缓存中直接返回数据。如果两次请求相隔时间超过了 60 秒,那么就需要通过服务器获取数据。
1.2. 对比缓存
需要对比前后两次的缓存标志来判断是否使用缓存。浏览器第一次请求时,服务器会将缓存标识与数据一起返回,浏览器将二者备份至本地缓存库中。浏览器再次请求时,将备份的缓存标识发送给服务器。
服务器根据缓存标识进行判断,如果判断数据没有发生变化,把判断成功的 304 状态码发给浏览器。
这时浏览器就可以使用缓存的数据来。服务器返回的就只是 header,不包含 body。
下面介绍两种标识规则:
1.2.1. last-modified/if-modified-since 规则
在客户端第一次请求的时候,服务器会返回资源最后的修改时间,记作 last-modified。客户端将这个字段连同资源缓存起来。
last-modified 被保存以后,在下次请求时会以 last-modified-since 字段被发送。
当客户端再次请求服务器时,会把 last-modified 连同请求的资源一起发给服务器,这时 last-modified 会被命名为 if-modified-since,存放的内容都是一样的。
服务器收到请求,会把 if-modified-since 字段与服务器上保存的 last-modified 字段作比较:
-
若服务器上的 last-modified 最后修改时间大于请求的 if-modified-since,说明资源被改动过,就会把资源(包括 header+body)重新返回给浏览器,同时返回状态码 200。
-
若资源的最后修改时间小于或等于 if-modified-since,说明资源没有改动过,只会返回 header,并且返回状态码 304。浏览器接受到这个消息就可以使用本地缓存库的数据。
注意:last-modified 和 if-modified-since 指的是同一个值,只是在客户端和服务器端的叫法不同。
1.2.2. etag / if-none-match 规则
客户端第一次请求的时候,服务器会给每个资源生成一个 etag 标记。这个 etag 是根据每个资源生成的唯一 hash 串,资源如何发生变化 etag 随之更改,之后将这个 etag 返回给客户端,客户端把请求的资源和 etag 都缓存到本地。
etag 被保存以后,在下次请求时会当作 if-none-match 字段被发送出去。
在浏览器第二次请求服务器相同资源时,会把资源对应的 etag 一并发送给服务器。在请求时 etag 转化成 if-none-match,但其内容不变。
服务器收到请求后,会把 if-none-match 与服务器上资源的 etag 进行比较:
-
如果不一致,说明资源被改动过,则返回资源(header+body),返回状态码 200。
-
如果一致,说明资源没有被改过,则返回 header,返回状态码 304。浏览器接受到这个消息就可以使用本地缓存库的数据。
注意:etag 和 if-none-match 指的是同一个值,只是在客户端和服务器端的叫法不同。
2. cdn 缓存
http 缓存主要是对静态数据进行缓存,把从服务器拿到的数据缓存到客户端/浏览器。
如果在客户端和服务器之间再加上一层 cdn,可以让 cdn 为应用服务器提供缓存,如果在 cdn 上缓存,就不用再请求应用服务器了。并且 http 缓存提到的两种策略同样可以在 cdn 服务器执行。
cdn 的全称是 content delivery network,即内容分发网络。
让我们来看看它是如何工作的吧:
-
客户端发送 url 给 dns 服务器。
-
dns 通过域名解析,把请求指向 cdn 网络中的 dns 负载均衡器。
-
dns 负载均衡器将最近 cdn 节点的 ip 告诉 dns,dns 告之客户端最新 cdn 节点的 ip。
-
客户端请求最近的 cdn 节点。
-
cdn 节点从应用服务器获取资源返回给客户端,同时将静态信息缓存。注意:客户端下次互动的对象就是 cdn 缓存了,cdn 可以和应用服务器同步缓存信息。
cdn 接受客户端的请求,它就是离客户端最近的服务器,它后面会链接多台服务器,起到了缓存和负载均衡的作用。
3. 负载均衡缓存
说完客户端(http)缓存和 cdn 缓存,我们离应用服务越来越近了,在到达应用服务之前,请求还要经过负载均衡器。
虽说它的主要工作是对应用服务器进行负载均衡,但是它也可以作缓存。可以把一些修改频率不高的数据缓存在这里,例如:用户信息,配置信息。通过服务定期刷新这个缓存就行了。
以 nginx 为例,我们看看它是如何工作的:
-
用户请求在达到应用服务器之前,会先访问 nginx 负载均衡器,如果发现有缓存信息,直接返回给用户。
-
如果没有发现缓存信息,nginx 回源到应用服务器获取信息。
-
另外,有一个缓存更新服务,定期把应用服务器中相对稳定的信息更新到 nginx 本地缓存中。
4. 进程内缓存
通过了客户端,cdn,负载均衡器,我们终于来到了应用服务器。应用服务器上部署着一个个应用,这些应用以进程的方式运行着,那么在进程中的缓存是怎样的呢?
进程内缓存又叫托管堆缓存,以apc为例,同时会受到托管堆回收算法的影响。
由于其运行在内存中,对数据的响应速度很快,通常我们会把热点数据放在这里。
在进程内缓存没有命中的时候,我们会去搜索进程外的缓存或者分布式缓存。这种缓存的好处是没有序列化和反序列化,是最快的缓存。缺点是缓存的空间不能太大,对垃圾回收器的性能有影响。
这里我们需要关注几个缓存的回收策略,具体的实现架构的回收策略会有所不同,但大致的思路都是一致的:
-
fifo(first in first out):先进先出算法,最先放入缓存的数据最先被移除。
-
lru(least recently used):最近最少使用算法,把最久没有使用过的数据移除缓存。
-
lfu(least frequently used):最不常用算法,在一段时间内使用频率最小的数据被移除缓存。
在分布式架构的今天,多应用中如果采用进程内缓存会存在数据一致性的问题。
这里推荐两个方案:
-
消息队列修改方案
-
timer 修改方案
4.1. 消息队列修改方案
应用在修改完自身缓存数据和数据库数据之后,给消息队列发送数据变化通知,其他应用订阅了消息通知,在收到通知的时候修改缓存数据。
4.2. timer 修改方案
为了避免耦合,降低复杂性,对“实时一致性”不敏感的情况下。每个应用都会启动一个 timer,定时从数据库拉取最新的数据,更新缓存。
不过在有的应用更新数据库后,其他节点通过 timer 获取数据之间,会读到脏数据。这里需要控制好 timer 的频率,以及应用与对实时性要求不高的场景。
进程内缓存有哪些使用场景呢?
-
场景一:只读数据,可以考虑在进程启动时加载到内存。当然,把数据加载到类似 redis 这样的进程外缓存服务也能解决这类问题。
-
场景二:高并发,可以考虑使用进程内缓存,例如:秒杀。
5. 分布式缓存
说完进程内缓存,自然就过度到进程外缓存了。与进程内缓存不同,进程外缓存在应用运行的进程之外,它拥有更大的缓存容量,并且可以部署到不同的物理节点,通常会用分布式缓存的方式实现。
分布式缓存是与应用分离的缓存服务,最大的特点是,自身是一个独立的应用/服务,与本地应用隔离,多个应用可直接共享一个或者多个缓存应用/服务。
既然是分布式缓存,缓存的数据会分布到不同的缓存节点上,每个缓存节点缓存的数据大小通常也是有限制的。
数据被缓存到不同的节点,为了能方便的访问这些节点,需要引入缓存代理,类似 twemproxy。他会帮助请求找到对应的缓存节点。
同时如果缓存节点增加了,这个代理也会只能识别并且把新的缓存数据分片到新的节点,做横向的扩展。
为了提高缓存的可用性,会在原有的缓存节点上加入 master/slave 的设计。当缓存数据写入 master 节点的时候,会同时同步一份到 slave 节点。
一旦 master 节点失效,可以通过代理直接切换到 slave 节点,这时 slave 节点就变成了 master 节点,保证缓存的正常工作。
每个缓存节点还会提供缓存过期的机制,并且会把缓存内容定期以快照的方式保存到文件上,方便缓存崩溃之后启动预热加载。
5.1. 高性能
当缓存做成分布式的时候,数据会根据一定的规律分配到每个缓存应用/服务上。
如果我们把这些缓存应用/服务叫做缓存节点,每个节点一般都可以缓存一定容量的数据,例如:redis 一个节点可以缓存 2g 的数据。
如果需要缓存的数据量比较大就需要扩展多个缓存节点来实现,这么多的缓存节点,客户端的请求不知道访问哪个节点怎么办?缓存的数据又如何放到这些节点上?
缓存代理服务已经帮我们解决这些问题了,例如:twemproxy 不但可以帮助缓存路由,同时可以管理缓存节点。
这里有介绍三种缓存数据分片的算法,有了这些算法缓存代理就可以方便的找到分片的数据了。
5.1.1. 哈希算法
hash 表是最常见的数据结构,实现方式是,对数据记录的关键值进行 hash,然后再对需要分片的缓存节点个数进行取模得到的余数进行数据分配。
例如:有三条记录数据分别是 r1,r2,r3。他们的 id 分别是 01,02,03,假设对这三个记录的 id 作为关键值进行 hash 算法之后的结果依旧是 01,02,03。
我们想把这三条数据放到三个缓存节点中,可以把这个结果分别对 3 这个数字取模得到余数,这个余数就是这三条记录分别放置的缓存节点。
hash 算法是某种程度上的平均放置,策略比较简单,如果要增加缓存节点,对已经存在的数据会有较大的变动。
5.1.2. 一致性哈希算法
一致性 hash 是将数据按照特征值映射到一个首尾相接的 hash 环上,同时也将缓存节点映射到这个环上。
如果要缓存数据,通过数据的关键值(key)在环上找到自己存放的位置。这些数据按照自身的 id 取 hash 之后得到的值按照顺序在环上排列。
如果这个时候要插入一条新的数据其 id 是 115,那么就应该插入到如下图的位置。
同理如果要增加一个缓存节点 n4 150,也可以放到如下图的位置。
这种算法对于增加缓存数据,和缓存节点的开销相对比较小。
5.1.3. range based 算法
这种方式是按照关键值(例如 id)将数据划分成不同的区间,每个缓存节点负责一个或者多个区间。跟一致性哈希有点像。
例如:存在三个缓存节点分别是 n1,n2,n3。他们用来存放数据的区间分别是,n1(0, 100], n2(100, 200], n3(300, 400]。
那么数据根据自己 id 作为关键字做 hash 以后的结果就会分别对应放到这几个区域里面了。
关注公众号可获取一线互联网公司面试题目额
下一篇: 你就可怜可怜他吧