应用中引入缓存层后,缓存和持久化层数据一致性的思考
程序员文章站
2022-06-05 17:22:27
一个应用中决定加缓存(Redis,memcached)之前,要考虑的第一个问题就是,引进了缓存之后,会带来哪些收益(利),付出哪些代价,引起哪些额外的问题(弊)? 任何新的中间件引进,收益和成本都是伴随的,只有当利大于弊的情况下,能够容忍其弊端(彻底解决?没有额外代价又没有负面影响,是不可能的,那就 ......
一个应用中决定加缓存(redis,memcached)之前,要考虑的第一个问题就是,引进了缓存之后,会带来哪些收益(利),付出哪些代价,引起哪些额外的问题(弊)?
任何新的中间件引进,收益和成本都是伴随的,只有当利大于弊的情况下,能够容忍其弊端(彻底解决?没有额外代价又没有负面影响,是不可能的,那就是不用就行了),才值得引进。
以redis作为缓存为例,引进之后,其利和弊也是伴随的。
带来的收益:加速读写,提高并发性,降低后端持久化层数据库的负载
付出的代价:增加代码复杂,缓存本身的运维,潜在的数据不一致造成的影响。
数据不一致的存在
引进redis(或者其他缓存)之后,应用程序到持久化层多了一个中间层,部分数据存储由原来的单一持久化层,变为缓存层和持久化层两份。
这两部分数据在相互同步的过程中,在某些时间点上的维度来看,可能会潜在不一致的情况。
其中,潜在的数据不一致,是任何一个引进缓存层之后最面临的最大的一个问题(缓存层和持久化层,最终的数据是要保持一致的,这一点是底线)。
首先需要衡量的就是,这种潜在的不一致,会引发什么样的问题,带来的问题是否可以接受范围之内,或者是否会对应用程序逻辑引起致命的问题。
缓存和持久化层存储可能会不一致,往往是缓存和持久化层未同步刷新引起的,
具体举例说明:
具体举例说明:
第一种情况,比如点赞次数,浏览次数等等(读多写少的场景,写mysql,读redis,写入了数据库但是尚未同步到缓存层这个间隙)。
不会对业务产生严重的逻辑错误,这种暂时性的数据不一致是可以忍受的,另外就是,通过刷新等手段,两者数据最终会达成一致。
第二种情况,比如银行卡取款取超,导致余额为负数,缓存和持久化层存储的不一致造成严重的逻辑错误,这种是无法忍受的。
就需要考虑这种缓存层本身的设计是否合理?
就需要考虑这种缓存层本身的设计是否合理?
轻量级做法,代码逻辑实现
如果对于缓存的合理性没有问题,且业务逻辑上要求缓存和持久化层强一致,那么久要实现数据库的一致性操作。
对于缓存和持久化层数据的一致性实现,个人的话,思路有以下两种,
轻量级的做法如下:
对于引起数据变化的逻辑,一般都是“写操作”,比如对数据的update或者delete或者insert操作,
1,首先去delete缓存中对应的数据(而不是去对应的update、delete、insert,为什么?因为只要delete成功,缓存被清理之后,就消除了不一致的可能性,而非delete就做不到)
2,如果1执行成功,再去操作持久化层的数据库,
3,最后将写入成功之后的持久化层数据回写缓存层(这一步可选,或者其它手段同步)
重量级分布式锁实现,双写实现强一致
双写的安全性一般要通过分布式锁来实现,分布式锁可以通过zookeeper或者redis实现。
一旦考虑使用分布式锁,又要考虑分布式锁的载体的安全性,也即不管是用zookeeper或者redis,要考虑zookeeper或者redis的安全性(集群)。
这样下去,问题会变得非常复杂,纯粹变为解决问题-->引入新的问题-->解决问题的死循环。
如果要保持一致,当然双写也是一种选择,不过通过双写来确保数据的绝对一致,不但会对整体效率产生负面的影响,实现也是比较困难的,暂时不讨论这种方案。
如果是分布式锁,任何写入性操作,比如update,delete等,如下:
1,直接锁定相关key值
2,依次操作缓存层和持久化层,同时做好每一层的回滚操作,一旦任何一步失败,都要回滚
3,最终不管成功或者失败,都释放key
分布式锁这种方式的话,实现起来,原代码中业务侵入性较多,比较复杂
重量级队列化请求
如果是使用队列,将可能导致不一致性的访问,队列化执行,其实这种方式,也是比分布式锁更加重量级的,基本上会颠覆原始的逻辑实现,一般很少采用。
但是不管怎么样,缓存层和持久化层,最终的数据是要保持一致的,这一点是底线。
整体来看,引不引入缓存层,是从整体性能、业务逻辑、实现代价、数据一致性的容忍程度等多个方面决定的。
下一篇: django 自定义url转换器