redis持久化机制之AOF与RDB
什么是redis
redis是一种面向“key-value”类型数据的分布式nosql数据库系统,具有高性能、持久存储、适应高并发应用场景等优势。它虽然起步较晚,但发展却十分迅速。
redis为何需要持久化
由于redis的数据都存放在内存中,如果没有配置持久化,redis重启后数据就全丢失了,于是需要开启redis的持久化功能,将数据保存到磁盘上,当redis重启后,可以从磁盘中恢复数据。redis提供两种方式进行持久化;用于crash后,redis的恢复。
- 一种是rdb持久化(原理是将reids在内存中的数据库记录定时dump到磁盘上的rdb持久化)
- 一种是aof持久化(原理是将reids的操作日志以追加的方式写入文件)
rdb与aof区别
rdb的特性如下:
fork一个进程,遍历hash table,利用copy on write,把整个db dump保存下来。save, shutdown, slave 命令会触发这个操作。比较大,如果save, shutdown, slave 之前crash了,则中间的操作没办法恢复。用二进制压缩存储。
aof有如下特性:
把写操作指令,持续的写到一个类似日志文件里。(类似于从postgresql等数据库导出sql一样,只记录写操作)粒度较小,crash之后,只有crash之前没有来得及做日志的操作没办法恢复。以文本的方式记录,可以打开文件看到详细的操作记录。
rdb与aof优缺
rdb优势
1). 一旦采用该方式,那么你的整个redis数据库将只包含一个文件,这对于文件备份而言是非常完美的。比如,你可能打算每个小时归档一次最近24小时的数据,同时还要每天归档一次最近30天的数据。通过这样的备份策略,一旦系统出现灾难性故障,我们可以非常容易的进行恢复。
2). 对于灾难恢复而言,rdb是非常不错的选择。因为我们可以非常轻松的将一个单独的文件压缩后再转移到其它存储介质上。
3). 性能最大化。对于redis的服务进程而言,在开始持久化时,它唯一需要做的只是fork出子进程,之后再由子进程完成这些持久化的工作,这样就可以极大的避免服务进程执行io操作了。
4). 相比于aof机制,如果数据集很大,rdb的启动效率会更高。
rdb劣势
1). 如果你想保证数据的高可用性,即最大限度的避免数据丢失,那么rdb将不是一个很好的选择。因为系统一旦在定时持久化之前出现宕机现象,此前没有来得及写入磁盘的数据都将丢失。
2). 由于rdb是通过fork子进程来协助完成数据持久化工作的,因此,如果当数据集较大时,可能会导致整个服务器停止服务几百毫秒,甚至是1秒钟。
aof优势
1). 该机制可以带来更高的数据安全性,即数据持久性。redis中提供了3中同步策略,即每秒同步、每修改同步和不同步。事实上,每秒同步也是异步完成的,其效率也是非常高的,所差的是一旦系统出现宕机现象,那么这一秒钟之内修改的数据将会丢失。而每修改同步,我们可以将其视为同步持久化,即每次发生的数据变化都会被立即记录到磁盘中。可以预见,这种方式在效率上是最低的。至于无同步,无需多言,我想大家都能正确的理解它。
2). 由于该机制对日志文件的写入操作采用的是append模式,因此在写入过程中即使出现宕机现象,也不会破坏日志文件中已经存在的内容。然而如果我们本次操作只是写入了一半数据就出现了系统崩溃问题,不用担心,在redis下一次启动之前,我们可以通过redis-check-aof工具来帮助我们解决数据一致性的问题。
3). 如果日志过大,redis可以自动启用rewrite机制。即redis以append模式不断的将修改数据写入到老的磁盘文件中,同时redis还会创建一个新的文件用于记录此期间有哪些修改命令被执行。因此在进行rewrite切换时可以更好的保证数据安全性。
4). aof包含一个格式清晰、易于理解的日志文件用于记录所有的修改操作。事实上,我们也可以通过该文件完成数据的重建。
aof劣势
1). 对于相同数量的数据集而言,aof文件通常要大于rdb文件。rdb 在恢复大数据集时的速度比 aof 的恢复速度要快。
2). 根据同步策略的不同,aof在运行效率上往往会慢于rdb。总之,每秒同步策略的效率是比较高的,同步禁用策略的效率和rdb一样高效。
持久化配置
rdb持久化配置
redis会将数据集的快照dump到dump.rdb文件中。此外,我们也可以通过配置文件来修改redis服务器dump快照的频率,在打开6379.conf文件之后,我们搜索save,可以看到下面的配置信息:
save 900 1 #在900秒(15分钟)之后,如果至少有1个key发生变化,则dump内存快照。
save 300 10 #在300秒(5分钟)之后,如果至少有10个key发生变化,则dump内存快照。
save 60 10000 #在60秒(1分钟)之后,如果至少有10000个key发生变化,则dump内存快照。
aof持久化配置
在redis的配置文件中存在三种同步方式,它们分别是:
appendfsync always #每次有数据修改发生时都会写入aof文件。
appendfsync everysec #每秒钟同步一次,该策略为aof的缺省策略。
appendfsync no #从不同步。高效但是数据不会被持久化。
抉择
二者选择的标准,就是看系统是愿意牺牲一些性能,换取更高的缓存一致性(aof),还是愿意写操作频繁的时候,不启用备份来换取更高的性能,待手动运行save的时候,再做备份(rdb)。一般来说, 如果想达到足以媲美 postgresql 的数据安全性, 你应该同时使用两种持久化功能。如果你非常关心你的数据, 但仍然可以承受数分钟以内的数据丢失, 那么你可以只使用 rdb 持久化。有很多用户都只使用 aof 持久化, 但我们并不推荐这种方式: 因为定时生成 rdb 快照(snapshot)非常便于进行数据库备份, 并且 rdb 恢复数据集的速度也要比 aof 恢复的速度要快, 除此之外, 使用 rdb 还可以避免之前提到的 aof 程序的 bug 。因为以上提到的种种原因, 未来我们可能会将 aof 和 rdb 整合成单个持久化模型。 (这是一个长期计划。)
第一篇自己的博客;希望持之以恒。
上一篇: count函数详细介绍