面试中经常问到的Redis七种数据类型,你都真正了解吗?
前言
redis不是一个简单的键值对存储,它实际上是一个支持各种类型数据结构的存储。在传统的键值存储中,是将字符串键关联到字符串值,但是在redis中,这些值不仅限于简单的字符串,还可以支持更复杂的数据结构。下面就是redis支持的数据结构:
- 字符串(string):二进制安全字符串。
- 列表(list):根据插入顺序排序的字符串元素列表,基于链表实现。
- 集合(set):唯一的乱序的字符串元素的集合。
- 有序集合(sorted set):与集合类似,但是每个字符串元素都与一个称为score的数字相关联。 元素总是按其score排序,并且可以检索一定score范围的元素。
- 哈希(hash):由字段与值相关联组成的映射,字段和值都是字符串。
- 位图(bitmap):像操作位数组一样操作字符串值,可以设置和清除某个位,对所有为1的位进行计数,找到第一个设置1的位,找到第一个设置0的位等等。
- hyperloglogs:一种概率数据结构,使用较小的内存空间来统计唯一元素的数量,误差小于1%。
欢迎关注微信公众号:万猫学社,每周一分享java技术干货。
键(key)
键
是二进制安全的,这意味着您可以使用任何二进制序列作为键,可以是onemorestudy
这样的字符串,也可以使图片文件的内容,空字符串也是有效的键
。不过,还有一些其他规则:
- 不要使用过长的
键
,比如一个1kb的键。不仅是多占内存方面的问题,而是在数据集中查找键
可能需要进行一些耗时的键
比较。如果真的有比较大的键
,先对它进行哈希(比如:md5
、sha1
)是一个好主意。 - 也不要使用过短的
键
,比如:oms100f
,相对于one-more-study:100:fans
,后者更具有可读性。可能会占用更多内存,但是相对于值所占的内存,键
所增加的内存还是小很多的。我们要找到一个平衡点,不长也不短。 - 多个字段以冒号分隔,一个字段内多个单词以连词符或点分隔,比如:
one-more-study:100:fans
,或者one.more.study:100:fans
。 -
键
允许的最大值为512mb。
欢迎关注微信公众号:万猫学社,每周一分享java技术干货。
字符串(string)
字符串类型是和键
关联的最简单的类型。它是memcached中唯一的数据类型,因此对于新手来说,在redis中使用它也是很容易的。键
是字符串类型,当我们也使用字符串类型作为值时,我们会可以从一个字符串映射到另一个字符串。 字符串数据类型有很多应用场景,例如缓存html片段或页面。
下面简单介绍一下字符串的命令(在redis-cli中使用):
> set one-more-key onemorestudy ok > get one-more-key "onemorestudy"
使用set
和get
命令来设置和查询字符串值的方式。需要注意的是,如果当前键
已经和字符串值相关联,set
命令将会替换已存储在键
中的现有值。字符串可以是任意的二进制数据,比如jpeg图像。字符串最多不能大于512mb。set
命令还有一些实用的可选参数,比如:
> set one-more-key java nx #如果key存在,则设置失败。 (nil) > set one-more-key java xx #如果key存在,才设置成功。 ok
欢迎关注微信公众号:万猫学社,每周一分享java技术干货。
虽然字符串是redis的基本值,但也可以使用它们执行一些实用的操作。 比如:
> set one-more-counter 50 ok > incr one-more-counter #自增加1 (integer) 51 > incr one-more-counter #自增加1 (integer) 52 > incrby one-more-counter 5 #自增加5 (integer) 57
incr
命令将字符串值解析为整数,将其自增加1,最后将获得的值设置为新值。 还有其他类似的命令,例如incrby
,decr
和decrby
等命令。 incr
命令是原子操作,即时有多个客户端同时同一个key的incr
命令,也不会进入竞态条件。比如,上面的例子先设置one-more-counter
的值为50,即使两个客户端同时发出incr命令,那么最后的值也肯定是52。
可以使用mset
和mget
命令在单个命令中设置或查询多个键
的值,对于减少延迟也很有用。比如:
> mset a 1 b 2 c 3 ok > mget a b c 1) "1" 2) "2" 3) "3"
使用mget
命令时,redis返回一个值的数组。
欢迎关注微信公众号:万猫学社,每周一分享java技术干货。
使用del命令可以删除键
和相关联的值,存在指定的键
则返回1,不存在指定的键
则返回0。使用exists
命令判断redis中是否存在指定的键
,存在指定的键
则返回1,不存在指定的键
则返回0。比如:
> set one-more-key onemorestudy ok > exists one-more-key (integer) 1 > del one-more-key (integer) 1 > exists one-more-key (integer) 0
使用type
命令,可以返回存储在指定key的值的数据类型,比如:
> set one-more-key onemorestudy ok > type one-more-key string > del one-more-key (integer) 1 > type one-more-key none
在讨论更复杂的数据结构之前,我们需要讨论另一个功能,该功能无论值类型是什么都适用,它就是expire
命令。 它可以为键
设置到期时间,当超过这个到期时间后,该键
将自动销毁,就像对这个键
调用了del
命令一样。比如:
> set one-more-key onemorestudy ok > expire one-more-key 5 (integer) 1 > get one-more-key #立刻调用 "onemorestudy" > get one-more-key #5秒钟后调用 (nil)
上面的例子,适用了expire
命令设置了过期时间,也可以使用persist
命令移除键
的过期时间,这个键
将持久保持。除了expire
命令,还可以使用set命令设置过期时间,比如:
> set one-more-key onemorestudy ex 10 #设置过期时间为10秒 ok > ttl one-more-key (integer) 9
上面的例子,设置了一个字符串值onemorestudy
的one-more-key
,该键
的到期时间为10秒。之后,调用ttl
命令以检查该键
的剩余生存时间。
欢迎关注微信公众号:万猫学社,每周一分享java技术干货。
到期时间可以使用秒或毫秒精度进行设置,但到期时间的分辨率始终为1毫秒。实际上,redis服务器上存储的不是到期时间长度,而是该键
到期的时间。
欢迎关注微信公众号:万猫学社,每周一分享java技术干货。
列表(list)
redis列表是使用链表实现的,这就意味着在头部或尾部增加或删除一个的元素的时间复杂度是o(1),非常快的。不过,按索引查询对应元素的时间复杂度就是o(n),慢很多。如果想快速查询大量数据,可以使用有序集合,后面会有介绍。
lpush
命令将一个新元素添加到列表的左侧(顶部),而rpush
命令将一个新元素添加到列表的右侧(底部)。最后,lrange
命令可以从列表中按范围提取元素。比如:
> rpush one-more-list a (integer) 1 > rpush one-more-list b (integer) 2 > lpush one-more-list first (integer) 3 > lrange one-more-list 0 -1 1) "first" 2) "a" 3) "b"
lrange
命令需要另外两个参数,要返回的第一个元素的索引和最后一个元素的索引。如果索引为负值,redis将从末尾开始计数,-1是列表的最后一个元素,-2是列表的倒数第二个元素,依此类推。
lpush
和rpush
命令支持多个参数,可以使用一次命令添加多个元素,比如:
> rpush one-more-list 1 2 3 4 5 "last" (integer) 9 > lrange one-more-list 0 -1 1) "first" 2) "a" 3) "b" 4) "1" 5) "2" 6) "3" 7) "4" 8) "5" 9) "last"
在redis列表上,也可以移除并返回元素。 与lpush
和rpush
命令,对应的就是lpop
和rpop
命令,lpop
命令是将列表的左侧(顶部)的元素移除并返回,rpop
命令是将列表的右侧(底部)的元素移除并返回。比如:
> rpush one-more-list a b c (integer) 3 > rpop one-more-list "c" > rpop one-more-list "b" > rpop one-more-list "a"
我们添加了三个元素,并移除并返回了三个元素,此时列表为空,没有任何元素。如果再使用rpop
命令,会返回一个null
值:
> rpop one-more-list (nil)
使用rpush
和rpop
命令,或者lpush
和lpop
命令可以实现栈的功能,使用lpush
和rpop
命令,或者rpush
和lpop
命令可以实现队列的功能。也可以实现生产者和消费者模式,比如多个生产者使用lpush
命令将任务添加到列表中,多个消费者使用rpop
命令将任务从列表中取出。但是,有时列表可能为空,没有任何要处理的任务,因此rpop
命令仅返回null
。在这种情况下,消费者*等待一段时间,然后使用rpop
命令重试。这就暴露了有几个缺点:
- 客户端和服务端之间可以处理无用的命令,因为在列表为空时的所有请求将无法完成任何实际工作,它们只会返回
null
。 - 由于消费者在收到
null
之后会等待一段时间,因此会增加任务处理的延迟。为了减小延迟,我们可以在两次调用rpop
之间等待更少的时间,这就扩大了更多对redis的无用调用。
有什么办法可以解决呢?使用brpop
和blpop
的命令,它们和rpop
和lpop
命令类似,唯一的区别是:如果列表为空时,命令会被阻塞,直到有新元素添加到列表中,或指定的超时时间到了时,它们才会返回到调用方。比如:
> brpop tasks 5
它含义是,列表为空时,等待列表中的元素,但如果5秒钟后没有新的元素被添加,则返回。您可以将超时时间传入0,表示永远等待元素添加。也可以传入多个列表,这时会按参数先后顺序依次检查各个列表,返回第一个非空列表的尾部元素。另外还有以下3点需要注意的:
- 当列表为空,并且有多个客户端在等待时,有一个新的元素被添加到列表中,它会被第一个等待的客户端获取到,以此类推。
- 返回值与
rpop
命令相比有所不同,它是一个包含两个元素的数组,包含key和对应的元素,因为brpop
和blpop
命令能够阻止等待来自多个列表的元素。 - 超过了超时时间,会返回
null
。
欢迎关注微信公众号:万猫学社,每周一分享java技术干货。
列表的创建和删除都是由redis自动完成的,当尝试向不存在的键
添加元素时,redis会自动创建一个空的列表;当最后一个元素被移除时,redis会自动删除这个列表。这不是特定于列表的,它适用于由多个元素组成的所有redis数据类型,比如集合、有序集合、哈希,它们都有3条规则:
- 当我们将元素添加到聚合数据类型时,如果目标
键
不存在,则在添加元素之前会创建一个空的聚合数据类型。比如:
> del one-more-list (integer) 1 > lpush one-more-list 1 2 3 (integer) 3
欢迎关注微信公众号:万猫学社,每周一分享java技术干货。
但是,在键
存在时,就不能操作错误的数据类型了,比如:
> set one-more-key onemorestudy ok > lpush one-more-key 1 2 3 (error) wrongtype operation against a key holding the wrong kind of value > type one-more-key string
- 当我们从聚合数据类型中删除元素时,如果该值保持为空,则key将自动销毁。比如:
> lpush one-more-list 1 2 3 (integer) 3 > exists one-more-list (integer) 1 > lpop one-more-list "3" > lpop one-more-list "2" > lpop one-more-list "1" > exists one-more-list (integer) 0
- 当对应key不存在,并且调用只读命令(如
llen
命令,获取列表长度)或写命令(如lpop
命令)时,都会返回空聚合数据类型的结果。比如:
> del one-more-list (integer) 0 > llen one-more-list (integer) 0 > lpop one-more-list (nil)
redis为了追求高性能,列表的内部实现不是一个简单的链表,这里先卖个关子,后续的文章会详细介绍。
欢迎关注微信公众号:万猫学社,每周一分享java技术干货。
集合(set)
集合是一个字符串的无序集合,sadd
命令可以将新元素添加到集合中。还可以对集合进行许多其他操作,例如:判断给定元素是否已存在、执行多个集合之间的交集、并集或差等等。比如:
> sadd one-more-set 1 2 3 (integer) 3 > smembers one-more-set 1) "1" 2) "3" 3) "2"
在上面的例子中,在集合中添加了三个元素,并让redis返回所有元素。 正如你所见,返回的元素是没有排序的。在每次调用时,元素的顺序都有可能不一样。
还可以使用sismember
命令判断给定元素是否已存在,比如:
> sismember one-more-set 3 (integer) 1 > sismember one-more-set 30 (integer) 0
在上面的例子中,3在集合中,所以返回1;而30不在集合中,所以返回0。
可以使用sinter
命令,计算出多个集合的交集;使用sunion
命令,计算多个集合的并集;使用spop
命令,移除并返回集合中的一个随机元素;使用scard
命令,计算集合中的元素的数量。比如:
> sadd one-more-set1 1 2 3 (integer) 3 > sadd one-more-set2 2 3 4 (integer) 3 > sinter one-more-set1 one-more-set2 #交集 1) "3" 2) "2" > sunion one-more-set1 one-more-set2 #并集 1) "1" 2) "3" 3) "2" 4) "4" > spop one-more-set1 #随机移除一个元素 "3" > scard one-more-set1 #元素数量 (integer) 2
欢迎关注微信公众号:万猫学社,每周一分享java技术干货。
有序集合(sorted set)
有序集合是一种类似于集合和哈希之间混合的数据类型。像集合一样,有序集合中由唯一的、非重复的字符串元素组成,因此从某种意义上说,有序集合也是一个集合。但是集合中的元素是没有排序的,而有序集合中的每个元素都与一个称为分数
(score)的浮点值相关联,这就是为什么有序集合也类似于哈希的原因,因为每个元素都映射到一个值。有序集合的排序规则如下:
- 如果a和b是两个具有不同分数的元素,那么如果a.分数>b.分数,则a>b。
- 如果a和b的分数完全相同,那么如果a字符串在字典排序上大于b字符串,则a>b。 a和b字符串不能相等,因为有序集合中的元素都是唯一的。
我们来举个例子,把王者荣耀战队的名字和积分添加到有序集合中,其中把战队的名字作为值,把战队的积分作为分数。
> zadd kpl 12 "estarpro" (integer) 1 > zadd kpl 12 "qghappy" (integer) 1 > zadd kpl 10 "xq" (integer) 1 > zadd kpl 8 "edg.m" (integer) 1 > zadd kpl 8 "rng.m" (integer) 1 > zadd kpl 4 "tes" (integer) 1 > zadd kpl 2 "vg" (integer) 1
如上所示,zadd
命令和sadd
命令相似,但是多了一个额外的参数(在要添加的元素的前面)作为分数。zadd
命令也支持多个参数,虽然在上面的例子中未使用它,但你也可以指定多个分数和值对。使用有序集合,快速地返回按其积分排序的战队列表,因为实际上它们已经被排序了。
需要注意的是,为了快速获取有序集合中的元素,每次添加元素的时间复杂度都为o(log(n)),这是因为有序集合是同时使用跳跃表和字典来实现的,具体原理这里先卖个关子,后续的文章会详细介绍。
可以使用zrange
命令按照升序获取对应的值,比如:
> zrange kpl 0 -1 1) "vg" 2) "tes" 3) "edg.m" 4) "rng.m" 5) "xq" 6) "qghappy" 7) "estarpro"
0和-1代表查询从第一个到最后一个的元素。还可以使用zrevrange
命令按照降序获取对应的值,比如:
> zrevrange kpl 0 -1 1) "estarpro" 2) "qghappy" 3) "xq" 4) "rng.m" 5) "edg.m" 6) "tes" 7) "vg"
加上withscores
参数,就可以连同分数一起返回,比如:
> zrange kpl 0 -1 withscores 1) "vg" 2) "2" 3) "tes" 4) "4" 5) "edg.m" 6) "8" 7) "rng.m" 8) "8" 9) "xq" 10) "10" 11) "qghappy" 12) "12" 13) "estarpro" 14) "12"
有序集合还有更强大的功能,比如在分数范围内操作,让我们获取小于10(含)的战队,使用zrangebyscore
命令:
> zrangebyscore kpl -inf 10 1) "vg" 2) "tes" 3) "edg.m" 4) "rng.m" 5) "xq"
这就是获取分数从负无穷到10所对应的值,同样的我们也可以获取分数从4到10所对应的值:
> zrangebyscore kpl 4 10 1) "tes" 2) "edg.m" 3) "rng.m" 4) "xq"
另外有用的命令:zrank
命令,它可以返回指定值的升序排名(从0开始);zrevrank
命令,它可以返回指定值的降序排名(从0开始),比如:
> zrank kpl "edg.m" (integer) 2 > zrevrank kpl "edg.m" (integer) 4
有序集合的分数是随时更新的,只要对已有的有序集合调用zadd
命令,就会以o(log(n))时间复杂度更新其分数和排序。这样,当有大量更新时,有序集合是合适的。由于这种特性,常见的场景是排行榜,可以方便地显示排名前n位的用户和用户在排行榜中的排名。
欢迎关注微信公众号:万猫学社,每周一分享java技术干货。
哈希(hash)
redis的哈希和人们期望的“哈希”结构是一样的,它是一个无序哈希,内部存储了很多键值对,比如:
> hmset one-more-fans:100 name lily age 25 ok > hget one-more-fans:100 name "lily" > hget one-more-fans:100 age "25" > hgetall one-more-fans:100 1) "name" 2) "lily" 3) "age" 4) "25"
尽管哈希很容易用来表示对象,但是实际上可以放入哈希中的字段数是没有实际限制的,因此您可以以更多种的不同方式使用哈希。除了hget
命令获取单个字段对应的值,也可以使用hmset
命令获取多个字段及对应的值,它返回的是一个数组,比如:
> hmget one-more-fans:100 name age non-existent-field 1) "lily" 2) "25" 3) (nil)
还可以使用hincrby
命令,为指定字段的值做增量,比如:
> hget one-more-fans:100 age "25" > hincrby one-more-fans:100 age 3 (integer) 28 > hget one-more-fans:100 age "28"
redis哈希的实现结构,和java中的hashmap是一样的,也是“数组+链表”的结构,当发生数组位置碰撞是,就会将碰撞的元素用链表串起来。不过redis为了追求高性能,rehash的方式不太一样,这里先卖个关子,后续的文章会详细介绍。
欢迎关注微信公众号:万猫学社,每周一分享java技术干货。
位图(bitmap)
位图不是实际的数据类型,而是在string类型上定义的一组面向位的操作。 由于字符串是二进制安全的,并且最大长度为512mb,因此可以设置多达2^32个不同的位。位图操作分为两类:固定单个位操作,比如将一个位设置为1或0或获取其值;对位组的操作,比如计算给定位范围内设置位的数量。
位图的最大优点之一是,它们在存储信息时通常可以节省大量空间。例如,在以增量用户id位标识表示用户是否要接收新闻通讯,仅使用512 mb内存就可以记住40亿用户的一位信息。
使用setbit
和getbit
命令来设置和获取指定位,比如:
> setbit one-more-key 10 1 (integer) 0 > getbit one-more-key 10 (integer) 1 > getbit one-more-key 11 (integer) 0
setbit
命令将位号作为其第一个参数,将其设置为1或0的值作为其第二个参数。如果位号超出当前字符串长度,该命令将会自动扩大字符串。getbit
命令只是返回指定位号的位的值,如果位号超出存储的字符串长度则会返回0。
对位组的操作有以下3个命令:
-
bitop
命令可以在不同的字符串之间执行按位运算,提供的位运算有与、或、非和异或。 -
bitcount
命令可以统计指定范围内位数为1的个数。 -
bitpos
命令可以查找指定范围内为0或1的第一位。
> set one-more-key "\x13\x7f" #二进制为0001 0011 0111 1111 ok > bitcount one-more-key #整个字符串中1的位数 (integer) 10 > bitcount one-more-key 0 0 #第一个字符(0001 0011)中1的位数 (integer) 3 > bitcount one-more-key 1 1 #第二个字符(0111 1111)中1的位数 (integer) 7 > bitpos one-more-key 0 #整个字符串中第一个0位 (integer) 0 > bitpos one-more-key 1 #整个字符串中第一个1位 (integer) 3 > bitpos one-more-key 1 0 0 #第一个字符(0001 0011)中第一个1位 (integer) 3 > bitpos one-more-key 1 1 1 #第二个字符(0111 1111)中第一个1位 (integer) 9
位图可以应用于各类实时分析,也可以节省空间高效地存储位信息。比如,记录用户每天的签到数据,每一个位表示用户是否签到过,这样就可以计算出某个时间段用户签到了几次,某个时间段用户第一次签到是哪一天。
欢迎关注微信公众号:万猫学社,每周一分享java技术干货。
hyperloglogs
hyperloglog是一种概率数据结构,用于统计唯一元素的数量,也可以理解为估计集合中元素的个数。
通常情况下,对唯一元素进行统计数量时,需要使用与要统计的元素数量成比例的内存量,因为需要记住过去已经看到的元素,以避免多次对其进行统计。但是,有一组算法可以以内存换取精度,最终会得到带有标准误差的估计数量,在redis的hyperloglogs中,该误差小于1%。
这个算法的神奇之处在于,不再需要使用与所统计元素数量成比例的内存量,而可以使用恒定数量的内存。在最坏的情况下占据12kb的内存空间,redis对hyperloglog的存储进行了优化,在计数比较少时,占据的内存空间会更小,这里先卖个关子,后续的文章会详细介绍其中原理。
在集合中,可以将每个元素添加到集合中,并使用scard
命令获取集合中的元素数量,因为sadd
命令不会重新添加现有元素,所以元素都是唯一的。hyperloglog的操作和集合比较类似,使用pfadd
命令将元素添加到hyperloglog中,类似于集合的sadd
命令;使用pfcount
命令获取hyperloglog中的唯一元素的当前近似值数量,类似于集合的scard
命令。比如:
> pfadd one-more-hll a b c d e (integer) 1 > pfcount one-more-hll (integer) 5
redis中的hyperloglog尽管在技术上是不同的数据结构,但被编码为字符串,因此可以调用get
命令来序列化hyperloglog,然后调用set
命令来将其反序列化回服务器。
欢迎关注微信公众号:万猫学社,每周一分享java技术干货。
总结
redis提供更加丰富的数据结构,键(key)和字符串(string),都是二进制安全的字符串;列表(list),根据插入顺序排序的字符串元素列表,基于链表实现;集合(set),唯一的乱序的字符串元素的集合;有序集合(sorted set),与集合类似,但是每个字符串元素都与一个称为score的数字相关联;哈希(hash),由字段与值相关联组成的映射,字段和值都是字符串;位图(bitmap),像操作位数组一样操作字符串值,可以设置和清除某个位,对所有为1的位进行计数,找到第一个设置1的位,找到第一个设置0的位等等;hyperloglogs,一种概率数据结构,使用较小的内存空间来统计唯一元素的数量,误差小于1%。
欢迎关注微信公众号:万猫学社,每周一分享java技术干货。