Twemproxy代理Key-Value数据库SSDB实现数据分布式存储
SSDB是一个高性能的支持丰富数据结构的 NoSQL 数据库, 用于替代 Redis或者与 Redis 配合存储十亿级别列表的数据,现在已被许多知名企业所应用。我们使用SSDB是想将现有的redis中的key迁移到SSDB以破除现有的redis 120G存储极限(当然可以扩展,但是计算了下
SSDB是一个高性能的支持丰富数据结构的 NoSQL 数据库, 用于替代 Redis或者与 Redis 配合存储十亿级别列表的数据,现在已被许多知名企业所应用。我们使用SSDB是想将现有的redis中的key迁移到SSDB以破除现有的redis 120G存储极限(当然可以扩展,但是计算了下成本就打算放弃了)。
Twemproxy是twtter开源的一个redis和memcache代理服务器,这里我们使用Twemproxy代理来代理SSDB集群来实现数据的分布式存储,即shared。
1、节点规划:
Twemproxy 192.168.0.100
ssdb1 master 192.168.0.101
ssdb1 slave 192.168.0.102
ssdb2 master 192.168.0.103
ssdb2 slave 192.168.0.104
2、安装SSDB
## 解压下载好的ssdb软件包 $ unzip ssdb-master.zip ## 安装gcc、gcc-c++ 、make等工具 ##编译、安装ssdb,会安装在/usr/local/ssdb/下面 $ cd ssdb-master $ make &&make install ## 进入安装目录 $ cd/usr/local/ssdb/ ## 启动ssdb-server $ ./ssdb-server -dssdb.conf ssdb 1.8.2 Copyright (c)2012-2014 ssdb.io ## 验证是否启动成功,若8888端口被监听,则表示成功 $ netstat-alnut|grep 8888 tcp 0 0 127.0.0.1:8888 0.0.0.0:* LISTEN ## 客户端连接 $ ./ssdb-cli -p8888 ssdb (cli) - ssdb command line tool. Copyright (c)2012-2014 ssdb.io 'h' or 'help' forhelp, 'q' to quit. server version:1.8.2 ssdb 127.0.0.1:8888>
3、主从配置,以ssdb1为例
## 修改ssdb1 master的配置文件,如下 # ssdb-server config # MUST indent by TAB! # relative to path of this file, directorymust exists work_dir = ./var pidfile = ./var/ssdb.pid server: ip:192.168.0.101 port:8888 # bind to public ip #ip: 0.0.0.0 # format: allow|deny: all|ip_prefix # multiple allows or denys is supported #deny: all #allow: 127.0.0.1 #allow: 192.168 # auth password must be at least 32 characters #auth: very-strong-password replication: binlog: yes # Limit sync speed to *MB/s, -1: no limit sync_speed: -1 slaveof: # to identify a master even ifit moved(ip, port changed) # if set to empty or notdefined, ip:port will be used. #id: svc_2 # sync|mirror, default is sync #type: sync #ip: 127.0.0.1 #port: 8889 logger: level: debug output: log.txt rotate: size: 1000000000 leveldb: # in MB cache_size: 500 # in KB block_size: 32 # in MB write_buffer_size: 64 # in MB compaction_speed: 1000 # yes|no compression: yes ## 修改ssdb1 slave的配置文件,如下 # ssdb-server config # MUST indent by TAB! # relative to path of this file, directorymust exists work_dir = ./var pidfile = ./var/ssdb.pid server: ip: 192.168.0.102 port: 8888 # bind to public ip #ip: 0.0.0.0 # format: allow|deny: all|ip_prefix # multiple allows or denys is supported #deny: all #allow: 127.0.0.1 #allow: 192.168 # auth password must be at least 32 characters #auth: very-strong-password replication: binlog:yes # Limit sync speed to *MB/s, -1: no limit sync_speed: -1 slaveof: # to identify a master even if itmoved(ip, port changed) # if set to empty or notdefined, ip:port will be used. id: svc_1 # sync|mirror, default is sync type:sync ip: 192.168.0.101 port:8888 logger: level: debug output: log.txt rotate: size: 1000000000 leveldb: # in MB cache_size: 500 # in KB block_size: 32 # in MB write_buffer_size: 64 # in MB compaction_speed: 1000 # yes|no compression: yes
这样就完成了ssdb1 master和ssdb1 slave,ssdb2 master和ssdb2 slave的配置与此相同。需要注意的是,如果要为已经有数据的ssdb节点配置slave的话,与mysql不同的是无需拷贝基础数据到slave上,只需要在slave的配置文件中指定master的信息即可,ssdb会自动进行基础数据的拷贝和同步的。
SSDB 数据库中的所有数据都是排好序的, 所以你可以把整个数据库理解为一个链表, SSDB 从表头开始 Copy, 一次一个节点, 游标一直往后. 这时, 如果有新的 Binlog, SSDB 会先判断这条 Binlog 对应的节点在链表中的什么位置, 是在游标的前面还是后面?如果在游标的前面, 那么会把这条 Binlog 发给 Slave 执行. 如果在游标的后面, 就会直接忽略掉, 因为游标最终会移动到更新的位置. 从这个描述也可以知道, 处于 Copy 阶段的 Slave, 有可能无法立即知道 Master 上的更新.当游标移动到了链表的末端之后, Copy 过程就结束了, 主从同步流程进入到 Sync 阶段, 也就是即时(毫秒级)更新阶段。更多ssdb的learnning可以访问ssdb的项目地址:http://ssdb.io/zh_cn/.
4、安装Twemproxy
## 安装automake、libtool 、xz工具 $ yum install automake libtool xz -y ## 安装autoconf $ wget http://down1.chinaunix.net/distfiles/autoconf-2.69.tar.xz $ xz -d autoconf-2.69.tar.xz $ tar xf autoconf-2.69.tar -C /opt $ cd /opt/autoconf-2.69 $ ./configure $ make && make install ## 安装Twemproxy $ git clone https://github.com/twitter/twemproxy.git $ cd twemproxy/ $ autoreconf -fvi $ ./configure $ make && make install ## 将Twemproxy的配置文件放置在/etc/下、 $ mkdir /etc/nutcracker $ cp conf/nutcracker.yml/etc/nutcracker/nutcracker.yml
5、配置Twemproxy
## 修改配置文件 $ vim /etc/nutcracker/nutcracker.yml beta: listen: 127.0.0.1:22122 hash: fnv1a_64 hash_tag: "{}" distribution: ketama auto_eject_hosts: false timeout: 400 redis: true servers: - 192.168.0.101:8888:1 server1 - 192.168.0.103:8888:1 server2
配置项:
listen: 127.0.0.1:22122 ## 监听地址和端口
hash: fnv1a_64 ## 散列算法
redis: true ## 后端代理的是否为redis
servers: ## 分片服务器列表
distribution: ketama ## 分片的算法,有ketama(一致性hash)、module(取模)、random(随机)三种算法
auto_eject_hosts: false ## 是否在节点无法响应时自动从服务器列表中剔除,重新响应时自动加入服务器列表中
hash_tag: "{}" ## 假设ssdb中一个对象有多个key属性,如kora这个人的姓名name:kora:,kora的年龄age:kora:,kora的住址 loc:kora:,为了保证这kora这三个属性能被路由到后端的同一个分片上,我们就需要指定hash_tag: "{::}",这样就避免读取数据的时候跨分片检索
6、启动Twemproxy
## 启动 $ nutcracker -d -c/etc/nutcracker/nutcracker.yml -p /var/run/redisproxy.pid -o /var/log/redisproxy.log& ## 验证22122端口是否被监听 $ netstat -alnut |grep 22122 tcp 0 0 127.0.0.1:22122 0.0.0.0:* LISTEN
7、测试分片功能
## 需要注意:Twemproxy代理是不支持ssdb-cli连接的,但是ssdb的协议和redis的协议一致,我们可以使用redis客户端来连接代理,这个问题我咨询过ssdb的作者,是需要使用redis-cli的 $ ./redis-cli -p 22122 127.0.0.1:22122>
## 代理中插入如下数据
## 后端ssdb server1 上查看数据,3个key
## 后端ssdb server1 上查看数据,5个key
Twemproxy代理能够实现SSDB的分布式存储,但是对于SSDB分布式体系的在线扩展还是无能为力,如果说需要扩展现有的分布式集群,那么最简单的方法就是新建一个期望的集群,然后应用双写数据到新旧两个集群里面,接着将旧集群中的数据通过代理迁移到新集群上,这里要注意,只有新集群中不存在key的时候才set,防止旧数据覆盖新数据,数据迁移完成后,选择一个合适的时机将应用切换到新的集群上来,由于使用了Twemproxy代理,切换的过程对前端应用来说是透明的。