Twemproxy代理Key-Value数据库SSDB实现数据分布式存储

程序员文章站 2022-04-11 11:04:43

...

SSDB是一个高性能的支持丰富数据结构的 NoSQL 数据库, 用于替代 Redis或者与 Redis 配合存储十亿级别列表的数据，现在已被许多知名企业所应用。我们使用SSDB是想将现有的redis中的key迁移到SSDB以破除现有的redis 120G存储极限（当然可以扩展，但是计算了下

SSDB是一个高性能的支持丰富数据结构的 NoSQL 数据库, 用于替代 Redis或者与 Redis 配合存储十亿级别列表的数据，现在已被许多知名企业所应用。我们使用SSDB是想将现有的redis中的key迁移到SSDB以破除现有的redis 120G存储极限（当然可以扩展，但是计算了下成本就打算放弃了）。

Twemproxy是twtter开源的一个redis和memcache代理服务器，这里我们使用Twemproxy代理来代理SSDB集群来实现数据的分布式存储，即shared。

1、节点规划：

Twemproxy 192.168.0.100

ssdb1 master 192.168.0.101

ssdb1 slave 192.168.0.102

ssdb2 master 192.168.0.103

ssdb2 slave 192.168.0.104

2、安装SSDB

## 解压下载好的ssdb软件包
$ unzip  ssdb-master.zip
## 安装gcc、gcc-c++ 、make等工具
##编译、安装ssdb，会安装在/usr/local/ssdb/下面
$ cd ssdb-master
$ make &&make install

## 进入安装目录
$ cd/usr/local/ssdb/
## 启动ssdb-server
$ ./ssdb-server -dssdb.conf
ssdb 1.8.2
Copyright (c)2012-2014 ssdb.io
## 验证是否启动成功,若8888端口被监听，则表示成功
$ netstat-alnut|grep 8888
tcp       0      0 127.0.0.1:8888              0.0.0.0:*                   LISTEN

## 客户端连接
$ ./ssdb-cli -p8888
 ssdb (cli) - ssdb command line tool.
Copyright (c)2012-2014 ssdb.io
'h' or 'help' forhelp, 'q' to quit.
server version:1.8.2
ssdb 127.0.0.1:8888>

3、主从配置，以ssdb1为例

## 修改ssdb1 master的配置文件，如下
# ssdb-server config
# MUST indent by TAB!
 
# relative to path of this file, directorymust exists
work_dir = ./var
pidfile = ./var/ssdb.pid
 
server:
       ip:192.168.0.101
       port:8888
       # bind to public ip
       #ip: 0.0.0.0
       # format: allow|deny: all|ip_prefix
       # multiple allows or denys is supported
       #deny: all
       #allow: 127.0.0.1
       #allow: 192.168
       # auth password must be at least 32 characters
       #auth: very-strong-password
 
replication:
       binlog: yes
       # Limit sync speed to *MB/s, -1: no limit
       sync_speed: -1
       slaveof:
                # to identify a master even ifit moved(ip, port changed)
                # if set to empty or notdefined, ip:port will be used.
                #id: svc_2
                # sync|mirror, default is sync
                #type: sync
                #ip: 127.0.0.1
                #port: 8889
 
logger:
       level: debug
       output: log.txt
       rotate:
                size: 1000000000
 
leveldb:
       # in MB
       cache_size: 500
       # in KB
       block_size: 32
       # in MB
       write_buffer_size: 64
       # in MB
       compaction_speed: 1000
       # yes|no
       compression: yes

## 修改ssdb1 slave的配置文件，如下
# ssdb-server config
# MUST indent by TAB!
 
# relative to path of this file, directorymust exists
work_dir = ./var
pidfile = ./var/ssdb.pid
 
server:
        ip: 192.168.0.102
        port: 8888
       # bind to public ip
       #ip: 0.0.0.0
       # format: allow|deny: all|ip_prefix
       # multiple allows or denys is supported
       #deny: all
       #allow: 127.0.0.1
       #allow: 192.168
       # auth password must be at least 32 characters
       #auth: very-strong-password
 
replication:
       binlog:yes
       # Limit sync speed to *MB/s, -1: no limit
       sync_speed: -1
       slaveof:
                # to identify a master even if itmoved(ip, port changed)
                # if set to empty or notdefined, ip:port will be used.
                id: svc_1
                # sync|mirror, default is sync
                type:sync
                ip: 192.168.0.101
                port:8888
 
logger:
       level: debug
       output: log.txt
       rotate:
                size: 1000000000
 
leveldb:
       # in MB
       cache_size: 500
       # in KB
       block_size: 32
        # in MB
       write_buffer_size: 64
       # in MB
       compaction_speed: 1000
       # yes|no
       compression: yes

这样就完成了ssdb1 master和ssdb1 slave，ssdb2 master和ssdb2 slave的配置与此相同。需要注意的是，如果要为已经有数据的ssdb节点配置slave的话，与mysql不同的是无需拷贝基础数据到slave上,只需要在slave的配置文件中指定master的信息即可，ssdb会自动进行基础数据的拷贝和同步的。

SSDB 数据库中的所有数据都是排好序的, 所以你可以把整个数据库理解为一个链表, SSDB 从表头开始 Copy, 一次一个节点, 游标一直往后. 这时, 如果有新的 Binlog, SSDB 会先判断这条 Binlog 对应的节点在链表中的什么位置, 是在游标的前面还是后面?如果在游标的前面, 那么会把这条 Binlog 发给 Slave 执行. 如果在游标的后面, 就会直接忽略掉, 因为游标最终会移动到更新的位置. 从这个描述也可以知道, 处于 Copy 阶段的 Slave, 有可能无法立即知道 Master 上的更新.当游标移动到了链表的末端之后, Copy 过程就结束了, 主从同步流程进入到 Sync 阶段, 也就是即时(毫秒级)更新阶段。更多ssdb的learnning可以访问ssdb的项目地址：http://ssdb.io/zh_cn/.

4、安装Twemproxy

## 安装automake、libtool 、xz工具
$  yum install automake libtool xz -y
## 安装autoconf
$  wget  http://down1.chinaunix.net/distfiles/autoconf-2.69.tar.xz
$  xz -d autoconf-2.69.tar.xz
$  tar xf autoconf-2.69.tar -C /opt
$  cd /opt/autoconf-2.69
$  ./configure
$  make && make install
## 安装Twemproxy
$  git clone https://github.com/twitter/twemproxy.git
$  cd  twemproxy/
$  autoreconf -fvi 
$  ./configure
$  make && make install
## 将Twemproxy的配置文件放置在/etc/下、
$  mkdir /etc/nutcracker
$  cp  conf/nutcracker.yml/etc/nutcracker/nutcracker.yml

5、配置Twemproxy

## 修改配置文件
$ vim   /etc/nutcracker/nutcracker.yml  
beta:
  listen: 127.0.0.1:22122
  hash: fnv1a_64
  hash_tag: "{}"
  distribution: ketama
  auto_eject_hosts: false
  timeout: 400
  redis: true
  servers:
   - 192.168.0.101:8888:1 server1
   - 192.168.0.103:8888:1 server2

配置项：

listen: 127.0.0.1:22122 ## 监听地址和端口

hash: fnv1a_64 ## 散列算法

redis: true ## 后端代理的是否为redis

servers: ## 分片服务器列表

distribution: ketama ## 分片的算法，有ketama（一致性hash）、module（取模）、random（随机）三种算法

auto_eject_hosts: false ## 是否在节点无法响应时自动从服务器列表中剔除，重新响应时自动加入服务器列表中

hash_tag: "{}" ## 假设ssdb中一个对象有多个key属性，如kora这个人的姓名name:kora:，kora的年龄age:kora:，kora的住址 loc:kora:,为了保证这kora这三个属性能被路由到后端的同一个分片上，我们就需要指定hash_tag: "{::}",这样就避免读取数据的时候跨分片检索

6、启动Twemproxy

## 启动
$  nutcracker -d -c/etc/nutcracker/nutcracker.yml -p /var/run/redisproxy.pid -o /var/log/redisproxy.log& 
## 验证22122端口是否被监听
 $  netstat -alnut |grep 22122
tcp       0      0 127.0.0.1:22122             0.0.0.0:*                   LISTEN

7、测试分片功能

## 需要注意：Twemproxy代理是不支持ssdb-cli连接的，但是ssdb的协议和redis的协议一致，我们可以使用redis客户端来连接代理，这个问题我咨询过ssdb的作者，是需要使用redis-cli的
$   ./redis-cli -p 22122
127.0.0.1:22122>

## 代理中插入如下数据

Twemproxy代理Key-Value数据库SSDB实现数据分布式存储

## 后端ssdb server1 上查看数据，3个key

Twemproxy代理Key-Value数据库SSDB实现数据分布式存储

## 后端ssdb server1 上查看数据，5个key

Twemproxy代理Key-Value数据库SSDB实现数据分布式存储

Twemproxy代理能够实现SSDB的分布式存储，但是对于SSDB分布式体系的在线扩展还是无能为力，如果说需要扩展现有的分布式集群，那么最简单的方法就是新建一个期望的集群，然后应用双写数据到新旧两个集群里面，接着将旧集群中的数据通过代理迁移到新集群上，这里要注意，只有新集群中不存在key的时候才set，防止旧数据覆盖新数据，数据迁移完成后，选择一个合适的时机将应用切换到新的集群上来，由于使用了Twemproxy代理，切换的过程对前端应用来说是透明的。

相关标签： Twemproxy 代理 Key-Value 数据库 SSD

上一篇： Java网络爬虫在hadoop中的实现方法介绍

下一篇： JavaScript中Reflect的详细介绍（附示例）

Twemproxy代理Key-Value数据库SSDB实现数据分布式存储