欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

TCDatabase介绍(1) 博客分类: 软件开发 TokyoCabinetRuby数据结构LuaMySQL 

程序员文章站 2024-02-21 09:11:10
...

TCDatabase,是我在创新院的同事,riceball的一个开源项目。http://code.google.com/p/tcdatabase

他自己也写了两篇blog作介绍。tcdatabase(一) tcdatabase(二)

不过我总感觉写得太像干巴巴的技术文档了,所以我自告奋勇的来帮他另写一个介绍,以下是第一部分:

 

一、TokyoCabinet、TokyoTyrant简介

我们常说的TC/TT,是TokyoCabinet/TokyoTyrant的简称。这两个开源项目,都是由日本人平林幹雄开发的。(Mikio Hirabayashi’s Homepage twitter: @hirabayashiM)

1、TokyoCabinet

TC,是一个Key-Value的数据库library,你可以通过C语言程序来访问TC提供的各种函数,也可以使用其他各种语言绑定,例如perl、ruby、java、lua。

TC对外的表现形式,无非是一组put/get方法,从内部实现来说,TC一共支持6种不同的数据结构,包括hash数据库,B+树数据库,定长数据库、表格数据库、内存hash数据库以及内存B+树数据库。

以ruby语言举例:

hdb = HDB::new

hdb.open("casket.tch", HDB::OWRITER | HDB::OCREAT)

hdb.put("foo", "hop")

value = hdb.get("foo")

hdb.close

这样就可以创建一个名为casket.tch的Hash数据库文件,并进行put/get的操作。

也可以通过ADB(Abstract database),以完全相同的API,创建并访问不同的数据库。

adb = ADB::new

adb.open(name) 

adb.close

其中,如果name为*,则创建一个内存hash数据库;name为+,则是内存B+树数据库;文件名为*.tch、*.tcb、*.tcf、*.tct则分别对应于hash、B+Tree、fixed-length和table类型。

2、TokyoTyrant

至于TT,则是在TC基础上实现的一个server。TT接受来自socket连接的各种请求,作为一个网络服务而存在着。通常我们会这样来启动TT。

ttserver –port 3900 /ttdata/casket.tch

这样,在3900端口,就启动了一个数据库服务,这个数据库的数据,就保存在/ttdata/casket.tch中。

而在client端,也多种不同的语言实现,例如ruby的代码会写成这样:

rdb = RDB::new

rdb.open("localhost", 3900)

rdb.put("foo", "hop")

value = rdb.get("foo")

rdb.close

对于table类型的数据库,则需要创建一个RDBTBL的对象实例,因为它提供了更多的一些访问API,例如:

rdb = RDBTBL::new

rdb.open("localhost", 1978)

rdb.put("1", { "name" => "mikio", "age" => "30", "lang" => "ja,en,c" })

qry = RDBQRY::new(rdb)

qry = RDBQRY::new(rdb)

qry.addcond("age", RDBQRY::QCNUMGE, "20")

qry.addcond("lang", RDBQRY::QCSTROR, "ja,en")

qry.setorder("name", RDBQRY::QOSTRASC)

qry.setlimit(10)

res = qry.search

res.each do |rkey|

  rcols = rdb.get(rkey)

  printf("name:%s\n", rcols["name"])

end

这样的操作,就已经相当接近于对一个传统表的操作了。

 

二、TCDatabase对TokyoTyrant的扩展

1、skeleton机制

TT对于扩展的支持相当友好,在ttserver中,有一个-skel参数,可以在启动ttserver的时候,挂一个自己写的骨架系统,例如:

ttserver -skel mydb.so -port 3900 myfile.tct

这样,ttserver的功能,就成了一个简单的网络接口,而接收到的各种请求,都为转交给mydb.so来处理。接下来的事情,就海阔天空了。对于client端来说,他访问的是标准的TT接口,而在server端,却完全可以通过自己写的一个扩展,将数据存到mysql里面去。

而tcdatabase,就是TT的一个skeleton实现。所以,他的启动参数是这样的:

ttserver -skel tcdatabase.so -port 3900 db_filename.tcb

2、TCTDB的不足之处

作为最像传统表的Key-Value数据库,TCTDB有很多优点,这成为我们项目选择的主要考虑对象,但是它也存在着诸多问题:

  • 一个Table Database仅支持一个表,也就是说value中的字段必须固定一致。假设一个项目中使用了80多个表,这意味着你需要开启80多个 ttserver进程,并为每一个“表”提供支持。
  • 功能的增强,也就意味着要牺牲性能。TCTDB 表格型数据库的平均读取速度大约在40万条/秒,相比 TCHDB哈希数据库的180万条/秒和TCBDB B+Tree数据库 的100万条/秒要慢。
  • TCTDB虽然可以建立数值型索引,但是它是将所有value数据都当成字符型来处理的,无法区分value类型。
  • TCTDB单数据库文件存储的记录数上亿条后,性能会有比较明显的下降。
  • 不能单独获取value中的某一个字段的值;
  • 不能支持仅更新UPDATE key中某一个字段:必须先取出value的全部字段,再存入;

3、TCDatabase的改进

  • 支持多个table从一个端口访问,从table变成真正的database,
  • 数据文件改用采用TCBDB(B+Tree Database)进行存储,为了解决数据量上亿后的HashDB性能的问题
  • 支持列读写
  • 应该还有其它更多改进,不过都还在规划之中

 

(待续)