欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

Python使用RethinkDB总结

程序员文章站 2022-03-24 08:54:18
和 mongodb 类似 rethinkdb 是一个主要用来存储 json 文档的数据库引擎(mongodb 存储的是 bson),可以轻松和多个节点连成分布式数据库,非常...

和 mongodb 类似 rethinkdb 是一个主要用来存储 json 文档的数据库引擎(mongodb 存储的是 bson),可以轻松和多个节点连成分布式数据库,非常好用的查询语言以及支持表的 joins 和 group by 操作等。
昨天试玩了一下 rethinkdb,在一台虚拟机上测试,插入2500万行记录性能比较稳定,维持在 1.5k 行到 2k 行每秒之间,rethinkdb 的数据分片(sharding)功能非常简单,一个点击就可以完成。下面的安装和测试在 ubuntu 12.04.4 lts server 版本上完成。
加入 rethinkdb 官方源后安装:

复制代码 代码如下:
$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:rethinkdb/ppa
$ sudo apt-get update
$ sudo apt-get install rethinkdb

拷贝一个例子配置文件后修改 bind 部分以便可以从其他机器访问:
复制代码 代码如下:
$ cd /etc/rethinkdb/
$ sudo cp default.conf.sample instances.d/default.conf

$ sudo vi instances.d/default.conf
...
# bind=127.0.0.1
bind=0.0.0.0
...


启动 rethinkdb:
复制代码 代码如下:
$ sudo /etc/init.d/rethinkdb start
rethinkdb: default: starting instance. (logging to `/var/lib/rethinkdb/default/data/log_file')

访问 http://192.168.2.39:8080/ 就可以看到 rethinkdb 的管理界面了:
Python使用RethinkDB总结

如果不喜欢在命令行工作,web 界面还提供了 data explorer 在线查询工具,支持语法高亮、在线函数提示等,不用额外查帮助文件。

Python使用RethinkDB总结

要用程序的方式和 rethinkdb 打交道的话就需要安装客户端驱动(client drivers),官方支持的驱动有 javascript, ruby 和 python 3种语言,社区支持的驱动几乎包括了 c, go, c++, java, php, perl, clojure, erlang 等所有主流编程语言。本人用 python 多一些,所以这里安装 python 客户端驱动:
复制代码 代码如下:
$ sudo apt-get install python-pip
$ sudo pip install rethinkdb

测试一下驱动是否能工作了,如果 import rethinkdb 没有出错基本就可以说明模块安装成功:
复制代码 代码如下:
$ python
python 2.7.3 (default, feb 27 2014, 19:58:35)
[gcc 4.6.3] on linux2
type "help", "copyright", "credits" or "license" for more information.
>>> import rethinkdb
>>>

gene2go.txt 是一个含有基因数据的文本文件,大概1000多万行记录,格式如下:
复制代码 代码如下:
$ head -2 gene2go.txt
#format: tax_id geneid go_id evidence qualifier go_term pubmed category (tab is used as a separator, pound sign - start of a comment)
3702 814629 go:0005634 ism - nucleus - component

写个简单程序把 gene2go.txt 的数据导入到 rethinkdb 里:
复制代码 代码如下:
#!/usr/bin/python
# -*- coding: utf-8 -*-

import os, os.path, sys, re, csv, string

def csv2db():
    data = csv.reader(open('gene2go.txt', 'rb'), delimiter='\t')
    data.next()

    import rethinkdb as r
    r.connect('localhost', 28015).repl()
    r.db('test').table_create('gene2go').run()
    gene2go = r.db('test').table('gene2go')
    for row in data:
        gene2go.insert({
            'tax_id': row[0],
            'geneid': row[1],
            'go_id': row[2],
            'evidence': row[3],
            'qualifier': row[4],
            'go_term': row[5],
            'pubmed': row[6],
            'category': row[7]
        }).run(durability="soft", noreply=true)

def main():
    csv2db()

if __name__ == "__main__":
    main()