欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  科技

apue_db:一个可以充当"注册表"的 key-value 数据库

程序员文章站 2022-08-06 23:00:20
apue 最后两章都是通过一个完整的实例来解释一些 linux 功能,第20章就是通过一个数据库实例来解释文件锁的使用, 说实话,当时没兴趣,因为满页都是源码和解析,有点看不下去。但是再拾起来硬着头皮看的时候,发现这哪里是个小 demo,明明是个五脏俱全的 key-value 数据库嘛, 而且这个数 ......

apue 最后两章都是通过一个完整的实例来解释一些 linux 功能,第20章就是通过一个数据库实例来解释文件锁的使用,

说实话,当时没兴趣,因为满页都是源码和解析,有点看不下去。但是再拾起来硬着头皮看的时候,发现这哪里是个小 demo,明明是个五脏俱全的 key-value 数据库嘛,

而且这个数据库,提供多进程并发读写的安全性保证(通过文件锁)、提供已删除节点循环再利用的能力、提供根据用户需求调节内部 hash 表参数的能力……

特别是它的索引与数据文件格式,采用字符串存储各种偏移量与数字,非常便于直接打开文件去做一些 “观察”,然后也能很方便地基于 sdk 构建查找、增删改数据库的工具……

这简直就是一个 linux 上的 “注册表” 工具!

 

先来看看这个数据库提供的 sdk 接口:

 1 #ifndef __apue_db_h__
 2 #define __apue_db_h__
 3 
 4 typedef void* dbhandle;
 5 
 6 // db_store flags
 7 #define db_insert 1
 8 #define db_replace 2
 9 #define db_store 3
10 
11 #define idxlen_min 6
12 #define idxlen_max 1024 // single index can not exceed this size
13 #define datlen_min 2
14 #define datlen_max 1024 // single data can not exceed this size
15 #define nhash_def 137 // default hash table size
16 
17 dbhandle db_open (char const* pathname, int oflag, .../*mode*/); 
18 void db_close (dbhandle db); 
19 int db_store (dbhandle db, const char *key, const char *data, int flag); 
20 char* db_fetch (dbhandle db, char *key); 
21 int db_delete (dbhandle db, const char *key); 
22 void db_rewind (dbhandle db); 
23 char *db_nextrec (dbhandle db, char *key); 
24 void db_dump (dbhandle db); 
25 
26 #endif

 

通过 db_open/db_close 打开关闭数据库,拿到dbhandle后就可以基于这个做操作了:

  • db_store 存储一个key,flag 指定覆盖方式:
    • db_insert 当已经有这个key时会返回失败
    • db_replace 当没有这个key时会返回失败
    • db_store 综合了上面两种情况,有时replace,没有时insert
  • db_fetch 获取一个key对应的data
  • db_delete 删除一个key
  • db_rewind/db_nextrec 用来无序遍历数据库中的所有key
  • db_dump 是我自己加的一个接口,用来打印数据库内部状态,如索引哈希表、索引空闲节点列表,调试时使用

 

实现比较长,就不贴了,只给一个链接:

依据书中代码,纯手工输入,同时加入了习题中可以指定索引哈希表大小的能力

(编译时指定 has_hashsize 宏,运行时通过环境变量 apue_db_hash_size 指定具体的哈希值,当然这个只在创建数据库时起作用,如果数据库已经存在,

将直接使用数据库中记录的哈希表大小值,如果没有环境变量,使用 nhash_def 作为默认的哈希表尺寸,ps:尽量使用质数来保证哈希效果)

有了sdk,搞个数据库小工具就是小菜一碟了:

  1 #include "../apue.h"
  2 #include "apue_db.h"
  3 #include <fcntl.h>
  4 #include <strings.h>
  5 #include <errno.h>
  6 
  7 void usage ()
  8 {
  9     printf ("usage: db filename insert key data\n"); 
 10     printf ("       db filename query key\n"); 
 11     printf ("       db filename delete key\n"); 
 12     printf ("       db filename walk\n"); 
 13     printf ("       db filename dump\n"); 
 14     exit (-1); 
 15 }
 16 
 17 int main (int argc, char *argv[])
 18 {
 19     if (argc < 3) 
 20         usage (); 
 21 
 22     char *filename = argv[1]; 
 23     char *action = argv[2]; 
 24     char *key = null; 
 25     char *data = null; 
 26     if (strcasecmp (action, "walk") == 0 
 27             || strcasecmp (action, "dump") == 0)
 28     {
 29         // no extra param
 30     }
 31     else if (strcasecmp (action, "delete") == 0 
 32             || strcasecmp (action, "query") == 0)
 33     {
 34         if (argc < 4)
 35             usage (); 
 36 
 37         key = argv[3]; 
 38     }
 39     else if (strcasecmp (action, "insert") == 0)
 40     {
 41         if (argc < 5)
 42             usage (); 
 43 
 44         key = argv[3]; 
 45         data = argv[4]; 
 46     }
 47     else 
 48     {
 49         usage (); 
 50     }
 51 
 52     dbhandle db; 
 53     char *ptr = null; 
 54 #ifdef has_hashsize
 55     int hashsize = 0; 
 56     ptr = getenv ("apue_db_hash_size"); 
 57     if (ptr)
 58         hashsize = atoi (ptr); 
 59 
 60     if (hashsize <= 0)
 61         hashsize = nhash_def; 
 62 
 63     if ((db = db_open (filename, o_rdwr | o_creat /*| o_trunc*/, file_mode, hashsize)) == null)
 64 #else
 65     if ((db = db_open (filename, o_rdwr | o_creat /*| o_trunc*/, file_mode)) == null)
 66 #endif
 67         err_sys ("db_open error"); 
 68 
 69     int ret = 0; 
 70     if (strcasecmp (action, "dump") == 0)
 71     {
 72         db_dump (db); 
 73     }
 74     else if (strcasecmp (action, "walk") == 0)
 75     {
 76         //db_rewind (); 
 77         int n = 0; 
 78         char buf[idxlen_max] = { 0 }; 
 79         while ((ptr = db_nextrec(db, buf)) != null)
 80         {
 81             n ++; 
 82             printf ("[%5d] %s --- %s\n", n, buf, ptr); 
 83         }
 84 
 85         printf ("walk done!\n"); 
 86     }
 87     else if (strcasecmp (action, "insert") == 0)
 88     {
 89         ret = db_store (db, key, data, db_store); 
 90         if (ret < 0)
 91             fprintf (stderr, "insert %s.%s failed, errno %d\n", key, data, errno); 
 92         else if (ret == 1)
 93             fprintf (stderr, "insert %s.%s cover old data\n", key, data); 
 94         else 
 95             printf ("db %s '%s' code %d\n", action, key, ret); 
 96     }
 97     else if (strcasecmp (action, "delete") == 0)
 98     {
 99         ret = db_delete (db, key); 
100         if (ret < 0)
101             fprintf (stderr, "delete %s failed, errno %d\n", key, errno); 
102         else 
103             printf ("db %s '%s' code %d\n", action, key, ret); 
104     }
105     else if (strcasecmp (action, "query") == 0)
106     {
107         ptr = db_fetch (db, key); 
108         //printf ("%s === %s\n", key, ptr); 
109         // only print data to allow assigned in shell script
110         printf ("%s\n", ptr == null ? "nil" : ptr); 
111     }
112     else
113         usage (); 
114 
115     db_close (db); 
116     return ret; 
117 }

 

如果给定的参数不合法,会弹出 usage:

usage: db filename insert key data
       db filename query key
       db filename delete key
       db filename walk
       db filename dump

 

其中:

  • insert 底层使用 db_store(..., db_store); 来插入一条数据
  • query 底层使用 db_fetch 来查询一条数据
  • delete 底层使用 db_delete 来删除一条数据
  • walk 底层使用 db_nextrec 来遍历所有数据
  • dump 底层使用 db_dump 来查看数据库内部状态

 

好了,有了这个工具,我们就可以用脚本来开展测试工作了,为了验证这个数据库是“靠谱”的,我主要测试的是多进程并行写入、删除的能力。

在开始搞事情之前,我需要先准备一些测试数据,这个由一个awk脚本来完成:

 1 #! /bin/awk -f
 2 begin {
 3     wordnum = 10
 4     for (i = 1; i <= wordnum; i++) {
 5         printf("%s %s\n", randword(randint(20)), randword(randint(150))) 
 6     }
 7 }
 8 
 9 # randint(n): return a random integer number which is >= 1 and <= n
10 function randint(n) {
11     return int(n *rand()) + 1
12 }
13 
14 # randlet(): return a random letter, which maybe upper, lower or number. 
15 function randlet() {
16     return substr("abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz0123456789", randint(62), 1)
17 }
18 
19 # randword(len): return a rand word with a length of len
20 function randword(len) {
21     randw=""
22     for( j = 1; j <= len; j++) {
23         randw=randw randlet()
24     }
25     return randw
26 }

 

执行这个脚本,得到测试数据文件:

$./gen.awk > demo
$ cat demo 
s0jkl kejwe4q3nnjugfj0cgnasgdpp3vs45x3wum9krf6sgmirefmrnbccecjyqhqqcrb5fc61hao1bv2x6xz6klta4jztenhcaugammwe95nu7fnsyar4wz279jhov
tmd516yvmt jb2ng30ndaal5vpzp8dqx0rlrivxjonim64an6uvc7utliirpeq
bohc40pkxhcbcu8 yo1vvwxtp4ujibrfwno6eznxbonzwrrvrcx0xi1dckshcsacgoqkbr1pwoqsdcg5jbwi4smrlgf
pw1o1fcg6khim zmdlgy0oesaswyzrprjjcjxoz0h9obp5ortqmvxu2xgs9lrxafcuizfholvt1ee
galrfwb yphtihoevu46gdh6x55jbqmr9t9mi5piwcllwe1sy1lukqn2eqjae9tz0btpmnj7nvenvaepjebhai
2x stan43mmzxs8h3witgkcutkwgrxle8pyputc2suetv9igtejxiim2b6x44ch9xgzjkxsmp2rewv2wjrbhsvfzamtayz32h5l5prksdhqmmu1l
zw4dqi 6tnikssfmblvjs4jbtxkfylvdecvgmb1eypdcvnvqbxcuumpmdgsdufvl726mkkgzmu5nfloqrcm4y8athrnmxilqteame5aydgj5jevnkmwrt9mqwe8sykvslhjtdj9lwsgcn2iz2eznmn6elzby7
0jde uqqfjqpluzkxybyfzylrdigynn8rs09txwv7umjlyrpe7c1freb5hghwueu37bscj0v5l1cxnylabzf4t4loxtiv97o7xxg4qmk5ir2
ynsph9ev0rnu0yu i3xvwf8h7to0
uivjvvxnsn60cre grro31pcjdux83cjbthveksrvqhzcxnlwba3rcpus0yhwm4oxisdzn0jnj

 

这个文件每行都是一个 "key data",其中 key 为 1-20 长度的随机字符串,data 为 1-150 长度的随机字符串,共10条。

写入数据的测试脚本就可以这样写了:

 1 #! /bin/sh
 2 old_ifs="$ifs"
 3 ifs=" "
 4 while read line
 5 do
 6 #  echo $line
 7   array=($line)
 8   key=${array[0]}
 9   data=${array[1]}
10   echo "$key -> $data"
11   ./db yunh insert $key $data
12 done <demo
13 
14 ifs="$old_ifs"

 

执行这个脚本,结果如下:

$ ./testi.sh 
s0jkl -> kejwe4q3nnjugfj0cgnasgdpp3vs45x3wum9krf6sgmirefmrnbccecjyqhqqcrb5fc61hao1bv2x6xz6klta4jztenhcaugammwe95nu7fnsyar4wz279jhov
db insert 's0jkl' code 0
tmd516yvmt -> jb2ng30ndaal5vpzp8dqx0rlrivxjonim64an6uvc7utliirpeq
db insert 'tmd516yvmt' code 0
bohc40pkxhcbcu8 -> yo1vvwxtp4ujibrfwno6eznxbonzwrrvrcx0xi1dckshcsacgoqkbr1pwoqsdcg5jbwi4smrlgf
db insert 'bohc40pkxhcbcu8' code 0
pw1o1fcg6khim -> zmdlgy0oesaswyzrprjjcjxoz0h9obp5ortqmvxu2xgs9lrxafcuizfholvt1ee
db insert 'pw1o1fcg6khim' code 0
galrfwb -> yphtihoevu46gdh6x55jbqmr9t9mi5piwcllwe1sy1lukqn2eqjae9tz0btpmnj7nvenvaepjebhai
db insert 'galrfwb' code 0
2x -> stan43mmzxs8h3witgkcutkwgrxle8pyputc2suetv9igtejxiim2b6x44ch9xgzjkxsmp2rewv2wjrbhsvfzamtayz32h5l5prksdhqmmu1l
db insert '2x' code 0
zw4dqi -> 6tnikssfmblvjs4jbtxkfylvdecvgmb1eypdcvnvqbxcuumpmdgsdufvl726mkkgzmu5nfloqrcm4y8athrnmxilqteame5aydgj5jevnkmwrt9mqwe8sykvslhjtdj9lwsgcn2iz2eznmn6elzby7
db insert 'zw4dqi' code 0
0jde -> uqqfjqpluzkxybyfzylrdigynn8rs09txwv7umjlyrpe7c1freb5hghwueu37bscj0v5l1cxnylabzf4t4loxtiv97o7xxg4qmk5ir2
db insert '0jde' code 0
ynsph9ev0rnu0yu -> i3xvwf8h7to0
db insert 'ynsph9ev0rnu0yu' code 0
uivjvvxnsn60cre -> grro31pcjdux83cjbthveksrvqhzcxnlwba3rcpus0yhwm4oxisdzn0jnj
db insert 'uivjvvxnsn60cre' code 0

 

可以看到都插入进去了。如果有兴趣的话,现在可以打开数据库的索引与数据文件,一探究竟:

$ cat yunh.idx
     0   137     0     0     0     0     0     0     0     0     0     0     0     0     0   857     
0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0  1043     0     0     0     0     0
     0     0     0     0   995     0     0     0     0     0     0     0     0     0  1076     0
     0   949     0     0     0     0     0     0     0     0     0     0     0     0     0  1020
     0     0     0     0     0     0     0     0     0     0   974     0     0     0     0   885
     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0   918     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0   835
     0  12s0jkl:0:123
     0  18tmd516yvmt:123:52
     0  23bohc40pkxhcbcu8:175:76
     0  21pw1o1fcg6khim:251:64
     0  15galrfwb:315:79
     0  112x:394:110
     0  15zw4dqi:504:151
     0  130jde:655:104
     0  23ynsph9ev0rnu0yu:759:13
     0  23uivjvvxnsn60cre:772:59
$ cat yunh.dat 
kejwe4q3nnjugfj0cgnasgdpp3vs45x3wum9krf6sgmirefmrnbccecjyqhqqcrb5fc61hao1bv2x6xz6klta4jztenhcaugammwe95nu7fnsyar4wz279jhov
jb2ng30ndaal5vpzp8dqx0rlrivxjonim64an6uvc7utliirpeq
yo1vvwxtp4ujibrfwno6eznxbonzwrrvrcx0xi1dckshcsacgoqkbr1pwoqsdcg5jbwi4smrlgf
zmdlgy0oesaswyzrprjjcjxoz0h9obp5ortqmvxu2xgs9lrxafcuizfholvt1ee
yphtihoevu46gdh6x55jbqmr9t9mi5piwcllwe1sy1lukqn2eqjae9tz0btpmnj7nvenvaepjebhai
stan43mmzxs8h3witgkcutkwgrxle8pyputc2suetv9igtejxiim2b6x44ch9xgzjkxsmp2rewv2wjrbhsvfzamtayz32h5l5prksdhqmmu1l
6tnikssfmblvjs4jbtxkfylvdecvgmb1eypdcvnvqbxcuumpmdgsdufvl726mkkgzmu5nfloqrcm4y8athrnmxilqteame5aydgj5jevnkmwrt9mqwe8sykvslhjtdj9lwsgcn2iz2eznmn6elzby7
uqqfjqpluzkxybyfzylrdigynn8rs09txwv7umjlyrpe7c1freb5hghwueu37bscj0v5l1cxnylabzf4t4loxtiv97o7xxg4qmk5ir2
i3xvwf8h7to0
grro31pcjdux83cjbthveksrvqhzcxnlwba3rcpus0yhwm4oxisdzn0jnj

 

这里就不细说了,不过总的感觉,这个数据库还是比较“透明”的。

做多进程并发,这点儿数据当然不够了,我们修改gen.awk,让它生成1000条数据,

然后在插入脚本调用 db 命令的位置,使用后台运行来同时跑多个进程:

  ./db yunh insert $key $data & 

 

这样执行之后,再观察数据库中的数据,通过执行 walk 或 dump,可以看到确确实实有1000条数据插入了。

为了验证数据准确性,甚至我还写了一个校验脚本,这个脚本每次一行从测试数据中读出key与data,然后再去数据库中取数据做对比,

经过验证,一条不差!

 

感兴趣的可以参考一下这个脚本:

 1 #! /bin/sh
 2 old_ifs="$ifs"
 3 ifs=" "
 4 n=0
 5 while read line
 6 do
 7 #  echo $line
 8   array=($line)
 9   key=${array[0]}
10   data=${array[1]}
11   resp=`./db yunh query $key $data`
12   if [ "$resp" != "$data" ]; then 
13     echo "query $key with $resp != $data"
14     n=$(($n+1))
15   fi 
16 done <demo
17 echo "total different: $n"
18 
19 ifs="$old_ifs"
20      

 

最近在做 windows 到 linux 程序移植的工作,其中注册表访问的部分一直很头疼,因为写配置文件实在是又零散又不能保证并发问题,

于是自然而然想到,把这个sdk封装在一个跨平台访问配置信息的类中,用于模拟 windows *问注册表的机制,结果很完美。

 

最后总结一下,就是 apue 本身是个大宝库,看似简单的一个demo都蕴藏着巨大的潜力,作者不愧为一代巨匠。

转自:https://www.cnblogs.com/goodcitizen/p/12674680.html