文件计算的并行查找与过滤

程序员文章站 2022-05-18 12:25:14

...

润乾集算器具备文件计算能力。对于数据量相对较大的情况，集算器提供了多线程并行的功能，可以充分利用计算机的多CPU多核的计算能力，获得接近或超过传统数据库的计算性能。

这里只考虑小结果集的情况，即数据计算结果在内存可以装下的情况。

集算器多线程并行结构示意图如下：

文件计算的并行查找与过滤

博客分类： DB 文件计算外存计算并行查询过滤集算器

如上图所示，集算器通过一个主脚本将任务分配给多个子脚本，每个子脚本分别访问本地数据的一部分进行计算。子脚本都完成计算后，将结果返回给主脚本，完成计算后提交给宿主程序（如报表工具）。

每个子脚本就是一个线程。理论上说服务器对多线程并行任务的支持取决于CPU核数和硬盘并行性能。服务器的CPU核数越多、硬盘的并行读取能力越强，可以同时运行的线程数越多，总任务完成的越快。因此，多线程并行任务功能可以充分发挥计算机的计算能力。

用多线程实现查找过滤的思路是：采用多线程方式，每个线程处理一部分数据的检索，最后将每一部分检索的结果合并。这里通过一个例子来看一下具体做法。考虑到大数据一般都存储在文件中，这里也以Orders.txt文件为例，数据如下：

ORDERID CLIENT SELLERID AMOUNT ORDERDATE NOTE

1 287 47 5825 2013-05-31 gafcaghafdgie f ci…

2 89 22 8681 2013-05-04 gafcaghafdgie f ci…

3 47 67 7702 2009-11-22 gafcaghafdgie f ci…

4 76 85 8717 2011-12-13 gafcaghafdgie f ci…

5 307 81 8003 2008-06-01 gafcaghafdgie f ci…

6 366 39 6948 2009-09-25 gafcaghafdgie f ci…

7 295 8 1419 2013-11-11 gafcaghafdgie f ci…

8 496 35 6018 2011-02-18 gafcaghafdgie f ci…

9 273 37 9255 2011-05-04 gafcaghafdgie f ci…

10 212 0 2155 2009-03-22 gafcaghafdgie f ci…

…

数据中note字段是为了增加每条记录的长度设置的字段，没有实际意义。

需要按照条件“sellerid=1并且client=50并且orderdate在2013之后”检索过滤后提交给外部Java程序。

由于Orders.txt的数据量较大，所以分成若干段并行处理。首先，要使用集算器来编写脚本select.dfx，实现多线程并行检索，具体脚本如下：

文件计算的并行查找与过滤

博客分类： DB 文件计算外存计算并行查询过滤集算器

A1：并行线程数为4。

A2：通过fork关键字，使用多线程执行B2到B4的代码，线程数是4，每个线程读取到的A2值分别是1、2、3、4。

B2：利用游标cursor函数，将文件大致分成4组，取其中第A2组的游标（只取需要的字段）。

B3：对游标进行过滤。

B4：返回本线程的过滤结果B4。

A5：在主线程中把四个线程的返回结果合并。

A6：向外部程序返回最终结果。

集算器脚本完成之后保存为selec.dfx，在外部程序中通过集算器JDBC调用select.dfx的方法参见集算器的教程。

如果提前将文本文件转换为集算器提供的二进制格式，性能会进一步提升。转换代码为：

文件计算的并行查找与过滤

博客分类： DB 文件计算外存计算并行查询过滤集算器

A1：新建一个文本文件的游标。

A2：将文本文件的游标输出为二进制文件。

将select.dfx修改如下：

文件计算的并行查找与过滤

博客分类： DB 文件计算外存计算并行查询过滤集算器

可以看到仅B2的cursor参数改为@bz，读取二进制文件，其他脚本没有变。

在相同的硬件条件下，同样是3.4G数据，4线程并行，采用普通文本文件完成上述查找过滤需要24秒，采用二进制文件只需要4秒。

采用集算器多线程查找过滤方案的性能测试数据，参见《集算器文件遍历计算的性能测试》。通过测试并与Oracle对比发现，当数据量小于可用内存时，Oracle的性能较好。数据量大于可用内存时，集算器性能常常会超出。

上述方式是采用单机并行来提高计算性能。对于数据量更大的情况，也可以考虑采用集算服务器集群的方式，利用多机并行来进一步提升性能。

查看图片附件

相关标签：文件计算外存计算并行查询过滤集算器

上一篇：并发与并行区别

下一篇： Lambda表达式之并行和并发

文件计算的并行查找与过滤

Java 的 FileFilter文件过滤与readline读行操作实例代码

Java 的 FileFilter文件过滤与readline读行操作实例代码

并行数据文件系统与计算的高性能集成

PHP文件操作之获取目录下文件与计算相对路径的方法

详解Linux查找目录下的按时间过滤的文件

Python读取Pickle文件信息并计算与当前时间间隔的方法分析

查找适用于matplotlib的中文字体名称与实际文件名对应关系的方法

linux下的find文件查找命令与grep文件内容查找命令

linux下的find文件查找命令与grep文件内容查找命令(转载)

Linux查找目录下的按时间过滤的文件