欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

文件计算的并行查找与过滤

程序员文章站 2022-05-18 12:25:14
...

   润乾集算器具备文件计算能力。对于数据量相对较大的情况,集算器提供了多线程并行的功能,可以充分利用计算机的多CPU多核的计算能力,获得接近或超过传统数据库的计算性能。

  这里只考虑小结果集的情况,即数据计算结果在内存可以装下的情况。

  集算器多线程并行结构示意图如下:


文件计算的并行查找与过滤
            
    
    博客分类: DB 文件计算外存计算并行查询过滤集算器 
 

  如上图所示,集算器通过一个主脚本将任务分配给多个子脚本,每个子脚本分别访问本地数据的一部分进行计算。子脚本都完成计算后,将结果返回给主脚本,完成计算后提交给宿主程序(如报表工具)。

  每个子脚本就是一个线程。理论上说服务器对多线程并行任务的支持取决于CPU核数和硬盘并行性能。服务器的CPU核数越多、硬盘的并行读取能力越强,可以同时运行的线程数越多,总任务完成的越快。因此,多线程并行任务功能可以充分发挥计算机的计算能力。

  用多线程实现查找过滤的思路是:采用多线程方式,每个线程处理一部分数据的检索,最后将每一部分检索的结果合并。这里通过一个例子来看一下具体做法。考虑到大数据一般都存储在文件中,这里也以Orders.txt文件为例,数据如下:

   ORDERID CLIENT     SELLERID AMOUNT ORDERDATE NOTE

   1    287    47    5825     2013-05-31       gafcaghafdgie f ci…

   2    89    22    8681     2013-05-04       gafcaghafdgie f ci…

   3    47    67    7702     2009-11-22       gafcaghafdgie f ci…

   4    76    85    8717     2011-12-13       gafcaghafdgie f ci…

   5    307    81    8003     2008-06-01       gafcaghafdgie f ci…

   6    366   39     6948     2009-09-25       gafcaghafdgie f ci…

   7    295   8     1419     2013-11-11       gafcaghafdgie f ci…

   8    496   35     6018     2011-02-18       gafcaghafdgie f ci…

   9    273   37     9255     2011-05-04       gafcaghafdgie f ci…

   10    212   0     2155     2009-03-22       gafcaghafdgie f ci…

   …

  数据中note字段是为了增加每条记录的长度设置的字段,没有实际意义。

  需要按照条件“sellerid=1并且client=50并且orderdate在2013之后”检索过滤后提交给外部Java程序。

  由于Orders.txt的数据量较大,所以分成若干段并行处理。首先,要使用集算器来编写脚本select.dfx,实现多线程并行检索,具体脚本如下:


文件计算的并行查找与过滤
            
    
    博客分类: DB 文件计算外存计算并行查询过滤集算器 
 

   A1:并行线程数为4。

  A2:通过fork关键字,使用多线程执行B2到B4的代码,线程数是4,每个线程读取到的A2值分别是1、2、3、4。

  B2:利用游标cursor函数,将文件大致分成4组,取其中第A2组的游标(只取需要的字段)。

  B3:对游标进行过滤。

  B4:返回本线程的过滤结果B4。

  A5:在主线程中把四个线程的返回结果合并。

  A6:向外部程序返回最终结果。

  集算器脚本完成之后保存为selec.dfx,在外部程序中通过集算器JDBC调用select.dfx的方法参见集算器的教程。

  如果提前将文本文件转换为集算器提供的二进制格式,性能会进一步提升。转换代码为:


文件计算的并行查找与过滤
            
    
    博客分类: DB 文件计算外存计算并行查询过滤集算器 
 

   A1:新建一个文本文件的游标。

  A2:将文本文件的游标输出为二进制文件。

  将select.dfx修改如下:


文件计算的并行查找与过滤
            
    
    博客分类: DB 文件计算外存计算并行查询过滤集算器 
 

   可以看到仅B2的cursor参数改为@bz,读取二进制文件,其他脚本没有变。

  在相同的硬件条件下,同样是3.4G数据,4线程并行,采用普通文本文件完成上述查找过滤需要24秒,采用二进制文件只需要4秒。

  采用集算器多线程查找过滤方案的性能测试数据,参见《集算器文件遍历计算的性能测试》。通过测试并与Oracle对比发现,当数据量小于可用内存时,Oracle的性能较好。数据量大于可用内存时,集算器性能常常会超出。

  上述方式是采用单机并行来提高计算性能。对于数据量更大的情况,也可以考虑采用集算服务器集群的方式,利用多机并行来进一步提升性能。

 

  • 文件计算的并行查找与过滤
            
    
    博客分类: DB 文件计算外存计算并行查询过滤集算器 
  • 大小: 24.1 KB
  • 文件计算的并行查找与过滤
            
    
    博客分类: DB 文件计算外存计算并行查询过滤集算器 
  • 大小: 36.1 KB
  • 文件计算的并行查找与过滤
            
    
    博客分类: DB 文件计算外存计算并行查询过滤集算器 
  • 大小: 16.8 KB
  • 文件计算的并行查找与过滤
            
    
    博客分类: DB 文件计算外存计算并行查询过滤集算器 
  • 大小: 37.1 KB