欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Apache Tajo介绍

程序员文章站 2022-04-29 15:21:30
...

       微博:http://weibo.com/guoyunwb

 

       Apache Tajo已经进入apache孵化器,国内网上一搜貌似还没有相关资料。这里我就抛砖引玉,充当一点翻译工作。

 

       介绍:

       Apache Tajo是一个基于hadoop的关系型且分布式的数据库仓库系统,Tajo设计之初就是通过先进的数据库技术做到能够低延迟,可扩展,即时查询,可聚合的数据库仓库系统,以弥补hadoop等目前在实时,关系事务方面的短板。同时Tajo还支持SQL标准,所以你可以通过SQL来操作它。HDFS为Tajo的主要存储层,并且有自己的查询引擎(代码结构看下来貌似很多代码都是自己写的)所以可以直接控制各种分布式执行(如查询)和数据流。如此Tajo有许多查询控制策略,以及对查询可以做很多优化。

 

       功能:

       1.快速且低延迟的查询,支持各种SQL操作,如条件查询,GROUP BY,SORT,JOIN等

       2.自身支持ETL

       3.支持各种数据格式,如CSV, RCFile, RowFile (基于行的文件存储), and Trevni

         4.有自己的命令行接口,所以可以直接通过SQL去操作Tajo

         5.也可以直接通过Java Client去操作Tajo

 

        依赖:

  • Hadoop 2.0.3-alpha
  • Java 1.6

         网址:

             http://tajo.incubator.apache.org/

 

 更多技术文章、感悟、分享、勾搭,请用微信扫描:

Apache Tajo介绍
            
    
    博客分类: Hadoop架构