欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

记一次Apache Carbondata PR的经历

程序员文章站 2022-03-09 13:55:49
前言 前段时间有幸接触到Apache Carbondata,试用过程中发现了一个小小的问题,并且又很快的定位到了问题。然后在社区群里反映了下,负责人问愿不愿意提个JIRA,PR,然后我在没有任何开源项目PR过的情况下竟然欣然答应了。(可能跟ZB心有关吧o(╥﹏╥)o)然后来说说这段美妙而又酸爽的经历 ......

 前言

        前段时间有幸接触到apache carbondata,试用过程中发现了一个小小的问题,并且又很快的定位到了问题。然后在社区群里反映了下,负责人问愿不愿意提个jira,pr,然后我在没有任何开源项目pr过的情况下竟然欣然答应了。(可能跟zb心有关吧o(╥﹏╥)o)然后来说说这段美妙而又酸爽的经历吧【学习到了很多】!

 

简介

        carbondata是首个由中国公司发起并捐献给apache基金会的开源项目,于2017年4月正式成为apache*项目,由华为开源并支持hadoop的高性能列式存储文件格式,其目的是提供一种统一的数据存储方案,以一份数据同时支持大数据分析的多种应用场景,all in one,并通过多级索引、字典编码、列式存储等特性提升 i/o 扫描和计算性能,实现百亿数据级秒级响应。目前最新版是1.5.1,集成了spark 2.1.0,2.2.1,2.3.2和hadoop2.7.2,如果是其它版本,则需要自己编译源码!

 

 优势

      1. 规模比impala+kudu大,基于mpp架构的系统很难超过100节点。

       2. 没有进程,不需要单独部署集群,在现有hadoop/spark/presto上即可以使用。

       3. 有索引,对多维过滤查询不用全扫描。

       4. 有预汇聚,对olap

 

问题

      先抛出来试用过程中出现的问题。carbondata版本:1.5.0,spark 2.3.2     模式:本地 spark-shell

       例子:http://carbondata.apache.org/quick-start-guide.html

       记一次Apache Carbondata PR的经历   记一次Apache Carbondata PR的经历

 

         记一次Apache Carbondata PR的经历

 

        问题描述:   

        上面是提交jira的时候提交的bug再现流程,总的就是在创建 carbondata 的时候,getorcreatecarbonsession方法默认有两个参数 storepath(存储table数据) metastorepath(t存储able元数据),不传的话会默认创建,但可能好多人第一次使用的时候不清楚,然后会根据quick start 传一个空字符串,造成的结果就是每一步都显示成功,但最终carbondata表结果查询却是空。通过查看源码,在carbondata\integration\spark2模块中发现 getorcreatecarbonsession  方法的storepath,metastorepath参数都只是简单的 null 的判断,所以造成了本地创建storepath存储在空字符串中,导致最终查询不出来结果。

       解决方案:

       使用 stringutils.isnotblank 替代原来的简单 null 判断。

流程

      1) 首先注册apache jira 账号(没有的话),注意在这一定要描述清楚你的问题的是什么,属于什么类型(优先级不一样)  例子:https://issues.apache.org/jira/projects/carbondata/issues/carbondata-3119?filter=allopenissues

       2)fork ,https://github.com/apache/carbondata。

             记一次Apache Carbondata PR的经历

 

     

    3)a. git config:    

        $ git config --global user.email "xxxxx@163.com"     --输入自己的git邮箱
        $ git config --global user.name "xxxxx"                     --输入自己的git name

 

       b. git clone

       $ git clone https://github.com/apache/carbondata.git   --把源码下载到自己置顶的本地目录

 

      c.

      git remote add xxxx https://github.com/xxxx/carbondata.git   --跟fork下来的carbondata git仓库关联起来

 

     d.

     git fetch --all

     git checkout -b  master   --直接使用master分支(当然也可以创建自己的分支)

   

     e.

     git add 修改的文件

     git commit -m "本次commit说明"

     git rebase -i  分支名字                             -- 这个命令是用来修改 已提交的 commit  的说明的。就是开源项目都有自己严格的规范,不合格需要重新提交commit说明

 

   f:

    git push 远程主机名 分支名     --提交到远程仓库  本地分支名和远程分支名一致

  

  当然远程提交之前确保测试用例是通过的,然后就可以直接在fork下来的仓库中 点击 pull request了,一般这的说明都会有严格的模板例子,所以不要擅自改格式。提交了pr之后,就注意邮件消息等回复,需要修改或者不规范的地方需要回工,知道最终被merge。然后恭喜你就成为一名apache carbondata 的contributors之一了。 那么楼主我自己很荣幸也是拿到了奖励的华为 小天鹅 蓝牙音箱,最主要的是荣誉感满满(虽然是小小的一次修改,但毕竟是第一次嘛,第一次还是很值得留念的博友们)

 

 项目编译过程中遇到的问题:

  1)在windows编译的的时候 maven 命令:

clean -dskiptests -pbuild-with-format -pspark-2.3 -pwindows install

 

 

  2)首先需要本地安装 thrift 0.93,并配置环境变量。  根据 thrift --version查看是否安装成功

  3)import scala 包是有分组和组内排序的,注释也有严格的格式。 不然编译的时候会报 代码style不对,编译通不过的。

 

apache carbondata官方网站:   http://carbondata.apache.org/

 

 

 记一次Apache Carbondata PR的经历

 

      

 记一次Apache Carbondata PR的经历