记一次Apache Carbondata PR的经历

程序员文章站 2022-06-25 08:13:51

前言前段时间有幸接触到Apache Carbondata，试用过程中发现了一个小小的问题，并且又很快的定位到了问题。然后在社区群里反映了下，负责人问愿不愿意提个JIRA,PR，然后我在没有任何开源项目PR过的情况下竟然欣然答应了。（可能跟ZB心有关吧o(╥﹏╥)o）然后来说说这段美妙而又酸爽的经历 ......

前言

前段时间有幸接触到apache carbondata，试用过程中发现了一个小小的问题，并且又很快的定位到了问题。然后在社区群里反映了下，负责人问愿不愿意提个jira,pr，然后我在没有任何开源项目pr过的情况下竟然欣然答应了。（可能跟zb心有关吧o(╥﹏╥)o）然后来说说这段美妙而又酸爽的经历吧【学习到了很多】！

简介

carbondata是首个由中国公司发起并捐献给apache基金会的开源项目，于2017年4月正式成为apache*项目，由华为开源并支持hadoop的高性能列式存储文件格式，其目的是提供一种统一的数据存储方案，以一份数据同时支持大数据分析的多种应用场景，all in one，并通过多级索引、字典编码、列式存储等特性提升 i/o 扫描和计算性能，实现百亿数据级秒级响应。目前最新版是1.5.1，集成了spark 2.1.0，2.2.1，2.3.2和hadoop2.7.2，如果是其它版本，则需要自己编译源码！

优势

1. 规模比impala+kudu大，基于mpp架构的系统很难超过100节点。

2. 没有进程，不需要单独部署集群，在现有hadoop/spark/presto上即可以使用。

3. 有索引，对多维过滤查询不用全扫描。

4. 有预汇聚，对olap

问题

先抛出来试用过程中出现的问题。carbondata版本：1.5.0，spark 2.3.2 模式：本地 spark-shell

例子：http://carbondata.apache.org/quick-start-guide.html

记一次Apache Carbondata PR的经历

问题描述：

上面是提交jira的时候提交的bug再现流程，总的就是在创建 carbondata 的时候，getorcreatecarbonsession方法默认有两个参数 storepath（存储table数据） metastorepath（t存储able元数据），不传的话会默认创建，但可能好多人第一次使用的时候不清楚，然后会根据quick start 传一个空字符串，造成的结果就是每一步都显示成功，但最终carbondata表结果查询却是空。通过查看源码，在carbondata\integration\spark2模块中发现 getorcreatecarbonsession 方法的storepath，metastorepath参数都只是简单的 null 的判断，所以造成了本地创建storepath存储在空字符串中，导致最终查询不出来结果。

解决方案：

使用 stringutils.isnotblank 替代原来的简单 null 判断。

流程

1) 首先注册apache jira 账号（没有的话），注意在这一定要描述清楚你的问题的是什么，属于什么类型（优先级不一样）例子：https://issues.apache.org/jira/projects/carbondata/issues/carbondata-3119?filter=allopenissues

2）fork ，https://github.com/apache/carbondata。

记一次Apache Carbondata PR的经历

3）a. git config:

$ git config --global user.email "xxxxx@163.com" --输入自己的git邮箱
$ git config --global user.name "xxxxx" --输入自己的git name

b. git clone

$ git clone https://github.com/apache/carbondata.git --把源码下载到自己置顶的本地目录

git remote add xxxx https://github.com/xxxx/carbondata.git --跟fork下来的carbondata git仓库关联起来

git fetch --all

git checkout -b master --直接使用master分支（当然也可以创建自己的分支）

git add 修改的文件

git commit -m "本次commit说明"

git rebase -i 分支名字 -- 这个命令是用来修改已提交的 commit 的说明的。就是开源项目都有自己严格的规范，不合格需要重新提交commit说明

git push 远程主机名分支名 --提交到远程仓库本地分支名和远程分支名一致

当然远程提交之前确保测试用例是通过的，然后就可以直接在fork下来的仓库中点击 pull request了，一般这的说明都会有严格的模板例子，所以不要擅自改格式。提交了pr之后，就注意邮件消息等回复，需要修改或者不规范的地方需要回工，知道最终被merge。然后恭喜你就成为一名apache carbondata 的contributors之一了。那么楼主我自己很荣幸也是拿到了奖励的华为小天鹅蓝牙音箱，最主要的是荣誉感满满（虽然是小小的一次修改，但毕竟是第一次嘛，第一次还是很值得留念的博友们）

项目编译过程中遇到的问题：

1）在windows编译的的时候 maven 命令：

clean -dskiptests -pbuild-with-format -pspark-2.3 -pwindows install

2）首先需要本地安装 thrift 0.93，并配置环境变量。根据 thrift --version查看是否安装成功

3）import scala 包是有分组和组内排序的，注释也有严格的格式。不然编译的时候会报代码style不对，编译通不过的。

apache carbondata官方网站： http://carbondata.apache.org/

记一次Apache Carbondata PR的经历

上一篇： 1 小时 SQL 极速入门（三）——分析函数

下一篇： .NET Core：依赖注入

记一次Apache Carbondata PR的经历

记一次webpack3升级webpack4的踩坑经历

记一次悲凉的电脑升级、翻车、攒机经历

记一次Centos服务器被挂马的抓马经历

记一次生产数据库"意外"重启的经历

记一次bash脚本开发的经历

记一次手写python爬虫的经历

记一次从TXT文件导入数据到Oracle数据库的经历

记一次使用innobackupex做全备恢复失败的经历

记一次“7天裂变9万会员”的项目经历

记一次Apache Carbondata PR的经历