熟悉的 kylin 的朋友都知道,apache kylin 构建完的数据是存储在 hbase 中的。kylin on hbase 方案经过长时间的发展已经比较成熟,但是也还存在着一定的局限性。kylin 当前主要的计算是在单机节点完成的,存在单点问题。而且由于 hbase 非真正列存的问题,cuboids 信息需要压缩编码,读取 hbase 数据的时候再反序列化、分割,额外增加了计算压力。另外,hbase 运维难度比较大,不便于上云。面对以上问题,kyligence 推出了 kylin on parquet 方案。
kyligence 在 2018 年开始策划 kylin on parquet 方案,在 kylin 商业版中验证了方案的可行性和优势,如今便贡献回开源社区。kylin on parquet 依托 spark,能够做到分布式计算,不再存在单点瓶颈,调试也会更加方便。并且去 hadoop,只需依赖 spark,能够很好的支持云上存储和部署。
目前,kylin on parquet 源码已经开源:https://github.com/kyligence/kylin-on-parquet-v2。
在本次直播中,来自 kyligence 的大数据研发工程师王汝鹏将带大家快速了解 kylin on parquet 的架构、原理以及如何开发调试代码。
kylin online 第 4 期
kylin on parquet 介绍及快速上手
活动亮点
1. kylin on parquet 方案的架构介绍、原理讲解,以及与 kylin 原有构建查询引擎的性能比较。
2. live demo 带您了解如何使用、开发与调试 parquet 代码。
3. q&a 环节为您答疑解惑,您也有机会获赠「kylin 权威指南」~
哪些人应该参加
1. 想尝鲜 kylin 最新一代存储方式,希望与志同道合的 kylin contributor 们一起探讨与参与 kylin on parquet 开发。
2. 有兴趣了解下一代 kylin 面向云原生 olap 引擎的架构原理。
直播时间
4 月 18 日(下周六) 20:00 – 21:00
关于讲师
王汝鹏,kyligence 公司大数据研发工程师,apache kylin contributor,目前主要负责开源 kylin 构建引擎的维护和 kylin on parquet 的开源工作。
如何报名
↓扫描下方二维码报名↓