欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  数据库

基于 Hive 的文件格式:RCFile 简介及其应用

程序员文章站 2022-04-25 16:31:55
...

RCFile是Hive推出的一种专门面向列的数据格式。 它遵循ldquo;先按列划分,再垂直划分rdquo;的设计理念。当查询过程中,针对它并

目录

1、Hadoop 文件格式简介
(1)SequenceFile
(2)RCFile
(3)Avro
(4)文本格式
(5)外部格式
2、为什么需要 RCFile
3、RCFile 简介
4、超越RCFile,下一步采用什么方法
5、如何生成 RCFile 文件
(1)hive 中直接通过textfile表进行insert转换
(2)通过 mapreduce 生成
6、Refer:

Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过,MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建,因此序列化和反序列化的成本过高。

1、hadoop 文件格式简介

目前 hadoop 中流行的文件格式有如下几种: