基于 Hive 的文件格式:RCFile 简介及其应用
程序员文章站
2022-04-25 16:31:55
...
RCFile是Hive推出的一种专门面向列的数据格式。 它遵循ldquo;先按列划分,再垂直划分rdquo;的设计理念。当查询过程中,针对它并
目录
1、Hadoop 文件格式简介
(1)SequenceFile
(2)RCFile
(3)Avro
(4)文本格式
(5)外部格式
2、为什么需要 RCFile
3、RCFile 简介
4、超越RCFile,下一步采用什么方法
5、如何生成 RCFile 文件
(1)hive 中直接通过textfile表进行insert转换
(2)通过 mapreduce 生成
6、Refer:
Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过,MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建,因此序列化和反序列化的成本过高。
1、hadoop 文件格式简介
目前 hadoop 中流行的文件格式有如下几种: