Hive中导入Amazon S3中的分区表数据的操作

程序员文章站 2022-06-06 12:46:43

Hive中创建S3的外部表数据在S3存放的数据是按时间纬度存放的，每天的数据存放在各自的目录下，目录结构如下截图：每个目录下面的数据是CSV文件，现在将其导入到Hive中进行查询，通过创建对应的表结构： [sql] view plain copy CREATE EXTERNAL TABLE `p ......

Hive中创建S3的外部表

数据在S3存放的数据是按时间纬度存放的，每天的数据存放在各自的目录下，目录结构如下截图：

每个目录下面的数据是CSV文件，现在将其导入到Hive中进行查询，通过创建对应的表结构：

[sql]

CREATE EXTERNAL TABLE `palmplay_log_pv_s3_csv`(
`meta_id` string COMMENT 'from deserializer',
`brand` string COMMENT 'from deserializer',
`channel` string COMMENT 'from deserializer',
`countrycode` string COMMENT 'from deserializer')
partitioned by (dt String)
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
"separatorChar" = "\t",
"quoteChar" = "'",
"escapeChar" = "\\"
)
STORED AS TEXTFILE
LOCATION
's3a://palmplay_log_pv_csv';

然后通过如下语句进行查询：

[sql]

select * from palmplay_log_pv_s3_csv limit 10;
select * from palmplay_log_pv_s3_csv where dt='2018-04-09' limit 10;

此时是查询不到结果，因为这个时候分区表的分区信息并没有加载到Hive的Metastore中，需要先执行将分区信息加载到Metastore中，才可以查询到数据。

加载表的分区信息到Metastore中

从S3中将表的分区信息加载到Hive的Metastore中，这个同从HDFS中加载表的分区信息是一样的，执行以下命令进行加载：

[plain]

MSCK REPAIR TABLE palmplay_log_pv_s3_csv;

然后再执行select查询就可以查询到数据了。

注：可以使用hive.metastore.fshandler.threads参数（缺省值为15，配置在hive-site.xml中）来增加用于在MSCK阶段中扫描分区的线程数。

如果你想了解大数据的学习路线，想学习大数据知识以及需要免费的学习资料可以加群：784789432.欢迎你的加入。每天下午三点开直播分享基础知识，晚上20:00都会开直播给大家分享大数据项目实战。

对表进行分析
在Amazon S3上处理数据时，分析表的步骤与在HDFS中处理数据时的步骤相同。
可以通过设置hive.stats.autogather = true或运行analyze table table_name compute statistics命令自动收集表统计信息，例如：
ANALYZE TABLE table_name PARTITION（dt ='2018-04-09'）COMPUTE STATISTICS;
但是，列统计信息只能通过运行列命令的分析表测试计算统计信息来收集，例如：

[sql]

ANALYZE TABLE table_name PARTITION（ds ='2018-04-09'）COLUMNS;

有关更多信息和示例，请参阅。

参考：

上一篇： SQL server 数据库的索引和视图、存储过程和触发器

下一篇： IE8与document.style.setExpression

Hive中导入Amazon S3中的分区表数据的操作

Hive中导入Amazon S3中的分区表数据的操作

如何将excel中的数据导入hive仓库中

Oracle之dmp导入/导出、数据库操作等过程中的字符集问题

SqlServer2012语句操作学习之用SQL语句对表中数据进行操作及数据的导入和导出

Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ，并更新Hive中的主表

Hive中导入Amazon S3中的分区表数据的操作

在HUE中将文本格式的数据导入hive数仓中

Oracle之 dmp导入/导出、数据库操作等过程中的字符集问题

如何将excel中的数据导入hive仓库中

Oracle之 dmp导入/导出、数据库操作等过程中的字符集问题