Impala 性能调优 总结
程序员文章站
2022-07-10 23:30:56
...
优化思路:
Impala中,提供了10大类优化思路和方法:
1.分区
2.连接查询性能考虑
3.表和列信息统计
4.Impala性能测试:
5.基准Impala查询:
6. 控制Impala的资源使用情况:
7.使用Impala查询Amazon S3的文件系统。
8.HDFS缓存
9.执行计划和查询概况
10. 数据块倾斜
表分区:基于不同列值进行查询,避免大量无效信息过滤,和常规数据库分区理念一致。
连接查询性能考虑:连接查询的主要类,你可以在SQL级,相对于变化的物理因素如文件格式或硬件配置。有关列统计和表统计的概述的相关主题也很重要,主要用于连接性能。
表和列信息统计:概要表统计和列统计的概述。收集表和列的统计,计算统计报表,帮助impala自动优化性能的查询,而不需要更改SQL查询语句。
Impala性能测试:做一些安装后的测试以确保Impala使用最优设置的性能基准测试之前,进行任何。
基准Impala查询:配置和样本数据,您使用的Impala最初的实验和测试数据往往是不适合做性能测试。
控制Impala的资源使用情况:越多的Impala内存可以利用,你可以期待更好的查询性能。但在集群中运行的其他工作一样,你必须权衡确保Hadoop所有组件有足够的内存来执行的前提下,你可能使用盖的内存,Impala可以使用,不能不能够此时彼。
参考:
https://docs.cloudera.com/documentation/enterprise/latest/topics/impala_performance.html
上一篇: 数组实现栈的简单实现