hive工作中的一些优化策略

程序员文章站 2022-06-02 20:01:51

1、hive抓取策略 hive.fetch.task.conversion = more/none more不走mr，none走mr 2、explain 显示执行计划 3、设置本地运行模式 set hive.exec.mode.local.auto = true hive.exec.mode.loc ......

1、hive抓取策略

hive.fetch.task.conversion = more/none

more不走mr，none走mr

2、explain 显示执行计划

3、设置本地运行模式

set hive.exec.mode.local.auto = true

hive.exec.mode.local.inputbytes.max 默认128m，表示加载文件的最大值，若大于该配置仍会以集群方式运行

4、并行计算

set hive.exec.parallel = true/falses

set hive.exec.parallel.thread.number 默认8个

5、严格模式

set hive.mapred.mode = strict/nonstrict

限制查询：

对于分区表，必须添加where对于分区字段的过滤条件
order by语句必须包含limit输出限制
限制执行笛卡尔积的查询

6、hive排序

order by：对于查询结果做全排序，只允许一个reduce处理（当数据量较大时，慎用。严格模式下，必须结合limit来使用）
sort by：对于单个reduce的数据进行排序
distribute by：分区排序，经常和sort by结合使用
cluster by：相当于sort by+distribute by
- 　　cluster by不能通过asc、desc的方式指定排序顺序，可通过distribute by column sort by column asc|desc的方式

7、hive join

join计算时，将小表（驱动表）放在join的左边
map join：在map端完成join
- 　　sql方式：在sql语句中添加map join的标记(mapjoin hint)
  - 　　语法：select /* mapjoin(b) */ a.key, a.value from a join b on a.key = b.key
- 　　自动的mapjion
  - 通过以后配置启用自动的mapjion
    - - 　　set hive.auto.convert.join = true （为true时，hive自动对左边的表统计量，如果时小表就加入内存，即对小表启动mapjion）
      - 　　hive.mapjion.smalltable.filesize 默认25m
      - 　　hive.ignore.mapjion.hint 是否忽略maojoin hint的标
尽可能使用相同的连接键（转化为一个mr）
大表join大表（不一定有用）
- 空key过滤：有时join超时是因为某些key对应的数据太多，而相同key对应的数据都会发送到相同的reducer上，从而导致内存不够。此时我们应该仔细分析这些异常的key，很多情况下，这些key对应的数据是异常数据，我们需要在sql语句中进行过滤。
- 空key转换：有时虽然某个key为空对应的数据很多，但是相应的数据不是异常数据，必须要包含在join的结果中，此时我们可以表a中key为空的字段赋一个随机的值，使得数据随机均匀地分不到不同的reducer上

8、map-side聚合

通过设置参数开启map端的聚合：set hive.map.aggr=true
hive.groupby.mapaggr.checkinterval —map端gourp by执行聚合时处理的多少行数据（默认100000）
hive.map.aggr.hash.min.reduction —进行聚合的最小比例（预先对100000条数据做聚合，若聚合之后的数据量/100000的值大于配置的0.5，则不会聚合）
hive.map.aggr.hash.percentmemory —map端聚合使用的内存最大值
hive.map.aggr.hash.force.flush.memory.threshold —map端做聚合操作时hash表的最大可用内容，大于该值出发flush
hive.groupby.skewindata — 是否对groupby产生的数据倾斜做优化。默认false

9、合并小文件文件数据小，容易在文件存储端造成压力，给hdfs造成压力，影响效率

设置合并属性
- 是否合并map输出文件：hive.merge.mapfiles=true
- 是否合并reduce输出文件：hive.merge.mapredfiles=true
- 合并文件的大小：hive.merge.size.per.task=256*1000*1000

10、去重统计：数据量小的时候无所谓，数据量大的情况下，由于count distinct操作需要用一个reduce task来完成，这一个reduce需要处理的数据量太大，就会导致整个job很难完成，一般count distinct使用先group by再count的方式替换

11、控制hive中map以及reduce的数量

map数量相关的参数
- mapred.max.split.size 每个split的最大值，即每个map处理文件的最大值
- mapred.min.split.size.per.node 一个节点上split的最小值
- mapred.min.split.size.per.rack 一个机架上split的最小值
reduce数量相关的参数
- mapred.reduce.tasks 强制指定reduce任务的数量
- hive.exec.reducers.bytes.per.reduce 每个reduce任务处理的数据量
- hive.exec.reduce.max 每个任务最大的reduce书

12、hive-jvm重用

适用场景
- 小文件个数过多
- task个数过多
通过set mapred.job.reuse.jvm.num.tasks=n来设置
- 　　缺陷：设置开启之后，task插槽会一直占用资源，无论是否有task运行，直到所有的task即整个job全部执行完成时，才会释放所有的task插槽的资源

上一篇：浅谈bootstrap layer.open中end的使用方法

下一篇： Mac OS 10.15 修改登录壁纸

hive工作中的一些优化策略

MySQL 建表的优化策略小结

热门词还是长尾词的排名？大中型网站的关键词优化策略

网站优化关于关键词的定位策略与战略

网站优化SEO一些不为人知的小技巧

SEO基本功：站内优化的一些基本手段

一些优化Nginx服务器的技巧简介

提升外链SEO优化效果的几点策略

浅析几种提升网站图片优化作用的策略

应针对搜索引擎工作原理应该进行的一些优化小结

浅谈百度的一些产品对优化推广起到的作用

hive工作中的一些优化策略

MySQL 建表的优化策略 小结

热门词还是长尾词的排名？大中型网站的关键词优化策略

网站优化关于关键词的定位策略与战略

网站优化SEO一些不为人知的小技巧

SEO基本功：站内优化的一些基本手段

一些优化Nginx服务器的技巧简介

提升外链SEO优化效果的几点策略

浅析几种提升网站图片优化作用的策略

应针对搜索引擎工作原理应该进行的一些优化小结

浅谈百度的一些产品对优化推广起到的作用

MySQL 建表的优化策略小结