欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

大数据数仓Hive笔试题(一)

程序员文章站 2022-06-03 17:56:58
...
  1. 有十万个淘宝店铺,每个顾客访问任意一个店铺事都会生成一条访问日志,存储表为 Visit,其中访问用户ID字段名称为uid,访问的店铺字段名称为store,请统计每个店 铺的UV.(UV指的是独立访问用户,即指单个用户)
select 
store,count(distinct uid) UV 
from Visit group by store;
  1. 有一亿个用户,被存储于表Users中,其中有用户唯一字段UID,用户年龄age和用户 消费总金额total,请以代码或技术方案阐述的方式,分别用SQL,或者spark core按照 用户年龄从大到小排序,如果年龄相同,则按照总消费金额按照从小到大排序.
select 
UID,age,total
from Users 
order by age DESC,total ASC;
  1. 当前用户人生阶段表LifeStage,有用户唯一ID字段,UID,用户人生阶段stage,其 中stage字段为各个人生阶段标签英文逗号分隔拼接内容,如:已买房,计划买车,并且每 个用户的内容不同,请使用Hive SQL 统计每个人生阶段的用户量.
select
stage,count(*) num
(select
from LifeStage 
a lateral view explode(split(stage,',')) t1 as stage) temp -- 列转行问题
group by stage;
  1. 上一题中相同的数据场景,但是LifeStage中每行数据存储一个用户人生阶段数据, 如:一行数据UID字段内容为43,stage字段内容为计划买车,另一行数据UID字段内容已 43,stage字段内容为已买房,请输出类似于UID字段为43,stage字段内容为计划买车, 已买房这样的新的整合数据,并且给出Hive SQL语句.
select 
uid,concat_ws(',',collect_set(stage)) as stage
from LifeStage
group by UID;

相关内容学习
关于concat 与concat_ws GROUP_CONCAT()的用法
collect_set&collect_list函数用法