hive 的数据案例统计网站的数据信息

程序员文章站 2022-05-01 12:09:37

...

根据hive的案例一增加需求

一：增加案例需求：

统计 pv , uv , 登录人数 , 游客人数 , 平均访问时长 , 二跳率 , 独立IP 
用一张表去处理

1.1 查看track_log的分区

show partitions track_log ;

hive 的数据案例统计网站的数据信息

1.2 建立一张会话信息表（session）：

create table session_info(
session_id string,
guid string,
trackerU string,
landing_url string,
landing_url_ref string,
user_id string,
pv string,
stay_time string,
min_trackTime string,
ip string,
provinceId string
)
partitioned by (date string)
row format delimited fields terminated by '\t' ;

hive 的数据案例统计网站的数据信息

1.3 创建临时表 session_info_tmp1

create table session_info_tmp1 as select 
sessionId session_id,
max(guid) guid,
--trackerU string,
--landing_url string,
--landing_url_ref string,
max(endUserId) user_id,
count(url) pv,
(max(unix_timestamp(trackTime)) - min(unix_timestamp(trackTime)))  stay_time,
min(trackTime) min_trackTime ,
max(ip) ip,
max(provinceId) provinceId
from track_log where date='20150828'
group by sessionId ;

hive 的数据案例统计网站的数据信息

1.4 创建临时表session_info_tmp2

create table session_info_tmp2 as select
sessionId session_id,
trackTime trackTime,
trackeru trackerU,
url landing_url,
referer landing_url_ref
from track_log where date='20150828' ;

hive 的数据案例统计网站的数据信息

1.5 导入数据处理：

insert overwrite table session_info partition (date='20150828')
select
a.session_id,
a.guid,
b.trackerU,
b.landing_url,
b.landing_url_ref,
a.user_id,
a.pv,
a.stay_time,
a.min_trackTime,
a.ip,
a.provinceId
from session_info_tmp1 a  join session_info_tmp2 b
on a.session_id=b.session_id 
and a.min_trackTime=b.trackTime ;

hive 的数据案例统计网站的数据信息

1.6 生成最后所需的表：

create table vistor_users_info as
select
date,
count(distinct guid) UV,
sum(pv) PV,
count(case when user_id != '' then user_id else null end) login_users,
count(case when user_id = '' then user_id else null end) vistor_users,
avg(stay_time) avg_stay_time,
count(case when pv>=2 then session_id else null end)/count(session_id) sec_ratio,
count(distinct ip) ip
from session_info where date='20150828'
group by date ;

hive 的数据案例统计网站的数据信息

1.7 查询结果：

select * from vistor_users_info;

hive 的数据案例统计网站的数据信息

转载于:https://blog.51cto.com/flyfish225/2097296

上一篇： Cloudera Manager安装日记

下一篇： javacc案例之统计字符

hive 的数据案例统计网站的数据信息

一：增加案例需求：

1.1 查看track_log的分区

1.2 建立一张会话信息表（session）：

1.3 创建临时表 session_info_tmp1

1.4 创建临时表session_info_tmp2

1.5 导入数据处理：

1.6 生成最后所需的表：

1.7 查询结果：

SQL Server统计信息更新时采样百分比对数据预估准确性的影响详解

Linux系统下查看网络接口数据信息的命令总结

XmlHttp异步获取网站数据的例子

上海宏鹿信息技术创立小牛科技大数据领域的新生力量

Hive中导入Amazon S3中的分区表数据的操作

2020年25个令人震惊的网红营销统计数据

手把手教你用Node.js爬虫爬取网站数据的方法

IDC发布2019Q2平板电脑统计数据 iPad以38.1%的市场份额位居第一

Python爬取租房数据实例，据说可以入门爬虫的小案例！

angular,vue,react的基本语法—双向数据绑定、条件渲染、列表渲染、angular小案例

hive 的数据案例 统计网站的数据信息

一： 增加案例需求：

1.1 查看track_log的分区

1.2 建立一张会话信息表（session）：

1.3 创建临时表 session_info_tmp1

1.4 创建临时表session_info_tmp2

1.5 导入数据处理：

1.6 生成最后所需的表：

1.7 查询结果：

SQL Server统计信息更新时采样百分比对数据预估准确性的影响详解

Linux系统下查看网络接口数据信息的命令总结

XmlHttp异步获取网站数据的例子

上海宏鹿信息技术创立小牛科技大数据领域的新生力量

Hive中导入Amazon S3中的分区表数据的操作

2020年25个令人震惊的网红营销统计数据

手把手教你用Node.js爬虫爬取网站数据的方法

IDC发布2019Q2平板电脑统计数据 iPad以38.1%的市场份额位居第一

Python爬取租房数据实例，据说可以入门爬虫的小案例！

angular,vue,react的基本语法—双向数据绑定、条件渲染、列表渲染、angular小案例

hive 的数据案例统计网站的数据信息

一：增加案例需求：