数仓 DW层 用户活跃度分析主题
程序员文章站
2022-07-02 14:17:56
数仓 DW层 用户活跃度分析主题1. 背景在大数据分析行为日志数据中,很多时候需要分析用户活跃度,这是判断业务健康程度和发展趋势的一个重要指标。当用户活跃度低的时候,就需要分析原因,改善或者添加功能,让用户活跃起来。这也是为什么支付宝一直想做社交的原因,也是为什么现在开始在支付宝内做各种业务,做小程序平台的原因。其实从侧面来看,运营一个app就跟运营一个商场一样,先把名气打起来,增加用户流入(新增用户,DAU等指标),然后留住用户(用户漏斗),然后想办法增加订单交易额(GMV)。如果可以,还需要建...
数仓 DW层 用户活跃度分析主题
1. 背景
- 在大数据分析行为日志数据中,很多时候需要分析用户活跃度,这是判断业务健康程度和发展趋势的一个重要指标。
- 当用户活跃度低的时候,就需要分析原因,改善或者添加功能,让用户活跃起来。这也是为什么支付宝一直想做社交的原因,也是为什么现在开始在支付宝内做各种业务,做小程序平台的原因。
- 其实从侧面来看,运营一个app就跟运营一个商场一样,先把名气打起来,增加用户流入(新增用户,DAU等指标),然后留住用户(用户漏斗),然后想办法增加订单交易额(GMV)。如果可以,还需要建立会员机制,打卡机制,红包,分享,积分等吸引新用户留住老用户的各类活动。至于新增功能,改进流程就跟商场里面的各类商铺引入,功能分区优化一样一样的。
2. 案例
- 当需要分析用户活跃度的时候,首先需要明确用户是一天一天来的,这样数据也是一天一天的流入。需要先从这里下手。
- 如果建立一个表,能够记录用户首次访问日期,连续活跃起始日期,再记录连续活跃结束日期,这时候就可以得到初步的结果。
其实就是想办法记录下来用户的活跃开始时间,活跃结束时间。假设从今天开始,然后后续每天都记录一下,如果登录了,活跃结束日期就是9999-12-31,如果中断了,则修改前一天的结束时间,然后新增一天以当天开始,以9999-12-31的数据。
新增的这条数据,一般是单独生成,再 join进结果集合。 - 数据延申使用
最近一个月内,有过连续活跃10+天的人
最近一个月内,每个用户的平均活跃天数
最近一个月内,连续活跃1-10天的人数,10-20天的人数,20-30天的人数
最近一周内,…
最近一个月内,最大沉默天数超20天的人
3. 总结
- 在大数据 处理中,因为数据都是源源不断过来,所以就算是所谓的离线数据分析,其实一般也是以天为单位。不过这几年实时计算也越加普遍,如使用flink框架做实时流式数据处理。
- 在大数据处理思路中,需要设想数据就是不断滚动生成,这样就可以使用旧有数据,结合当天新数据,然后做各种计算如join,count,group by,开窗等等。
- 这里还涉及标记位思想,这其实是代码编程常见做法,给某数据的某状态一个标记位,用来区分数据的。
本文地址:https://blog.csdn.net/xiaohu21/article/details/109248973