欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  数据库

myfirstBI项目总结

程序员文章站 2022-05-19 09:13:22
...

app 应用信息统计: saiku安装:http://blog.csdn.net/longshenlmj/article/details/17359645 workbench解压即用,http://blog.csdn.net/longshenlmj/article/details/17530379 流程: 1,从hive上导入每天的app应用信息,来自各个网站,基本字段根据经验。 2

app 应用信息统计:

saiku安装:http://blog.csdn.net/longshenlmj/article/details/17359645

workbench解压即用,http://blog.csdn.net/longshenlmj/article/details/17530379

流程:

1,从hive上导入每天的app应用信息,来自各个网站,基本字段根据经验。

2,用kettle清洗设计,导入mysql

3,workbench连接好sql,设计XXX.xml的cube文件。

4,将cube文件通过saiku呈现。相关配置使用的细节,见上面的文件saiku安装。

worbench的纬度:从一个角度(另一个表的某个属性)看事实表中的数据统计信息(事实表ft要有对应的字段)

一个纬度表,通过自身的某个键,和事实表的某个键关联。dimension的foreign key和level中column的设定。注意level中的显示列为空,则默认用上面的比较列,设置要显示的列内容,比如显示年份,用date_value进行比较,满足了,在显示同一行上的另一个列的内容。

saiku数据呈现:同一个dim下的level不能分开到row和column上,只能同时在一个上。

dim上是的个数,行列都是dim,事实表中同时满足两个维度条件的元组个数。

measure是统计量,用于统计一列上的个数。比如downloads。统计的是事实表上的一列的值。另一方向放维度就表示,按不同维度值分别进行统计。多个维度,则多个满足条件下的统计。

注意,measure行列都可以放,想横着看,还是竖着看,就放到对应位置就行了。统计过程和统计结果不会发生改变(都是统计事实表中的一列)。measure和dim可以放到一起

另外,在右边的尾部加图功能,所以按日期看增长量。(这个图,放到每天的下载量时候,按区间做一个统计,下载量是否符合正态分布,如果下载量在高处居高不下,说明作弊的可能性很大)

小测试,时间维度用dataval(维度表的column设置项),与事实表的date_value(cube的foreign key)关联,可以统计每天的信息。

level的type选regular,其它类型time_XXX还在测试中?