电商数仓——项目需求及架构设计
项目需求
一、项目需求
➢1、 数据**采集平台搭建
**
➢2、 实现**用户行为数据仓库
的分层
搭建
➢3、 实现业务数据仓库
的分层搭建
➢4、针对数据仓库中的数据进行,留存、转化率、GMV、复购率、活跃等报表分析
**
二、思考题
➢1、 项目技术如何选型 ?
➢2、框架版本如何选型( Apache、 CDH
、HDP)
➢3、 服务器使用**物理机
还是云主机
?
➢4、 如何确认集群规模
**? (假设每台服务器8T硬盘)
项目框架
技术选型
➢数据采集传输: Flume, Kafka, Sqoop
,Logstash, DataX
➢数据存储: MySql,HDFS
, HBase, Redis, MongoDB
➢数据计算: Hive, Tez,Spark
, Flink, Storm
➢数据查询: Presto, Druid
, Impala, Kylin
➢数据可视化: Echarts、 Superset、 QuickBI、 DataV
➢任务调度: Azkaban
、 Oozie
➢集群监控: Zabbix
➢元数据管理: Atlas
➢数据质量监控: Griffin
系统数据流程设计
框架版本选型
1)如何选择Apache/CDH/HDP版本?
(1) Apache: 运维麻烦,组件间兼容性需要自己调研
。(一般大厂使用,技术实力雄厚,有专业的运维人员)
(2) CDH:国内使用最多的版本,但CM不开源,但其实**对中、小公司使用来说没有影响(建议使用)
**
(3) HDP: 开源,可以进行二次开发,但是**没有CDH稳定,国内使用较少
**
服务器选型
服务器选择物理机还是云主机?
(1)机器成本考虑:物理机
:以128G内存, 20核物理CPU,40线程,8THDD和2TSSD硬盘,戴尔
品牌单台报价4W出头,需考虑托管服务器费用。一般物理机寿命5年左右
云主机
,以阿里云为例,差不多相同配置,每年5W
(2)运维成本考虑:物理机
:需要有**专业的运维人员
**云主机
:很多运维工作都**由阿里云完成
**,运维相对较轻松
集群资源规划设计
如何确认集群规模? (假设: 每台服务器8T磁盘,128G内存)
(1)每天日活跃用户100万,每人一天平均100条: 100万*100条=10000万条
(2)每条日志1K左右,每天1亿条: 100000001 10241 1024 =约100G .
(3)半年内不扩容服务器来算: 100G*180天=约18T
(4)保存3副本: 18T*3=54T
(5)预留20%- 30%Buf= 54T/0.7=77T
(6) 算到这:约8T*10台服务器
测试集群服务器规划
本文地址:https://blog.csdn.net/qq_46548855/article/details/107433761
上一篇: 笨办法学数据结构 java实现希尔排序