欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

电商数仓——项目需求及架构设计

程序员文章站 2022-12-19 13:54:49
目录项目需求项目框架技术选型系统数据流程设计框架版本选型服务器选型集群资源规划设计项目需求一、项目需求➢1、 数据**采集平台搭建**➢2、 实现**用户行为数据仓库的分层搭建➢3、 实现业务数据仓库的分层搭建➢4、针对数据仓库中的数据进行,留存、转化率、GMV、复购率、活跃等报表分析**二、思考题➢1、 项目技术如何选型 ?➢2、框架版本如何选型( Apache、 CDH、HDP)➢3、 服务器使用**物理机还是云主机?➢4、 如何确认集群规模**? (假设每台服务器8T硬盘)项目...

项目需求

一、项目需求
➢1、 数据**采集平台搭建**
➢2、 实现**用户行为数据仓库分层搭建
➢3、 实现
业务数据仓库的分层搭建
➢4、针对数据仓库中的数据进行,
留存、转化率、GMV、复购率、活跃等报表分析**
二、思考题
➢1、 项目技术如何选型 ?
➢2、框架版本如何选型( Apache、 CDH、HDP)
➢3、 服务器使用**物理机还是云主机?
➢4、 如何确认
集群规模**? (假设每台服务器8T硬盘)

项目框架

技术选型

➢数据采集传输: Flume, Kafka, Sqoop ,Logstash, DataX
➢数据存储: MySql,HDFS, HBase, Redis, MongoDB
➢数据计算: Hive, Tez,Spark, Flink, Storm
➢数据查询: Presto, Druid, Impala, Kylin
➢数据可视化: Echarts、 Superset、 QuickBI、 DataV
➢任务调度: Azkaban、 Oozie
➢集群监控: Zabbix
➢元数据管理: Atlas
➢数据质量监控: Griffin

系统数据流程设计

电商数仓——项目需求及架构设计

框架版本选型

1)如何选择Apache/CDH/HDP版本?
(1) Apache: 运维麻烦,组件间兼容性需要自己调研。(一般大厂使用,技术实力雄厚,有专业的运维人员)
(2) CDH:国内使用最多的版本,但CM不开源,但其实**对中、小公司使用来说没有影响(建议使用)**
(3) HDP: 开源,可以进行二次开发,但是**没有CDH稳定,国内使用较少**
电商数仓——项目需求及架构设计

服务器选型

服务器选择物理机还是云主机?
(1)机器成本考虑:
物理机:以128G内存, 20核物理CPU,40线程,8THDD和2TSSD硬盘,戴尔
品牌单台报价4W出头,需考虑托管服务器费用。一般物理机寿命5年左右
云主机,以阿里云为例,差不多相同配置,每年5W
(2)运维成本考虑:
物理机:需要有**专业的运维人员**
云主机:很多运维工作都**由阿里云完成**,运维相对较轻松

集群资源规划设计

如何确认集群规模? (假设: 每台服务器8T磁盘,128G内存)
(1)每天日活跃用户100万,每人一天平均100条: 100万*100条=10000万条
(2)每条日志1K左右,每天1亿条: 100000001 10241 1024 =约100G .
(3)半年内不扩容服务器来算: 100G*180天=约18T
(4)保存3副本: 18T*3=54T
(5)预留20%- 30%Buf= 54T/0.7=77T
(6) 算到这:约8T*10台服务器
测试集群服务器规划
电商数仓——项目需求及架构设计
电商数仓——项目需求及架构设计

本文地址:https://blog.csdn.net/qq_46548855/article/details/107433761