数仓构建步骤总结
程序员文章站
2022-06-19 10:14:33
数仓的构建步骤1.需求分析,确立主题2.技术选型、架构3.建模(逻辑模型,转换成物理模型,模型优化)– 维度模型–星型模式–雪花模式– 范式模型4.ETL过程 – dwd5.数据分析 – dwsETL过程– E:抽取方式、抽取类型– T:数据清洗规则、数据转换规则数据清洗-- 10大方面-- 数据的集成-- 1、预处理:-- 2、标准化处理:id对应不上。。。。淘宝1laochenxxxx支付宝2laochenxxxx天猫3laochen...
数仓的构建步骤
1.需求分析,确立主题
2.技术选型、架构
3.建模(逻辑模型,转换成物理模型,模型优化)
– 维度模型
–星型模式
–雪花模式
– 范式模型
4.ETL过程 – dwd
5.数据分析 – dws
ETL过程
– E:抽取方式、抽取类型
– T:数据清洗规则、数据转换规则
数据清洗
-- 10大方面
-- 数据的集成
-- 1、预处理:
-- 2、标准化处理:id对应不上
。。。。
淘宝
1 laochen xxxx
支付宝
2 laochen xxxx
天猫
3 laochen xxxx
-- 标准化对照表
id name tbid zfbid tmId
0001 laochen 1 2 3
淘宝 standardid
1 laochen xxxx 0001
支付宝
2 laochen xxxx 0001
天猫
3 laochen xxxx 0001
---
standardid
-- 3、去重处理
-- 分2种类型
-- 全部字段:distinct group by、row_number
-- 核心字段:row_number
-- 处理结果需要保留哪条数据
-- 4、错误值处理:逻辑错误、主外键不一致、全角半角、数据移位、。。。。
-- 5、缺失值处理:
-- 重新收集
-- 分数据的重要程度
-- 平均法、中位数
-- 取行业标准
-- 取最常用的值
-- 空值替换
-- 6、格式内容的处理
-- 时间、日期、数值、全半角格式不一致
-- 内容中不应该存在的内容
-- 内容与改字段应有的内容不一致
-- 7、逻辑错误处理
-- 年龄超过200、月份13月日期2月30,按照缺失值处理
-- 8、修正矛盾数据 -- 确定那个字段是正确的 --
-- 9、非需求数据清洗
-- 10、关联性验证
– L:加载
– 预装载
– 初始装载
– 定期装载
– ods–dwd –
– dwd-dws
– dwd/dws-dm
开发流程
– ods–dwd –
– dwd-dws
– dwd/dws-dm
数据分层
本文地址:https://blog.csdn.net/qq_40700727/article/details/108874959