大数据平台 - 数据采集及治理
程序员文章站
2022-03-30 17:49:39
...
大数据平台 - 数据采集及治理
一.数据采集介绍
ETL基本上就是数据采集的代表,包括数据的提取(Extract)、转换(Transform)和加载(Load)。数据源是整个大数据平台的上游,数据采集是数据源与数仓之间的管道。在采集过程中针对业务场景对数据进行治理,完成数据清洗工作。
在大数据场景下,数据源复杂、多样,包括业务数据库、日志数据、图片、视频等多媒体数据等。数据采集形式也需要更加复杂,多样,包括定时、实时、增量、全量等。常见的数据采集工具也多种多样,可以满足多种业务需求。
常见的三个数据采集场景:
场景1:从支持FTP、SFTP、 HTTP等 协议的数据源获取数据
场景2:从业务数据库获取数据,数据采集录入后需支撑业务系统
场景3:数据源通过Kafka等消息队列,需要实时采集数据
数据采集系统需求:
数据源管理与状态监控
定时、实时、全量、增量等多模式的数据采集及任务监控
元数据管理、数据补采及数据归档
二.数据治理简介
将数据采集到数仓后所面临的问题:
相比传统数仓大数据时代数据更加多样、更加复杂、数据量更大
随处可见的数据不统一、难以提升的数据质量、难以完成的数据模型梳理
多种采集工具、多种存储方式使数据仓库or数据湖逐渐变成数据沼泽
数据治理需要解决的问题:
数据不可知:用户不知道有哪些数据、不知道数据和业务的关系
数据不可控:没有统一的数据标准,数据无法集成和统一
数据不可取:用户不能便捷的取到数据,或者取到的数据不可用
数据不可联:数据之间的关系没有体现出来,数据深层价值无法体现
数据治理的目标:
建立统一数据标准与数据规范,保障数据质量
制定数据管理流程,把控数据整个生命周期
形成平台化工具,提供给用户使用
数据治理:
数据治理包括元数据管理、数据质量管理、数据血缘管理等
数据治理在数据采集、数据清洗、数据计算等各个环节
数据治理难得不是技术,而是流程、协同和管理
元数据管理:
管理数据的库表结构等schema信息
数据存储空间、读写记录、权限归属及其他各类统计信息
数据血缘管理:
数据之间的血缘关系及生命周期
B表的数据从A表汇总而来,那么B和A表就具有血缘关系
数据的业务属性信息和业务数据模型
数据治理步骤简述:
统一数据规范和数据定义,打通业务模型和技术模型
提升数据质量,实现数据全生命周期管理
挖掘数据价值,帮助业务人员便捷灵活的使用数据
数据治理与周边系统:
ODS、DWD、DM等各层次元数据纳入数据治理平台集中管理
数据采集及处理流程中产生的元数据纳入数据治理平台,并建立血缘关系
提供数据管理的服务接口,数据模型变更及时通知上下游
作者:端碗吹水
链接:https://www.jianshu.com/p/84a9accee9e2
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
一.数据采集介绍
ETL基本上就是数据采集的代表,包括数据的提取(Extract)、转换(Transform)和加载(Load)。数据源是整个大数据平台的上游,数据采集是数据源与数仓之间的管道。在采集过程中针对业务场景对数据进行治理,完成数据清洗工作。
在大数据场景下,数据源复杂、多样,包括业务数据库、日志数据、图片、视频等多媒体数据等。数据采集形式也需要更加复杂,多样,包括定时、实时、增量、全量等。常见的数据采集工具也多种多样,可以满足多种业务需求。
常见的三个数据采集场景:
场景1:从支持FTP、SFTP、 HTTP等 协议的数据源获取数据
场景2:从业务数据库获取数据,数据采集录入后需支撑业务系统
场景3:数据源通过Kafka等消息队列,需要实时采集数据
数据采集系统需求:
数据源管理与状态监控
定时、实时、全量、增量等多模式的数据采集及任务监控
元数据管理、数据补采及数据归档
二.数据治理简介
将数据采集到数仓后所面临的问题:
相比传统数仓大数据时代数据更加多样、更加复杂、数据量更大
随处可见的数据不统一、难以提升的数据质量、难以完成的数据模型梳理
多种采集工具、多种存储方式使数据仓库or数据湖逐渐变成数据沼泽
数据治理需要解决的问题:
数据不可知:用户不知道有哪些数据、不知道数据和业务的关系
数据不可控:没有统一的数据标准,数据无法集成和统一
数据不可取:用户不能便捷的取到数据,或者取到的数据不可用
数据不可联:数据之间的关系没有体现出来,数据深层价值无法体现
数据治理的目标:
建立统一数据标准与数据规范,保障数据质量
制定数据管理流程,把控数据整个生命周期
形成平台化工具,提供给用户使用
数据治理:
数据治理包括元数据管理、数据质量管理、数据血缘管理等
数据治理在数据采集、数据清洗、数据计算等各个环节
数据治理难得不是技术,而是流程、协同和管理
元数据管理:
管理数据的库表结构等schema信息
数据存储空间、读写记录、权限归属及其他各类统计信息
数据血缘管理:
数据之间的血缘关系及生命周期
B表的数据从A表汇总而来,那么B和A表就具有血缘关系
数据的业务属性信息和业务数据模型
数据治理步骤简述:
统一数据规范和数据定义,打通业务模型和技术模型
提升数据质量,实现数据全生命周期管理
挖掘数据价值,帮助业务人员便捷灵活的使用数据
数据治理与周边系统:
ODS、DWD、DM等各层次元数据纳入数据治理平台集中管理
数据采集及处理流程中产生的元数据纳入数据治理平台,并建立血缘关系
提供数据管理的服务接口,数据模型变更及时通知上下游
作者:端碗吹水
链接:https://www.jianshu.com/p/84a9accee9e2
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
推荐阅读
-
网站流量数据采集环境部署及实现
-
干货丨大数据是如何被采集及应用的
-
星环科技与江苏农信达成合作 助力大数据平台及应用建设
-
.NET Core开发的iNeuOS工业互联网平台,发布 iNeuDA 数据分析展示组件,快捷开发图形报表和数据大屏
-
.NET Core开发的iNeuOS工业互联平台,升级四大特性:配置数据接口、图元绑定数据、预警配置和自定义菜单
-
大淘宝平台数据查询(大淘客短视频带货平台介绍)
-
模拟HTTP请求实现网页自动操作及数据采集的方法
-
node.js平台下的mysql数据库配置及连接
-
大淘宝平台数据查询(大淘客短视频带货平台介绍)
-
性能测试 基于Python结合InfluxDB及Grafana图表实时采集Linux多主机性能数据