欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

大数据平台 - 数据采集及治理

程序员文章站 2022-03-30 17:49:39
...
大数据平台 - 数据采集及治理

一.数据采集介绍
ETL基本上就是数据采集的代表,包括数据的提取(Extract)、转换(Transform)和加载(Load)。数据源是整个大数据平台的上游,数据采集是数据源与数仓之间的管道。在采集过程中针对业务场景对数据进行治理,完成数据清洗工作。

在大数据场景下,数据源复杂、多样,包括业务数据库、日志数据、图片、视频等多媒体数据等。数据采集形式也需要更加复杂,多样,包括定时、实时、增量、全量等。常见的数据采集工具也多种多样,可以满足多种业务需求。

常见的三个数据采集场景:

场景1:从支持FTP、SFTP、 HTTP等 协议的数据源获取数据
场景2:从业务数据库获取数据,数据采集录入后需支撑业务系统
场景3:数据源通过Kafka等消息队列,需要实时采集数据
数据采集系统需求:

数据源管理与状态监控
定时、实时、全量、增量等多模式的数据采集及任务监控
元数据管理、数据补采及数据归档


二.数据治理简介
将数据采集到数仓后所面临的问题:

相比传统数仓大数据时代数据更加多样、更加复杂、数据量更大
随处可见的数据不统一、难以提升的数据质量、难以完成的数据模型梳理
多种采集工具、多种存储方式使数据仓库or数据湖逐渐变成数据沼泽
数据治理需要解决的问题:

数据不可知:用户不知道有哪些数据、不知道数据和业务的关系
数据不可控:没有统一的数据标准,数据无法集成和统一
数据不可取:用户不能便捷的取到数据,或者取到的数据不可用
数据不可联:数据之间的关系没有体现出来,数据深层价值无法体现
数据治理的目标:

建立统一数据标准与数据规范,保障数据质量
制定数据管理流程,把控数据整个生命周期
形成平台化工具,提供给用户使用
数据治理:

数据治理包括元数据管理、数据质量管理、数据血缘管理等
数据治理在数据采集、数据清洗、数据计算等各个环节
数据治理难得不是技术,而是流程、协同和管理
元数据管理:

管理数据的库表结构等schema信息
数据存储空间、读写记录、权限归属及其他各类统计信息
数据血缘管理:

数据之间的血缘关系及生命周期
B表的数据从A表汇总而来,那么B和A表就具有血缘关系
数据的业务属性信息和业务数据模型
数据治理步骤简述:

统一数据规范和数据定义,打通业务模型和技术模型
提升数据质量,实现数据全生命周期管理
挖掘数据价值,帮助业务人员便捷灵活的使用数据
数据治理与周边系统:

ODS、DWD、DM等各层次元数据纳入数据治理平台集中管理
数据采集及处理流程中产生的元数据纳入数据治理平台,并建立血缘关系
提供数据管理的服务接口,数据模型变更及时通知上下游

作者:端碗吹水
链接:https://www.jianshu.com/p/84a9accee9e2
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。