数据仓库建设之元数据管理
1 元数据介绍
1、元数据是什么?
描述数据的数据
如果我们要描述清楚一个实际的数据,以某张表为例,我们需要知道表名、表别名、表的所有者、数据存储的物理位置、主键、索引、表中有哪些字段、这张表与其他表之间的关系等等。所有的这些信息加起来,就是这张表的元数据。
2、元数据管理,是数据治理的核心和基础
元数据就相当于是所有数据的一张地图。
在这张关于数据的地图中,我们可以知道:
我们有哪些数据?
数据分布在哪里?
这些数据分别是什么类型?
数据之间有什么关系?
哪些数据经常被引用?哪些数据无人光顾?
3、元数据是描述数据的数据,那么有没有描述元数据的数据?
有。描述元数据的数据叫元模型(Meta Model)。元模型、元数据、数据之间的关系.。
对于元模型的概念,我们不做深入的讨论。我们只需要知道下面这些:
元数据本身的数据结构也是需要被定义和规范的,定义和规范元数据的就是元模型,国际上元模型的标准是CWM(Common Warehouse Metamodel,公共仓库元模型),一个成熟的元数据管理工具,需要支持CWM标准。
2 元数据从哪里来
在大数据平台中,元数据贯穿大数据平台数据流动的全过程,主要包括数据源元数据、数据加工处理过程元数据、数据主题库专题库元数据、服务层元数据、应用层元数据等。下图以一个数据中心为例,展示了元数据的分布范围:
业内通常把元数据分为以下类型:
技术元数据:库表结构、字段约束、数据模型、ETL程序、SQL程序等。
业务元数据:业务指标、业务代码、业务术语等。
管理元数据:数据所有者、数据质量定责、数据安全等级等。
元数据采集是指获取数据生命周期中的元数据,对元数据进行组织,然后将元数据写入数据库中的过程。
要获取到元数据,需要采取多种方式,在采集方式上,使用包括数据库直连、接口、日志文件等技术手段,对结构化数据的数据字典、非结构化数据的元数据信息、业务指标、代码、数据加工过程等元数据信息进行自动化和手动采集。
元数据采集完成后,被组织成符合CWM模型的结构,存储在关系型数据库中。
3 有了元数据,我们能做些什么?
先看一张元数据管理的整体功能架构图,有了元数据,我们能做些什么
1.元数据查看
一般是以树形结构组织元数据,按不同类型对元数据进行浏览和检索。如我们可以浏览表的结构、字段信息、数据模型、指标信息等。通过合理的权限分配,元数据查看可以大大提升信息在组织内的共享。
2.数据血缘和影响性分析
数据血缘和影响性分析主要解决“数据之间有什么关系”的问题。因其重要价值,有的厂商会从元数据管理中单独提取出来,作为一个独立的重要功能。但是笔者考虑到数据血缘和影响性分析其实是来自于元数据信息,所以还是放在元数据管理中来描述。
血缘分析指的是取到数据的血缘关系,以历史事实的方式记录数据的来源,处理过程等。
数据血缘分析对于用户具有重要的价值,如:当在数据分析中发现问题数据的时候,可以依赖血缘关系,追根溯源,快速地定位到问题数据的来源和加工流程,减少分析的时间和难度。
3.数据冷热度分析
冷热度分析主要是对数据表的被使用情况进行统计,如:表与ETL程序、表与分析应用、表与其他表的关系情况等,从访问频次和业务需求角度出发,进行数据冷热度分析,用图表的方式,展现表的重要性指数。
数据的冷热度分析对于用户有巨大的价值,典型应用场景:我们观察到某些数据资源处于长期闲置,没有被任何应用调用,也没有别的程序去使用的状态,这时候,用户就可以参考数据的冷热度报告,结合人工分析,对冷热度不同的数据做分层存储,以更好地利用HDFS资源,或者评估是否对失去价值的这部分数据做下线处理,以节省数据存储空间。
4.数据资产地图
通过对元数据的加工,可以形成数据资产地图等应用。数据资产地图一般用于在宏观层面组织信息,以全局视角对信息进行归并、整理,展现数据量、数据变化情况、数据存储情况、整体数据质量等信息,为数据管理部门和决策者提供参考。
4 总结
元数据就相当于是数据的户口本和地图,是数据治理的核心和基础。
元数据产生于从数据生产、数据接入、数据加工、数据服务到数据应用的各个环节,整体上可以分为三类:技术元数据、业务元数据和管理元数据。
元数据采集入库后,可以产生冷热度分析、血缘关系分析、影响性分析,数据资产地图等应用。元数据管理可以让数据被描述得更加清晰,更容易被理解,被追溯,更容易评估其价值和影响力。元数据管理还可以大大促进信息在组织内外的共享。