刘耀铭同学元数据系列作品的第一篇,大家支持!
其他有兴趣的同学也可以联系我一起学习,进步!具体内容参考:
怎么快速提高技术?
其他元数据相关系列文章:
基于元数据驱动的ETL
Hive 元数据表结构详解
1、 元数据是描述其他数据的数据(data about other data),用于提供某种资源有关信息的结构化数据(structed data)。字面上看无法看出所以然,但其实看对应的英文含义就明确了,Meta指“对······的描述”类似Meta tag,所以元数据就是对数据的解释和描述。
2、 这里主要将数据仓库的元数据分为3类:DBMS数据字典、ETL处理流程产生的日志、BI建模等。
DBMS数据字典
数据库管理系统(DBMS)中的元数据一般在所有的数据仓库都会包含,因为数据仓库一般都是基于数据库搭建的,而数据库本身的管理系统就会自动维护一套数据字典供用户查询。这些信息一般包括:
-
数据库的关系模型,包含的对象及对象的描述;
-
数据库的表结构、字段信息及描述;
-
表和字段中的主外键、索引、约束等信息;
-
各对象的存储位置和操作权限等。
ETL处理日志
ETL是数据仓库管理和维护的基础,就像是数据仓库的血液维系着整个数据的新陈代谢。我们需要时刻关注血液的循环是否正常,它是保证数据完整性、一致性、准确性和及时性的重要参考依据,所以我们需要记录ETL任务的处理日志。任务信息、调用的程序或脚本、前置任务;
记录ETL信息的方式有很多:一类是ETL基本信息与调度信息,另一类是ETL的每次运行日志。以文档或建数据库表的形式记录;
BI分析模型
这里的BI分析模型主要有两类,一类是数据仓库常见的多维模型,另一类是根据具体业务构建的商业分析模型。大概有一下几类信息:
-
分析模型的设计和结构;
-
模型的分析应用和商业价值;
-
模型中指标的定义、计算方法;
-
模型的展现和效果;
3、 元数据使用的目的:识别资源,评价资源,追踪资源在使用中的变化,实现简单高效地管理大量网络化数据,实现数据资源化的有效发现,查找,一体化组织对使用资源的有效管理。
个人新作《大数据架构详解:从数据获取到深度学习》一书,已由电子工业出版社出版,京东,淘宝,当当,亚马逊全网开售,有兴趣的同学直接上京东,淘宝,当当,亚马逊 搜索书名,详细了解:
为什么写《大数据架构详解》这本书
《大数据架构详解》答疑(一)