欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

元数据概念

程序员文章站 2022-06-12 16:12:25
...


元数据概念

2016-11-17 刘耀铭 大数据和云计算技术

刘耀铭同学元数据系列作品的第一篇,大家支持!

其他有兴趣的同学也可以联系我一起学习,进步!具体内容参考:

怎么快速提高技术?

 

其他元数据相关系列文章:

基于元数据驱动的ETL

Hive 元数据表结构详解

 

1、  元数据是描述其他数据的数据(data about other data,用于提供某种资源有关信息的结构化数据(structed data)。字面上看无法看出所以然,但其实看对应的英文含义就明确了,Meta指“对······的描述”类似Meta tag,所以元数据就是对数据的解释和描述。

2、  这里主要将数据仓库的元数据分为3类:DBMS数据字典、ETL处理流程产生的日志、BI建模等。

DBMS数据字典

  数据库管理系统(DBMS)中的元数据一般在所有的数据仓库都会包含,因为数据仓库一般都是基于数据库搭建的,而数据库本身的管理系统就会自动维护一套数据字典供用户查询。这些信息一般包括:

  • 数据库的关系模型,包含的对象及对象的描述;

  • 数据库的表结构、字段信息及描述;

  • 表和字段中的主外键、索引、约束等信息;

  • 各对象的存储位置和操作权限等。

ETL处理日志

ETL是数据仓库管理和维护的基础,就像是数据仓库的血液维系着整个数据的新陈代谢。我们需要时刻关注血液的循环是否正常,它是保证数据完整性、一致性、准确性和及时性的重要参考依据,所以我们需要记录ETL任务的处理日志。任务信息、调用的程序或脚本、前置任务;

  • 数据来源、加载目标、转化规则或计算公式;

  • 数据的刷新类型、刷新频率,任务调度信息;

  • 每次运行的起始时间、结束时间、操作记录数、任务状态及出错信息。

  记录ETL信息的方式有很多:一类是ETL基本信息与调度信息,另一类是ETL的每次运行日志。以文档或建数据库表的形式记录;

BI分析模型

  这里的BI分析模型主要有两类,一类是数据仓库常见的多维模型,另一类是根据具体业务构建的商业分析模型。大概有一下几类信息:

  • 分析模型的设计和结构;

  • 模型的分析应用和商业价值;

  • 模型中指标的定义、计算方法;

  • 模型的展现和效果;

 

3、  元数据使用的目的:识别资源,评价资源,追踪资源在使用中的变化,实现简单高效地管理大量网络化数据,实现数据资源化的有效发现,查找,一体化组织对使用资源的有效管理。

 



个人新作《大数据架构详解:从数据获取到深度学习》一书,已由电子工业出版社出版,京东,淘宝,当当,亚马逊全网开售,有兴趣的同学直接上京东,淘宝,当当,亚马逊 搜索书名详细了解:

为什么写《大数据架构详解》这本书

《大数据架构详解》答疑(一)

元数据概念
            
    
    博客分类: hadoop技术专栏  

 
 
元数据概念
            
    
    博客分类: hadoop技术专栏  

微信扫一扫
关注该公众号