欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

数据仓库的概念

程序员文章站 2022-05-29 10:08:37
1. 数据仓库 数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W. H. Inmon 在其著作《Buildingthe Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse) 是一个面向主题的(Subject Oriented) 、集成的( Integrat ......

1. 数据仓库

数据仓库一词尚没有一个统一的定义,著名的数据仓库专家w. h. inmon 在其著作《buildingthe data warehouse》一书中给予如下描述:数据仓库(data warehouse) 是一个面向主题的(subject oriented) 、集成的( integrate ) 、相对稳定的(non -volatile ) 、反映历史变化( timevariant) 的数据集合用于支持管理决策。

数据仓库是信息的*存储库。通常,数据定期从事务系统、关系数据库和其他来源流入数据仓库。业务分析师、数据科学家和决策者通过商业智能 (bi) 工具、sql 客户端和其他分析应用程序或者工具访问数据。

对于数据仓库的概念我们可以从两个层次予以理解。首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

 

2、数据集市

为最大限度地实现灵活性,集成的数据仓库的数据应该存储在标准rdbms 中,并经过规范的数据库设计,以及为了提高性能而增加一些小结性信息和不规范设计。这种类型的数据仓库设计被称为原子数据仓库。原子数据仓库的子集,又称为数据集市

 

3、维度表 & 事实表

维度表包含对分析主题所属类型的描述,如商业、组织或企业。维度表的列通常包含文本类型的描述信息,也可能是数值型的描述信息(如产品重量、顾客收入水平等);事实表包含对分析主题的度量,同时包含与维度表关联的外码。 维度表和事实表是维度建模所包含的表,维度建模除了使用常规的关系概念(主码、外码、完整性约束等)外,维度建模同时包含了维度表和事实表两种类型的表

 

5、元数据

元数据(meta data)是关于数据的数据,当人们描述现实世界的现象时,就会产生抽象信息,这些抽象信息便可以看作是元数据,元数据主要用来描述数据的上下文信息。通俗的来讲,假若图书馆的每本书中的内容是数据的话,那么找到每本书的索引则是元数据,元数据之所以有其它方法无法比拟的优势,就在于它可以帮助人们更好的理解数据,发现和描述数据的来龙去脉,特别是那些即将要从oltp系统上升到dw/bi体系建设的企业,元数据可以帮他们形成清晰直观的数据流图,元数据是数据管控的基本手段。按其描述对象的不同可以划分为三类元数据:技术元数据、业务元数据和管理元数据。这三种元数据的具体描述如下:

1) 技术元数据 ** 技术元数据是描述数据系统中技术领域相关概念、关系和规则的数据,主要包括对数据结构、数据处理方面的特征描述,覆盖数据源接口、数据仓库与数据集市存储、etl、olap、数据封装和前端展现等全部数据处理环节;

2)业务元数据 ** 业务元数据是描述数据系统中业务领域相关概念、关系和规则的数据,主要包括业务术语、信息分类、指标定义和业务规则等信息;

3)管理元数据 ** 管理元数据是描述数据系统中管理领域相关概念、关系和规则的数据,主要包括人员角色、岗位职责和管理流程等信息。

 

6、 数据仓库与数据库的对比

数据仓库是专门为数据分析设计的,涉及读取大量数据以了解数据之间的关系和趋势。数据库用于捕获和存储数据,例如记录事务的详细信息。

数据仓库的概念

 

7、 数据仓库与数据湖的对比

与数据仓库不同,数据湖是所有数据(包括结构化和非结构化数据)的*存储库。数据仓库利用针对分析进行了优化的预定义 schema。数据湖中未定义 schema,支持其他类型的分析,例如大数据分析、全文搜索、实时分析和机器学习。

数据仓库的概念

 

8、 数据仓库与数据集市的对比

数据集市是一种数据仓库,用于满足特定团队或业务部门(例如财务、营销或销售)的需求。它更小、更集中,并且可能包含最适合其用户社区的数据汇总。

数据仓库的概念