数据仓库的概念
1. 数据仓库
数据仓库一词尚没有一个统一的定义,著名的数据仓库专家w. h. inmon 在其著作《buildingthe data warehouse》一书中给予如下描述:数据仓库(data warehouse) 是一个面向主题的(subject oriented) 、集成的( integrate ) 、相对稳定的(non -volatile ) 、反映历史变化( timevariant) 的数据集合用于支持管理决策。
数据仓库是信息的*存储库。通常,数据定期从事务系统、关系数据库和其他来源流入数据仓库。业务分析师、数据科学家和决策者通过商业智能 (bi) 工具、sql 客户端和其他分析应用程序或者工具访问数据。
对于数据仓库的概念我们可以从两个层次予以理解。首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
2、数据集市
为最大限度地实现灵活性,集成的数据仓库的数据应该存储在标准rdbms 中,并经过规范的数据库设计,以及为了提高性能而增加一些小结性信息和不规范设计。这种类型的数据仓库设计被称为原子数据仓库。原子数据仓库的子集,又称为数据集市。
3、维度表 & 事实表
维度表包含对分析主题所属类型的描述,如商业、组织或企业。维度表的列通常包含文本类型的描述信息,也可能是数值型的描述信息(如产品重量、顾客收入水平等);事实表包含对分析主题的度量,同时包含与维度表关联的外码。 维度表和事实表是维度建模所包含的表,维度建模除了使用常规的关系概念(主码、外码、完整性约束等)外,维度建模同时包含了维度表和事实表两种类型的表
5、元数据
元数据(meta data)是关于数据的数据,当人们描述现实世界的现象时,就会产生抽象信息,这些抽象信息便可以看作是元数据,元数据主要用来描述数据的上下文信息。通俗的来讲,假若图书馆的每本书中的内容是数据的话,那么找到每本书的索引则是元数据,元数据之所以有其它方法无法比拟的优势,就在于它可以帮助人们更好的理解数据,发现和描述数据的来龙去脉,特别是那些即将要从oltp系统上升到dw/bi体系建设的企业,元数据可以帮他们形成清晰直观的数据流图,元数据是数据管控的基本手段。按其描述对象的不同可以划分为三类元数据:技术元数据、业务元数据和管理元数据。这三种元数据的具体描述如下:
1) 技术元数据 ** 技术元数据是描述数据系统中技术领域相关概念、关系和规则的数据,主要包括对数据结构、数据处理方面的特征描述,覆盖数据源接口、数据仓库与数据集市存储、etl、olap、数据封装和前端展现等全部数据处理环节;
2)业务元数据 ** 业务元数据是描述数据系统中业务领域相关概念、关系和规则的数据,主要包括业务术语、信息分类、指标定义和业务规则等信息;
3)管理元数据 ** 管理元数据是描述数据系统中管理领域相关概念、关系和规则的数据,主要包括人员角色、岗位职责和管理流程等信息。
6、 数据仓库与数据库的对比
数据仓库是专门为数据分析设计的,涉及读取大量数据以了解数据之间的关系和趋势。数据库用于捕获和存储数据,例如记录事务的详细信息。
7、 数据仓库与数据湖的对比
与数据仓库不同,数据湖是所有数据(包括结构化和非结构化数据)的*存储库。数据仓库利用针对分析进行了优化的预定义 schema。数据湖中未定义 schema,支持其他类型的分析,例如大数据分析、全文搜索、实时分析和机器学习。
8、 数据仓库与数据集市的对比
数据集市是一种数据仓库,用于满足特定团队或业务部门(例如财务、营销或销售)的需求。它更小、更集中,并且可能包含最适合其用户社区的数据汇总。