使用 Hive 构建数据仓库

程序员文章站 2024-01-14 18:06:22

...

数据仓库构建一个真正的数据仓库可能是一个庞大的工程。有许多不同的设备、方法和理论。最大的共同价值是什么？事实是什么，哪些主题与这些事实相关？以及您如何混合、匹配、合并和集成可能已存在数十年的系统与仅在几个月前实现的系统？这还是在大数据和 H

数据仓库

构建一个真正的数据仓库可能是一个庞大的工程。有许多不同的设备、方法和理论。最大的共同价值是什么？事实是什么，服务器空间，哪些主题与这些事实相关？以及您如何混合、匹配、合并和集成可能已存在数十年的系统与仅在几个月前实现的系统？这还是在大数据和 Hadoop 之前。将非结构化、数据、NoSQL 和 Hadoop 添加到组合中，您很快就会得到一个庞大的数据集成项目。

描述一个数据仓库的最简单方式是，认识到可以将它归结为星形模式、事实和维度。您如何创建这些元素，网站空间，决定权在您手上 — 通过暂存数据库；动态提取、转换、加载流程；或者集成辅助索引。当然，您可以构建一个包含星形模式、事实和维度的数据仓库，使用 Hive 作为核心技术，但这并不容易。在 Hadoop 世界外部，这会成为一个更大的挑战。与其说 Hive 是一种合法的数据仓库，倒不如说它是一个集成、转换、快速查找工具。该模式可能像是数据仓库，香港服务器，但适用性表明它不是 RDBMS。那么为什么使用它？

星形模式是什么

想象一颗星星 — 具有一个中心和多个指向不同方向的 “手臂”。中心是动力之源或事实表。所有手臂都指向不同维度。许多数据仓库有一个事实表和多个维度。

事实表包含您可以加权或计算的任何数据。在此示例中，您拥有棒球统计数据，比如跑垒、全垒打、击球率等。您可以计算、增加、减去或乘以这些列。

维度更加以主题为基础。在此示例中，您有运动员信息维度、时间和日期维度，等等。通常没有计算或加权多个维度中的列。

在此示例中，将一个维度表与一个事实表连接的键是 playerID。

相关标签：使用 Hive 构建数据仓库

上一篇：占尽优势的喵鲜生为何难成阿里突围生鲜的利器？

下一篇： String类型存到mysql类型为text的字段中怎么出现了乱码？

使用 Hive 构建数据仓库

springboot~使用docker构建gradle项目

Jenkins使用docker构建

hive--数据仓库

如何使用Vue-cli webpack移动端自动化构建rem

使用 HTML5 WebSocket 构建实时 Web 应用

Hadoop 归档和HIVE 如何使用har 归档文件

hive笔记：转义字符的使用

使用roolup构建你的lib(实现步骤)