三分钟让你了解什么是Hive

程序员文章站 2022-09-28 16:37:49

Hive是一个基于hadoop的数据仓库平台。通过hive，我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言：HQL，能够将用户编写的QL转化为相应的Mapreduce...

Hive是一个基于hadoop的数据仓库平台。通过hive，我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言：HQL，能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。

Hive是Facebook 2008年8月刚开源的一个数据仓库框架，其系统目标与pig有相似之处，但它有一些Pig目前还不支持的机制，比如：更丰富的类型系统、更类似SQL的查询语言、Table/Partition元数据的持久化等。

Hive可以看成是从SQL到Map-Reduce的映射器

hive的组件和体系架构：

hive web接口启动：./hive --service hwi

浏览器访问：http://localhost:9999/hwi/

默认情况下，Hive元数据保存在内嵌的 Derby 数据库中，只能允许一个会话连接，只适合简单的测试。为了支持多用户多会话，则需要一个独立的元数据库，我们使用 MySQL 作为元数据库，Hive 内部对 MySQL 提供了很好的支持。

Hive安装

内嵌模式：元数据保持在内嵌的Derby模式，只允许一个会话连接

本地独立模式：在本地安装Mysql，把元数据放到Mysql内

远程模式：元数据放置在远程的Mysql数据库。

Hive的数据放在哪儿？

数据在HDFS的warehouse目录下，一个表对应一个子目录。

本地的/tmp目录存放日志和执行计划

hive的表分为两种，内表和外表。
Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。
在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。

使用Mysql作为Hive metaStore的存储数据库

其中主要涉及到的表如下：

上一篇：学习Spark基础你必须了解的RDD编程

下一篇： Gnocchi、Aodh提供哪些功能服务？

三分钟让你了解什么是Hive

简单几点让你快速了解python是什么

shtml精简教程让你知道什么是shtml

一篇文章让你了解什么是内容营销

简单几点让你快速了解python是什么

什么是姜茶，你对姜茶有多少了解

虾油是什么，是一种魔法，让你的食物变得更加美味好吃的魔法食物！

北方立秋吃什么传统食物，让你了解北方的饮食文化

网站是靠什么途径赚钱的？怎么让你的网站赚钱？

了解淮山跟山药有什么区别，让你选对食材

湿气重吃什么好，了解一下，简直是你的人生财富