欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  科技

hive初入门

程序员文章站 2022-04-12 21:39:34
总结: 1.几个重要的关键词: 数据仓库,数据库,OLAP,OLTP,TCL 2.hive是什么 一个基于Hadoop的分布式环境的数据仓库。 作用:用于OLAP,针对不同的主题,进...

总结:

1.几个重要的关键词:

数据仓库,数据库,OLAP,OLTP,TCL

2.hive是什么

一个基于Hadoop的分布式环境的数据仓库。

作用:用于OLAP,针对不同的主题,进行数据的分析和操作。

参考文档:http://blog.csdn.net/qq_36801710/article/details/79319187

3.hive的存储机制

4.hive的执行机制

用户编写HQL语句,在hive的解释器,编译器,优化器,生成执行计划,交给jobtracker,在Hadoop的环境中执行。

5.hive的安装

针对不同的存储元数据的位置,分为三种:

嵌入模式:使用derby

本地模式:使用本地的MySQL

远程模式:使用远程的MySQL

后俩种:添加MySQL的连接驱动jar到/hive/lib中,在hive-size.xml中配置数据源信息。

6.hive的启动

三种:

命令行模式:

启动:hive

清屏:Ctrl+L 或者 !clear

查看数据仓库中的表:show tables;

查看数据仓库中内置的函数:show functions;

查看表结构:desc 表名

查看HDFS上的文件: dfs -ls 目录

执行操作系统的命令: !命令

执行HQL语句: select *** from ****

执行SQL的脚本:source SQL文件

进行hive的静默模式(不打印调试信息,只打印结果):hive -S

web模式:

端口号:999

启动方式:#hive —service hwi?

通过浏览器访问:http://:9999/hwi地址>

若报错没有war包,则需要下载源码并打包war包,目录是:/src/hive/hwi/web,并修改hive-site.xml文件再启动。同时需要复制jdk的lib目录下的tools.jar 到hive的lib目录。

jar -cvfM0 地址

远程访问模式:

jdbc:类似于Java连接其他数据库,添加jar,记载驱动,建立连接,执行,释放。。都一样。

还有另外一种方式:通过socket进行连接。

6.hive的表的分类

7.hive的数据类型

8.hive的数据的导入

9.hql语句,和sql语句几乎一样。

10.hive的函数,这个也和其他关系型数据库基本一样。

11.自定义函数。

写一个类,继承org.apache.hadoop.hive.ql.exec.UDF,重写方法evaluate();

上传jar到服务器。

创建temporary function函数,关联jar.

就可以使用了。