hive初入门
总结:
1.几个重要的关键词:
数据仓库,数据库,OLAP,OLTP,TCL
2.hive是什么
一个基于Hadoop的分布式环境的数据仓库。
作用:用于OLAP,针对不同的主题,进行数据的分析和操作。
参考文档:http://blog.csdn.net/qq_36801710/article/details/79319187
3.hive的存储机制
4.hive的执行机制
用户编写HQL语句,在hive的解释器,编译器,优化器,生成执行计划,交给jobtracker,在Hadoop的环境中执行。
5.hive的安装
针对不同的存储元数据的位置,分为三种:
嵌入模式:使用derby
本地模式:使用本地的MySQL
远程模式:使用远程的MySQL
后俩种:添加MySQL的连接驱动jar到/hive/lib中,在hive-size.xml中配置数据源信息。
6.hive的启动
三种:
命令行模式:
启动:hive
清屏:Ctrl+L 或者 !clear
查看数据仓库中的表:show tables;
查看数据仓库中内置的函数:show functions;
查看表结构:desc 表名
查看HDFS上的文件: dfs -ls 目录
执行操作系统的命令: !命令
执行HQL语句: select *** from ****
执行SQL的脚本:source SQL文件
进行hive的静默模式(不打印调试信息,只打印结果):hive -S
web模式:
端口号:999
启动方式:#hive —service hwi?
通过浏览器访问:http://
若报错没有war包,则需要下载源码并打包war包,目录是:/src/hive/hwi/web,并修改hive-site.xml文件再启动。同时需要复制jdk的lib目录下的tools.jar 到hive的lib目录。
jar -cvfM0 地址
远程访问模式:
jdbc:类似于Java连接其他数据库,添加jar,记载驱动,建立连接,执行,释放。。都一样。
还有另外一种方式:通过socket进行连接。
6.hive的表的分类
7.hive的数据类型
8.hive的数据的导入
9.hql语句,和sql语句几乎一样。
10.hive的函数,这个也和其他关系型数据库基本一样。
11.自定义函数。
写一个类,继承org.apache.hadoop.hive.ql.exec.UDF,重写方法evaluate();
上传jar到服务器。
创建temporary function函数,关联jar.
就可以使用了。
上一篇: linux安装jdk详解
下一篇: Oracle日期型及处理方法讲解