关于HIVE的小白经验 博客分类: hadoophive Hadoophive
程序员文章站
2024-03-15 10:35:11
...
最后更新2016-11-24
1. 关于建立数据表
create table在本地系统创建。create external table在HDFS。
例子:
CREATE EXTERNAL TABLE atr_click_reqid ( atr_reqid string) PARTITIONED BY (datecol string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION '/tmp/atr/0510click'; ALTER TABLE test.atr_click_reqid ADD IF NOT EXISTS PARTITION(datecol='20160510') LOCATION '/tmp/atr/0510click/20160510/';
【注意】
创建失败有可能是权限问题导致。
【注意】
如果使用LOAD命令,会导致原目录的数据被移动。所有尽量使用LOCATION命令。
2. 关于安装
安装过程非常简单。安装官网的说明,分分钟搞定。
无须在所有机器进行安装。提交任务的机器安装即可。
3. 有不解的问题咋办?
到 https://issues.apache.org/jira/browse 找别人提交的问题会很有帮助
4. 空值处理
hive没有IFNULL函数,因此可以使用CASE WHEN这样的语句来处理空值
例子:
SELECT CASE WHEN a IS NULL THEN 0 ELSE a END FROM tb_1;
或者
SELECT IF(a IS NULL,0, a ) FROM tb_1;
【注意】
如果不处理空值,会有两个情况发生。
- SUM()函数处理集合中有null值,会导致最后的结果为null
- join操作时,null值与任何值(包括null)都无法匹配并成功join