Hive实例-解析百万json以及python脚本的使用
程序员文章站
2024-01-13 11:51:40
...
实例
使用UDF解析一百万条json并按字段插入表中
1. 编写UDF
public class MovieJsonParser extends UDF {
public String evaluate(String json) throws IOException {
ObjectMapper objectMapper = new ObjectMapper();
MovieBean movieBean = objectMapper.readValue(json, MovieBean.class);
return movieBean.toString();
}
}
其中movie bean为
public class MovieBean {
private String movie;
private String rate;
private String timeStamp;
private String uid;
@Override
public String toString() {
return movie
"," rate
"," timeStamp "," uid;
}
}
2.打成jar包并加入到hive的classpath中
add JAR /home/hadoop/moviejsonparser.jar
3.创建函数
create temporary function jsonparser as 'com.kris.bigdata.hive.udf.MovieJsonParser';
4.创建json表,并载入数据
create table t_movie_json(json string);
load data local inpath '/home/hadoop/rating.json' overwrite into table t_movie_json;
看看表里的数据
5.创建解析后插入的表
create table t_movie_rating(movie string,rate string,unixtime string,uid string)
row format delimited
fields terminated by ',';
6.解析并插入到新表
==使用我们前面创建的UDF函数,解析json,输出固定格式字符串,对字符串进行切割取对应值==
insert into t_movie_rating
select split(moviejsonparser(json),',')[0],split(moviejsonparser(json),',')[1],split(moviejsonparser(json),',')[2],split(moviejsonparser(json),',')[3] from t_movie_json;
看看数据插入后是什么样
番外-内置json函数
==hive中内置了json解析函数,但是只能解析单层的json对象,对于比较复杂的json,还是需要自己写UDF进行解析。==
select get_json_object(json,'$.movie') as movie,get_json_object(json,'$.rate') as rate from t_movie_json limit 10;
Transform实现
使用TRANSFORM关键字,我们可以在SQL中调用我们自己写的脚本。
适合于Hive没有的功能,又不想写UDF的情况。
下面我们用一个python脚本实现将查询出来的unixtime转为易于查看的weekday
1.首先编写一个python脚本
vi weekday_mapper.py
#!/bin/python
import sys
import datetime
#遍历输入的每一行
for line in sys.stdin:
#去掉首尾空格
line = line.strip();
#切割每一行,拿到每个值
movieid,rating,unixtime,userid = line.split('\t')
#转换unixtime为weekday。具体过程是先将unixtime强转为float,然后将float转换为datetime,然后调用datetime的isoweekday()方法获得weekday
weekday = datetime.datetime.fromtimestamp(float(unixtime)).isoweekday()
#输出数据,用\t相隔
print '\t'.join([movieid,rating,str(weekday),userid])
2.将文件加入hive的classpath
add FILE /home/hadoop/weekday.py;
3.使用脚本转换unixtime并插入新表
CREATE TABLE u_data_new as
SELECT
TRANSFORM (movieid,rate,unixtime,uid)
USING 'python weekday.py'
AS (movieid,rate,weekday,uid)
FROM t_movie_rating;
==记得一定要大写呀!!!!!! 坑了我两天==
这样就拿到了对应的星期啦~
喜欢就关注公众号:喜讯XiCent