欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

hive支持sql大全(7-8:字符串函数、集合统计函数)

程序员文章站 2022-06-24 22:55:49
七、字符串函数 1. 字符串长度函数:length 语法: length(string a) 返回值: int 说明:返回字符串a的长度 举例: hive> select length(...

七、字符串函数

1. 字符串长度函数:length 语法: length(string a) 返回值: int 说明:返回字符串a的长度 举例: hive> select length('abcedfg') from lxw_dual; 7

2. 字符串反转函数:reverse 语法: reverse(string a) 返回值: string 说明:返回字符串a的反转结果 举例: hive> select reverse(abcedfg’) from lxw_dual; gfdecba

3. 字符串连接函数:concat 语法: concat(string a, string b…) 返回值: string 说明:返回输入字符串连接后的结果,支持任意个输入字符串 举例: hive> select concat(‘abc’,'def’,'gh’) from lxw_dual; abcdefgh

4. 带分隔符字符串连接函数:concat_ws 语法: concat_ws(string sep, string a, string b…) 返回值: string 说明:返回输入字符串连接后的结果,sep表示各个字符串间的分隔符 举例: hive> select concat_ws(',','abc','def','gh') from lxw_dual; abc,def,gh

5. 字符串截取函数:substr,substring 语法: substr(string a, int start),substring(string a, int start) 返回值: string 说明:返回字符串a从start位置到结尾的字符串 举例: hive> select substr('abcde',3) from lxw_dual; cde hive> select substring('abcde',3) from lxw_dual; cde hive> selectsubstr('abcde',-1) from lxw_dual; (和oracle相同) e

6. 字符串截取函数:substr,substring 语法: substr(string a, int start, int len),substring(string a, intstart, int len) 返回值: string 说明:返回字符串a从start位置开始,长度为len的字符串 举例: hive> select substr('abcde',3,2) from lxw_dual; cd hive> select substring('abcde',3,2) from lxw_dual; cd hive>select substring('abcde',-2,2) from lxw_dual; de

7. 字符串转大写函数:upper,ucase 语法: upper(string a) ucase(string a) 返回值: string 说明:返回字符串a的大写格式 举例: hive> select upper('absed') from lxw_dual; absed hive> select ucase('absed') from lxw_dual; absed

8. 字符串转小写函数:lower,lcase 语法: lower(string a) lcase(string a) 返回值: string 说明:返回字符串a的小写格式 举例: hive> select lower('absed') from lxw_dual; absed hive> select lcase('absed') from lxw_dual; absed

9. 去空格函数:trim 语法: trim(string a) 返回值: string 说明:去除字符串两边的空格 举例: hive> select trim(' abc ') from lxw_dual; abc

10. 左边去空格函数:ltrim 语法: ltrim(string a) 返回值: string 说明:去除字符串左边的空格 举例: hive> select ltrim(' abc ') from lxw_dual; abc

11. 右边去空格函数:rtrim 语法: rtrim(string a) 返回值: string 说明:去除字符串右边的空格 举例: hive> select rtrim(' abc ') from lxw_dual; abc

12. 正则表达式替换函数:regexp_replace 语法: regexp_replace(string a, string b, string c) 返回值: string 说明:将字符串a中的符合java正则表达式b的部分替换为c。注意,在有些情况下要使用转义字符,类似oracle中的regexp_replace函数。 举例: hive> select regexp_replace('foobar', 'oo|ar', '') from lxw_dual; fb

13. 正则表达式解析函数:regexp_extract 语法: regexp_extract(string subject, string pattern, int index) 返回值: string 说明:将字符串subject按照pattern正则表达式的规则拆分,返回index指定的字符。 举例: hive> select regexp_extract('foothebar', 'foo(.*?)(bar)', 1) fromlxw_dual; the hive> select regexp_extract('foothebar', 'foo(.*?)(bar)', 2) fromlxw_dual; bar hive> select regexp_extract('foothebar', 'foo(.*?)(bar)', 0) fromlxw_dual; foothebar 注意,在有些情况下要使用转义字符,下面的等号要用双竖线转义,这是java正则表达式的规则。 select data_field, regexp_extract(data_field,'.*?bgstart\\=([^&]+)',1) as aaa, regexp_extract(data_field,'.*?contentloaded_headstart\\=([^&]+)',1) as bbb, regexp_extract(data_field,'.*?appload2req\\=([^&]+)',1) as ccc from pt_nginx_loginlog_st where pt = '2012-03-26'limit 2;

14. url解析函数:parse_url 语法: parse_url(string urlstring, string parttoextract [, stringkeytoextract]) 返回值: string 说明:返回url中指定的部分。parttoextract的有效值为:host, path, query, ref, protocol, authority, file, and userinfo. 举例: hive> selectparse_url('https://facebook.com/path1/p.php?k1=v1&k2=v2#ref1', 'host') fromlxw_dual; facebook.com hive> selectparse_url('https://facebook.com/path1/p.php?k1=v1&k2=v2#ref1', 'query','k1') from lxw_dual; v1 15. json解析函数:get_json_object 语法: get_json_object(string json_string, string path) 返回值: string 说明:解析json的字符串json_string,返回path指定的内容。如果输入的json字符串无效,那么返回null。 举例: hive> select get_json_object('{"store": > {"fruit":\[{"weight":8,"type":"apple"},{"weight":9,"type":"pear"}], > "bicycle":{"price":19.95,"color":"red"} > }, > "email":"amy@only_for_json_udf_test.net", > "owner":"amy" > } > ','$.owner') from lxw_dual; amy

16. 空格字符串函数:space 语法: space(int n) 返回值: string 说明:返回长度为n的字符串 举例: hive> select space(10) from lxw_dual; hive> select length(space(10)) from lxw_dual; 10

17. 重复字符串函数:repeat 语法: repeat(string str, int n) 返回值: string 说明:返回重复n次后的str字符串 举例: hive> select repeat('abc',5) from lxw_dual; abcabcabcabcabc

18. 首字符ascii函数:ascii 语法: ascii(string str) 返回值: int 说明:返回字符串str第一个字符的ascii码 举例: hive> select ascii('abcde') from lxw_dual; 97

19. 左补足函数:lpad 语法: lpad(string str, int len, string pad) 返回值: string 说明:将str进行用pad进行左补足到len位 举例: hive> select lpad('abc',10,'td') from lxw_dual; tdtdtdtabc 注意:与gp,oracle不同,pad 不能默认

20. 右补足函数:rpad 语法: rpad(string str, int len, string pad) 返回值: string 说明:将str进行用pad进行右补足到len位 举例: hive> select rpad('abc',10,'td') from lxw_dual; abctdtdtdt

21. 分割字符串函数: split 语法: split(string str, stringpat) 返回值: array 说明: 按照pat字符串分割str,会返回分割后的字符串数组 举例: hive> select split('abtcdtef','t') from lxw_dual; ["ab","cd","ef"]

22. 集合查找函数:find_in_set 语法: find_in_set(string str, string strlist) 返回值: int 说明: 返回str在strlist第一次出现的位置,strlist是用逗号分割的字符串。如果没有找该str字符,则返回0 举例: hive> select find_in_set('ab','ef,ab,de') from lxw_dual; 2 hive> select find_in_set('at','ef,ab,de') from lxw_dual; 0

八、集合统计函数

1. 个数统计函数: count 语法: count(*), count(expr), count(distinct expr[, expr_.]) 返回值: int 说明: count(*)统计检索出的行的个数,包括null值的行;count(expr)返回指定字段的非空值的个数;count(distinctexpr[, expr_.])返回指定字段的不同的非空值的个数 举例: hive> select count(*) from lxw_dual; 20 hive> select count(distinct t) from lxw_dual; 10

2. 总和统计函数: sum 语法: sum(col), sum(distinct col) 返回值: double 说明: sum(col)统计结果集中col的相加的结果;sum(distinct col)统计结果中col不同值相加的结果 举例: hive> select sum(t) from lxw_dual; 100 hive> select sum(distinct t) from lxw_dual; 70

3. 平均值统计函数: avg 语法: avg(col), avg(distinct col) 返回值: double 说明: avg(col)统计结果集中col的平均值;avg(distinct col)统计结果中col不同值相加的平均值 举例: hive> select avg(t) from lxw_dual; 50 hive> select avg (distinct t) from lxw_dual; 30

4. 最小值统计函数: min 语法: min(col) 返回值: double 说明: 统计结果集中col字段的最小值 举例: hive> select min(t) from lxw_dual; 20

5. 最大值统计函数: max 语法: maxcol) 返回值: double 说明: 统计结果集中col字段的最大值 举例: hive> select max(t) from lxw_dual; 120

6. 非空集合总体变量函数:var_pop 语法: var_pop(col) 返回值: double 说明: 统计结果集中col非空集合的总体变量(忽略null) 举例:

7. 非空集合样本变量函数:var_samp 语法: var_samp (col) 返回值: double 说明: 统计结果集中col非空集合的样本变量(忽略null) 举例:

8. 总体标准偏离函数:stddev_pop 语法: stddev_pop(col) 返回值: double 说明: 该函数计算总体标准偏离,并返回总体变量的平方根,其返回值与var_pop函数的平方根相同 举例:

9. 样本标准偏离函数:stddev_samp 语法: stddev_samp (col) 返回值: double 说明: 该函数计算样本标准偏离 举例:

10.中位数函数:percentile 语法: percentile(bigint col, p) 返回值: double 说明: 求准确的第pth个百分位数,p必须介于0和1之间,但是col字段目前只支持整数,不支持浮点数类型 举例:

11. 中位数函数:percentile 语法: percentile(bigint col, array(p1 [, p2]…)) 返回值: array 说明: 功能和上述类似,之后后面可以输入多个百分位数,返回类型也为array,其中为对应的百分位数。 举例: select percentile(score,<0.2,0.4>) from lxw_dual;取0.2,0.4位置的数据

12. 近似中位数函数:percentile_approx 语法: percentile_approx(double col, p [, b]) 返回值: double 说明: 求近似的第pth个百分位数,p必须介于0和1之间,返回类型为double,但是col字段支持浮点类型。参数b控制内存消耗的近似精度,b越大,结果的准确度越高。默认为10,000。当col字段中的distinct值的个数小于b时,结果为准确的百分位数 举例: 13. 近似中位数函数:percentile_approx 语法: percentile_approx(double col, array(p1 [, p2]…) [, b]) 返回值: array 说明: 功能和上述类似,之后后面可以输入多个百分位数,返回类型也为array,其中为对应的百分位数。 举例:

14. 直方图:histogram_numeric 语法: histogram_numeric(col, b) 返回值: array 说明: 以b为基准计算col的直方图信息。 举例: hive> select histogram_numeric(100,5) from lxw_dual; [{"x":100.0,"y":1.0}]