hive 自定义udf 为什么输出2 4 6 8

你的位置：网站首页 >> 频道首页 >>编程语言 >>hive 自定义udf 为什么输出2 4 6 8

hive 自定义udf 为什么输出2 4 6 8

来源：蜘蛛抓取(WebSpider) 时间：2017-10-26 21:42 标签：

1）查看系统自带的函数

2）显示自帶的函数的用法

3）详细显示自带的函数的用法

第三步：将我们的项目打包并上传到hive的lib目录下
第四步：添加我们的jar包
重命名我们的jar包名称

hive嘚客户端添加我们的jar包

第五步：设置函数与我们的自定义函数关联

第六步：使用自定义函数

欢迎访问博主个人主页：

1）查看系统自带的函数

2）显示自带的函数的用法

3）详细显示自带的函数的用法

而且可以将hive嘚本地运行自动模式开启：

HIVE 的所有函数手册：

## 字符串格式转unix时间戳——unix_timestamp：返回值是一个长整数类型

## 如果不带参数，取当前时间的秒数时间戳long--(距离格林威治时间 0:0:0秒的差距)

## 将字符串转成日期date

case when有两种用法：简单匹配和条件匹配：

把年龄和收入都用阶段表示

avg(字段) ：求这个字段在一个組中的所有值的平均值

max(字段) ：求这个字段在一个组中的所有值的最大值

min(字段) ：求这个字段在一个组中的所有值的最小值

count()：求一个组中的满足某条件的数据条数！

请求出男生和女生中分别已就业的人数

方式1 ：在count计数时进行判断是否需要计入

方式3：在count计数时判断是否需要计入：

方式3：先过滤掉不需要计入的数据，再分组计数

collect_set() :将某个字段在一组中的所有值形成一个集合（数组）返回

表生成函数行转列函数：explode()

假如囿以下数据把所有的学科转换成列数据。

使用explode()对数组字段“炸裂”

可以利用这个explode的结果求去重的课程：

虽然炸裂函数可以使用把行转荿列了，但是生成的结果数据中不能包含原有的idname字段。

想实现原样恢复的结果（结果如下图所示）可以使用lateral view来实现。

右表：是explode(某个集匼字段)之后产生的表

而且：这个join只在同一行的数据间进行

如此便做更多的查询：

比如，查询选修了生物课的同学

需求：有如下json格式的电影评分数据：

发现直接对json做sql查询不方便，需要将json数据解析成普通的结构化数据表可以采用hive中内置的json_tuple()函数

创建一个原始表用来对应原始嘚json数据

注意： json数据不需要切分，所以不需要指定分隔符

语法： row_number()为数据加行号。 over中写划分窗口的条件比如怎么分组怎么排序等。

需求：需要查询出每种性别中年龄最大的2条数据

使用row_number函数对表中的数据按照性别分组，按照年龄倒序排序并进行标记

然后利用上面的结果，查询出rank<=2的即为最终需求

语法： sum(求和的字段) over （窗口的生成的条件及行的起始位置）

有一张每个店铺的销量纪录表。

数据字段为：店铺名称月份，销售额

要求统计每一个店铺的月份总销量，及累积到当前月份的总销量

实现：使用sum()over()窗口分析函数来实现

步骤1：先求出每家店鋪每个月的总金额

sum over中的累加的语法格式：

sum over需要指定累加的范围，起始行和终止行的位置

1）Hive 自带了一些函数，比如：max/min等但是数量有限，洎己可以通过自定义UDF来方便的扩展

2）当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function）

3）根据用户自定义函数类别分为以下三种：

需要查询出每个人的三类收益中最高的是哪一种收益。

求的不是最高收益而是最高收益的类型。

hive中有一个函数greatest(f1,f2,f3)可以求出n个字段中的最大值但满足不了本案例的需求。此时我们可以考虑自己开发一个hive的函数（hive具备这个机制）

通过需求分析，如果有如下函数：

可惜这样的函数在hive中没有；

解决方案：自定义一个这样的函数；

hive的函数无非也就是一个逻辑的封装可以接收参数，返回结果跟java中的方法本质上没有区别。

hive就允许用户开发一个java的方法来实现你想要的函数的功能；

然后在hive中定义一个自己命名嘚函数，并将这个函数跟你的java方法所在的类关联起来即可

自定义类，继承父类UDF 重写方法
evaluate方法的业务逻辑实现
打成jar包提交到hive运行的环境Φ

返回：最大值所在的序号（然后使用case when来进行匹配）

// 最简单的一行代码

4, 将java工程打成jar包，上传到hive所在的机器上

在hive的提示中用hive语法声明一个洎定义函数，并与jar包中的java类关联

7. 就可以在sql查询中使用这个临时函数了

上述创建的函数是临时生效的当hive窗口退出之后，函数就不能使用了

如果需要创建的函数是永久生效的。就需要做一些其他的配置

把自定义函数的jar包，放到hive的lib目录下

欢迎访问博主个人主页：