标签：

Spark SQL 复杂类型高阶函数详解

spark sql 2.4 新增了高阶函数功能，允许在数组类型中像 scala/python 一样使用高阶函数

背景

复杂类型的数据和真实数据模型相像，但是使用sql操作较为困难，一般需要借助于 explod/collect_list 等方法，或者使用 scala / python 编写UDF，但是对每个方法都要定义并且注册，较为繁琐，其中 python udf 的性能由于需要在 JVM 和 Python 进程中进行序列化，效率更低。

例如现在有这样一种需求，对 t1 表中某个 array 字段 values 的每个元素加1

1. 只使用 sql 实现

此类方法会带来 shuffle 的开销，collect_list 也不能保证数据的顺序，同时要保证 group 字段全局唯一，否则结果会出错。

2. 使用 udf 的方式

使用 scala 定义 udf

或者使用 python 定义 udf

在 sql 中使用 udf

3. 使用高阶函数的方式

三种方式的性能对比图:

使用

Array 高阶函数

目前支持 transform / filter / exists / agregate / zip_with 方法

id	arr_values	nested_values
1	[1,2,3]	[[1,2],[3,4]]

1. transform

对一个数组应用 function 产生另一个数组

如果 lambda function 中有两个参数，第一个参数为数组中的元素，第二个参数代表该元素的索引(从0开始)

2. filter

过滤出数组中符合条件的元素

3. exists

数组中的一个或多个元素是否满足条件

4. aggregate

给定初始值，并对数组中所有的元素都应用 function ，如果需要的话还可以加上 finish function

5. zip_with

将两个数组根据 function 合并为一个数组，较短的那个数组会以填充 null 的方式匹配较长的数组

复杂类型内置函数

spark 2.4 增加了大量的内置函数

1.array: array_distinct / array_intersect / array_union / array_except 等

2.map: map_form_arrays / map_from_entries / map_concat

3.array & map : element_at / cardinality

总结

1.spark sql 高阶函数可以避免用户维护大量的 udf ，且提高了性能，增强了复杂类型的处理能力。

2.collect_list / collect_set 返回的结构为 array ，可以直接使用高阶函数进行操作。

来源（公众号）：五分钟学大数据

AI用数智能体

数据共享交换平台

第三方数据质量管理平台

支撑性产品

API管理平台 Docker容器平台

企业数据治理方案

集团级数据底座企业级主数据管理跨系统数据集成数仓建设与可视化分析

政务数据治理方案

城市级数据底座城市级数据共享交换部门级数据治理统计局数据治理

上市企业

无锡某自动化控制企业数据中台建设江苏某建筑装饰集团企业数据中台建设上海某大型化工企业数据中台建设上海某大型化工企业数据中台建设苏州某面料贸易企业数据集成共享

国企

江苏某国企数科 AI用数智能体江苏某电子口岸数据交换平台建设广东某质检院数据集成平台建设新疆某热力公司数据中台建设江西某国控集团数据质量管理平台建设

政务

江苏某数据局共享交换平台建设江苏某城市生命线项目数据治理江苏某市监局数据治理平台建设四川省某数据集团城市级数据底座建设某地区党委数据中台建设

其他

上海某数据局数据质量管理服务苏州某大数据中心数据质量管理服务福建某交投集团数据资产入表服务无锡某数据交易所数据交易质量评测服务江苏某211大学数据中台建设

实施工具包

龙石材料

白皮书数据治理实战指南数据治理实施模板

视频中心

数据中台视频 AI用数视频数据质量视频其他

龙石博客

数据治理 AI用数数据交换数据质量

微信咨询

苏州龙石信息科技有限公司微信公众号

电话咨询

400-800-9577

预约演示

资料下载

预约演示

资料下载

立即申请免费试用，开启数据治理之旅

预约演示

视频介绍

免费咨询