Spark SQL 函数查询 | Notion

Spark SQL 的函数都在 org.apache.spark.sql.functions 中, 大部分函数与 Hive 差不多

除了 UDF 函数, 其他均可以在 Spark SQL 中字节使用

聚合函数

approx_count_distinct: count_distinct近似值
avg: 平均值
collect_list: 聚合指定字段的值到list
collect_set: 聚合指定字段的值到set
corr: 计算两列的Pearson相关系数
count: 计数
countDistinct: 去重计数 SQL中用法, 如 select count(distinct class)
covar_pop: 总体协方差（population covariance）
covar_samp: 样本协方差（sample covariance）
first: 分组第一个元素
last: 分组最后一个元素
grouping
grouping_id
kurtosis: 计算峰态(kurtosis)值
skewness: 计算偏度(skewness)
max: 最大值