Spark SQL 的函数都在 org.apache.spark.sql.functions
中, 大部分函数与 Hive 差不多
除了 UDF 函数, 其他均可以在 Spark SQL 中字节使用
聚合函数
- approx_count_distinct: count_distinct近似值
- avg: 平均值
- collect_list: 聚合指定字段的值到list
- collect_set: 聚合指定字段的值到set
- corr: 计算两列的Pearson相关系数
- count: 计数
- countDistinct: 去重计数 SQL中用法, 如
select count(distinct class)
- covar_pop: 总体协方差(population covariance)
- covar_samp: 样本协方差(sample covariance)
- first: 分组第一个元素
- last: 分组最后一个元素
- grouping
- grouping_id
- kurtosis: 计算峰态(kurtosis)值
- skewness: 计算偏度(skewness)
- max: 最大值