九、functions - 9.4 聚合函数 - 《AI算法工程师手册》

avg(col)：计算指定列的均值
approx_count_distinct(col, rsd=None)：统计指定列有多少个distinct 值
countDistinct(col,*cols)：计算一列或者一组列中的distinct value 的数量。
collect_list(col)：返回指定列的元素组成的列表（不会去重）
collect_set(col)：返回指定列的元素组成的集合（去重）
first(col,ignorenulls=False)：返回组内的第一个元素。

如果ignorenulls=True，则忽略null 值，直到第一个非null 值。如果都是null，则返回null。

如果ignorenulls=False，则返回组内第一个元素(不管是不是null)
grouping(col)：判断group by list 中的指定列是否被聚合。如果被聚合则返回1，否则返回 0。
grouping_id(*cols)：返回grouping 的级别。

cols 必须严格匹配grouping columns，或者为空（表示所有的grouping columns)
kurtosis(col)：返回一组元素的峰度
max(col)：返回组内的最大值。
mean(col)：返回组内的均值
skewness(col)：返回组内的偏度
stddev_pop(col)：返回组内的总体标准差（分母除以 N ）
stddev_samp(col)：返回组内的标准差，与stddev 相同
sum(col)：返回组内的和
sumDistinct(col)：返回组内distinct 值的和
var_pop(col)：返回组内的总体方差。（分母除以 N ）
var_samp(col)：返回组内的样本方差。（分母除以 N-1 ）