1. avg(col):计算指定列的均值

    2. approx_count_distinct(col, rsd=None):统计指定列有多少个distinct

    3. countDistinct(col,*cols):计算一列或者一组列中的distinct value 的数量。

    4. collect_list(col):返回指定列的元素组成的列表(不会去重)

    5. collect_set(col):返回指定列的元素组成的集合(去重)

    6. first(col,ignorenulls=False):返回组内的第一个元素。

      如果ignorenulls=True,则忽略null 值,直到第一个非null 值。如果都是null,则返回null

      如果ignorenulls=False,则返回组内第一个元素(不管是不是null)

    7. grouping(col):判断group by list 中的指定列是否被聚合。如果被聚合则返回1,否则返回 0。

    8. grouping_id(*cols):返回grouping 的级别。

      cols 必须严格匹配grouping columns,或者为空(表示所有的grouping columns)

    9. kurtosis(col):返回一组元素的峰度

    10. max(col):返回组内的最大值。

    11. mean(col):返回组内的均值

    12. skewness(col): 返回组内的偏度

    13. stddev_pop(col):返回组内的总体标准差(分母除以 N

    14. stddev_samp(col): 返回组内的标准差,与stddev 相同

    15. sum(col):返回组内的和

    16. sumDistinct(col):返回组内distinct 值的和

    17. var_pop(col):返回组内的总体方差。 (分母除以 N

    18. var_samp(col):返回组内的样本方差 。(分母除以 N-1