avg(col)
:计算指定列的均值approx_count_distinct(col, rsd=None)
:统计指定列有多少个distinct
值countDistinct(col,*cols)
:计算一列或者一组列中的distinct value
的数量。collect_list(col)
:返回指定列的元素组成的列表(不会去重)collect_set(col)
:返回指定列的元素组成的集合(去重)first(col,ignorenulls=False)
:返回组内的第一个元素。如果
ignorenulls=True
,则忽略null
值,直到第一个非null
值。如果都是null
,则返回null
。如果
ignorenulls=False
,则返回组内第一个元素(不管是不是null
)grouping(col)
:判断group by list
中的指定列是否被聚合。如果被聚合则返回1,否则返回 0。grouping_id(*cols)
:返回grouping
的级别。cols
必须严格匹配grouping columns
,或者为空(表示所有的grouping columns
)kurtosis(col)
:返回一组元素的峰度max(col)
:返回组内的最大值。mean(col)
:返回组内的均值skewness(col)
: 返回组内的偏度stddev_pop(col)
:返回组内的总体标准差(分母除以N
)stddev_samp(col)
: 返回组内的标准差,与stddev
相同sum(col)
:返回组内的和sumDistinct(col)
:返回组内distinct
值的和var_pop(col)
:返回组内的总体方差。 (分母除以N
)var_samp(col)
:返回组内的样本方差 。(分母除以N-1
)