-
- 拆分阶段:等数据根据你提供的一个或者多个键,被拆分为多组
- 应用阶段:根据你提供的一个函数应用到这些分组上
- 合并阶段:将函数的执行结果合并到最终结果中
分组中有两种数据:源数据(被分组的对象),分组数据(用于划分源数据的)。
- 源数据每一行(axis=0) 对应于分组数据中的一个元素。分组数据中每一个唯一值对应于一个分组。
- 当分组数据也在源数据中时,可以直接通过指定列名来指定分组数据(值相同的为同一组)。
.groupby()
方法是分组方法:axis
:指定沿着哪个轴分组。可以为0/'index'
,表示沿着 0轴。可以为1/'columns'
,表示沿着 1轴level
:一个整数、level name
或者其序列。如果axis
是个MultiIndex
,则在指定级别上的索引来分组sort
:一个布尔值。如果为,则对分组的键进行排序。group_keys
:一个布尔值。如果为True
,且调用了函数来决定分组,则添加分组键来区分不同的数据(否则你不知道每一行数据都对应于哪里)
该函数返回一个
GroupBy
对象。我们可以使用
dtype
来分组,此时by=df.dtypes,axis=1
:对于由
DataFrame
产生的GroupBy
对象,我们可以用一个或者一组列名对其索引。它其实一个语法糖。如果索引是一个列名,则
df.groupby('key1')['data1']
等价于df['data1'].groupby(df['key1'])
如果索引是一个元组和序列,则
df.groupby('key1')[['data1','data2']]
并不等价于df[['data1','data2']].groupby(df['key1'])
,而是等同于df.groupby(df['key1'])
- 之所以用
[['data1','data2']]
,是因为df[['data1','data2']]
与df['data1','data2']
语义不同。后者表示某个label
是个元组,该元组的值为'data1','data2'
。
- 之所以用