一、数据分组运算
- 分组计算根据某个或某几个字段对数据进行分组,然后运用特定的函数,比如求和,得到结果。
- 使用groupby方法进行分组计算,得到分组对象GroupBy
- df.groupby(by=)
- 分组对象GroupBy可以运用描述性统计方法,例如count,mean, median,sum,max和min等等。
数据来源还是我爬取的微医的专家数据


上面的作用可以比作一个人同一天购买了多少个商品,此时就可以对用户和日期进行分组并且进行函数计算。
二、聚合函数
- 对分组对象使用agg聚合函数
- Groupby.agg(func)
- 针对不同的变量使用不同的统计方法




三、分组对象与apply函数
- 函数apply即可用于分组对象,也可用于dataframe数据
- Groupby.apply(func)
- 需要注意axis=0和axis=1的区别




四、透视图与交叉表
(1) 透视图
pivot_table(data, index,columns,values,aggfunc,fill_value,margins,margins_name=)
- index 行分组键
- columns 列分组键
- values 分组的字段,只能为数值型变量
- aggfunc 聚合函数
- margins 是否需要总计
- fill_value 缺失值用什么填补


(2)交叉表
- 交叉表用于计算分组频率
- pd.crosstab(index,columns,normalize)
- Index 行索引
- Columns 列索引
- Normalize 数据对数据进行标准化,index表示行,column表示列




我也是学计算机的
我给你点赞了