数据统计【数据清洗】

首页 » 数据清洗 » 数据统计【数据清洗】

一、数据分组运算

  • 分组计算根据某个或某几个字段对数据进行分组,然后运用特定的函数,比如求和,得到结果。
  • 使用groupby方法进行分组计算,得到分组对象GroupBy
  • df.groupby(by=)
  • 分组对象GroupBy可以运用描述性统计方法,例如count,mean, median,sum,max和min等等。

数据来源还是我爬取的微医的专家数据

数据统计【数据清洗】
如果没有指定,它会把每一个数字变量的均值求出来
数据统计【数据清洗】
这样使用是错的,但是我现在没有数据,用户数据还在爬,先记着语法

上面的作用可以比作一个人同一天购买了多少个商品,此时就可以对用户和日期进行分组并且进行函数计算。


二、聚合函数

  • 对分组对象使用agg聚合函数
  • Groupby.agg(func)
  • 针对不同的变量使用不同的统计方法
数据统计【数据清洗】
数据统计【数据清洗】
数据统计【数据清洗】
数据统计【数据清洗】

三、分组对象与apply函数

  • 函数apply即可用于分组对象,也可用于dataframe数据
  • Groupby.apply(func)
  • 需要注意axis=0和axis=1的区别
数据统计【数据清洗】
数据统计【数据清洗】
apply只能接一个函数
数据统计【数据清洗】
数据统计【数据清洗】

四、透视图与交叉表

(1) 透视图

pivot_table(data, index,columns,values,aggfunc,fill_value,margins,margins_name=)

  • index 行分组键
  • columns 列分组键
  • values 分组的字段,只能为数值型变量
  • aggfunc 聚合函数
  • margins 是否需要总计
  • fill_value 缺失值用什么填补
数据统计【数据清洗】
数据统计【数据清洗】

(2)交叉表

  • 交叉表用于计算分组频率
  • pd.crosstab(index,columns,normalize)
  • Index 行索引
  • Columns 列索引
  • Normalize 数据对数据进行标准化,index表示行,column表示列
数据统计【数据清洗】
数据统计【数据清洗】
数据统计【数据清洗】
数据统计【数据清洗】

分享到:
赞(0) 打赏

评论 2

评论前必须登录!

 

  1. #1

    我也是学计算机的

    白云6个月前 (03-27)
  2. #2

    我给你点赞了

    沥青6个月前 (03-28)

觉得文章有用就打赏一下弟弟吧

支付宝扫一扫打赏

微信扫一扫打赏

Vieu4.5主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。
正在播放:

作者想对您说:

累了就停下来听首歌吧

听完后会给您一个好心情

最后

等到您不容易

还希望您能多待一会儿

      00:00/00:00