数据统计【数据清洗】

1年前 (2020-02-07) 371次浏览 已收录 2个评论

一、数据分组运算

  • 分组计算根据某个或某几个字段对数据进行分组,然后运用特定的函数,比如求和,得到结果。
  • 使用groupby方法进行分组计算,得到分组对象GroupBy
  • df.groupby(by=)
  • 分组对象GroupBy可以运用描述性统计方法,例如count,mean, median,sum,max和min等等。

数据来源还是我爬取的微医的专家数据

如果没有指定,它会把每一个数字变量的均值求出来
这样使用是错的,但是我现在没有数据,用户数据还在爬,先记着语法

上面的作用可以比作一个人同一天购买了多少个商品,此时就可以对用户和日期进行分组并且进行函数计算。


二、聚合函数

  • 对分组对象使用agg聚合函数
  • Groupby.agg(func)
  • 针对不同的变量使用不同的统计方法

三、分组对象与apply函数

  • 函数apply即可用于分组对象,也可用于dataframe数据
  • Groupby.apply(func)
  • 需要注意axis=0和axis=1的区别
apply只能接一个函数

四、透视图与交叉表

(1) 透视图

pivot_table(data, index,columns,values,aggfunc,fill_value,margins,margins_name=)

  • index 行分组键
  • columns 列分组键
  • values 分组的字段,只能为数值型变量
  • aggfunc 聚合函数
  • margins 是否需要总计
  • fill_value 缺失值用什么填补

(2)交叉表

  • 交叉表用于计算分组频率
  • pd.crosstab(index,columns,normalize)
  • Index 行索引
  • Columns 列索引
  • Normalize 数据对数据进行标准化,index表示行,column表示列


渣渣龙, 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:数据统计【数据清洗】
喜欢 (0)

您必须 登录 才能发表评论!

(2)个小伙伴在吐槽
  1. 我也是学计算机的
    白云2020-03-27 13:19
  2. 我给你点赞了
    沥青2020-03-28 17:00