数据预处理【数据清洗】

2020-02-08 492次浏览 已收录 10个评论

一、缺失值处理

  • 可以采取直接删除法
  • 也可以使用替换和插值进行解决
  • 常用的替换法有均值替换、前向、后向和常数替换

df.字段名称.fillna(df.字段名称.mean()) 用均值填补


二、重复值处理

有重复值返回True


三、异常值处理

  • 指那些偏离正常范围的值
  • 异常值出现频率不高,但是会对实际分析造成偏差

四、数据离散化

  • 数据离散化也就是分箱
  • 等频分箱(数据按段进行分箱,每一段的样品个数相等)
  • 等宽分箱(数据宽度是一样的,比如年龄)
  • 一般使用pd.cut或者pd.qcut函数
pandas.cut(x, bins,right=True,labels)
x:数据
bins:离散化的数目,或者切分的区间
labels:离散化后各个类别的标签
right:是否包含区间右边的值

下面是等频分段

百分之零对应的数,百分之二十对应的数…

此时就可以用这个分段标准来得出等频分段了


渣渣龙, 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:数据预处理【数据清洗】
喜欢 (4)

您必须 登录 才能发表评论!

(10)个小伙伴在吐槽
  1. 我也是小白以后多多交流
    笨鸟先飞2020-03-27 12:53
  2. 笨鸟先飞2020-03-27 13:44
  3. 还可以
    奋斗2020-03-27 14:10
  4. 给你点赞
    你哥2020-03-28 16:34
  5. 以后多发点哦
    小白2020-03-28 17:26
  6. 挺明白的
    小蚯蚓2020-03-28 17:51
  7. 我也是学计算机的
    笔记本2020-05-26 09:21
  8. 我加你了哦
    奋斗2020-05-26 09:47
  9. good厉害了
    白云2020-05-26 10:13
  10. 可以
    我也是渣渣2020-05-26 10:36