数据预处理【数据清洗】

首页 » 数据清洗 » 数据预处理【数据清洗】

一、缺失值处理

  • 可以采取直接删除法
  • 也可以使用替换和插值进行解决
  • 常用的替换法有均值替换、前向、后向和常数替换
数据预处理【数据清洗】
数据预处理【数据清洗】
数据预处理【数据清洗】
数据预处理【数据清洗】
数据预处理【数据清洗】

df.字段名称.fillna(df.字段名称.mean()) 用均值填补

数据预处理【数据清洗】
数据预处理【数据清洗】
数据预处理【数据清洗】
数据预处理【数据清洗】

二、重复值处理

有重复值返回True

数据预处理【数据清洗】
数据预处理【数据清洗】

三、异常值处理

  • 指那些偏离正常范围的值
  • 异常值出现频率不高,但是会对实际分析造成偏差
数据预处理【数据清洗】
数据预处理【数据清洗】

四、数据离散化

  • 数据离散化也就是分箱
  • 等频分箱(数据按段进行分箱,每一段的样品个数相等)
  • 等宽分箱(数据宽度是一样的,比如年龄)
  • 一般使用pd.cut或者pd.qcut函数
pandas.cut(x, bins,right=True,labels)
x:数据
bins:离散化的数目,或者切分的区间
labels:离散化后各个类别的标签
right:是否包含区间右边的值
数据预处理【数据清洗】
数据预处理【数据清洗】
数据预处理【数据清洗】
数据预处理【数据清洗】
数据预处理【数据清洗】
数据预处理【数据清洗】

下面是等频分段

数据预处理【数据清洗】
数据预处理【数据清洗】
百分之零对应的数,百分之二十对应的数…
数据预处理【数据清洗】

此时就可以用这个分段标准来得出等频分段了

分享到:
赞(0) 打赏

评论 10

评论前必须登录!

 

  1. #1

    我也是小白以后多多交流

    笨鸟先飞8个月前 (03-27)
  2. #2

    笨鸟先飞8个月前 (03-27)
  3. #3

    还可以

    奋斗8个月前 (03-27)
  4. #4

    给你点赞

    你哥8个月前 (03-28)
  5. #5

    以后多发点哦

    小白8个月前 (03-28)
  6. #6

    挺明白的

    小蚯蚓8个月前 (03-28)
  7. #7

    我也是学计算机的

    笔记本6个月前 (05-26)
  8. #8

    我加你了哦

    奋斗6个月前 (05-26)
  9. #9

    good厉害了

    白云6个月前 (05-26)
  10. #10

    可以

    我也是渣渣6个月前 (05-26)

觉得文章有用就打赏一下弟弟吧

支付宝扫一扫打赏

微信扫一扫打赏

Vieu4.5主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。
正在播放:

作者想对您说:

累了就停下来听首歌吧

听完后会给您一个好心情

最后

等到您不容易

还希望您能多待一会儿

      00:00/00:00