一、缺失值处理
- 可以采取直接删除法
- 也可以使用替换和插值进行解决
- 常用的替换法有均值替换、前向、后向和常数替换





df.字段名称.fillna(df.字段名称.mean()) 用均值填补




二、重复值处理
有重复值返回True


三、异常值处理
- 指那些偏离正常范围的值
- 异常值出现频率不高,但是会对实际分析造成偏差


四、数据离散化
- 数据离散化也就是分箱
- 等频分箱(数据按段进行分箱,每一段的样品个数相等)
- 等宽分箱(数据宽度是一样的,比如年龄)
- 一般使用pd.cut或者pd.qcut函数
pandas.cut(x, bins,right=True,labels)
x:数据
bins:离散化的数目,或者切分的区间
labels:离散化后各个类别的标签
right:是否包含区间右边的值






下面是等频分段



此时就可以用这个分段标准来得出等频分段了
我也是小白以后多多交流
好
还可以