【数据转换】解决销量数据中带单位的问题

【数据转换】解决销量数据中带单位的问题

对于一个数据集进行统计或者进行分析,避免不了的就是数据类型的转换。例如对日期进行统计分析、对价格进行统计分析、对销量进行统计分析…… 做这些的前提是你需要有规范的数据格式 下面这类数据是当时我自己没有考虑到,所以需要进行转换,不过我觉得这种情况以后也会遇见,说不定你碰到什么人呢。 这种字符串类型数据会给你造成数据……

数据预处理【数据清洗】

数据预处理【数据清洗】

一、缺失值处理 可以采取直接删除法也可以使用替换和插值进行解决常用的替换法有均值替换、前向、后向和常数替换 df.字段名称.fillna(df.字段名称.mean()) 用均值填补 二、重复值处理 有重复值返回True 三、异常值处理 指那些偏离正常……

数据统计【数据清洗】

数据统计【数据清洗】

一、数据分组运算 分组计算根据某个或某几个字段对数据进行分组,然后运用特定的函数,比如求和,得到结果。 使用groupby方法进行分组计算,得到分组对象GroupBy df.groupby(by=) 分组对象GroupBy可以运用描述性统计方法,例如count,mean, median,sum,max和min等等。 数据来源还是我爬取的微医的专家数据……

数据转换【数据清洗】

数据转换【数据清洗】

一、日期格式数据处理 pandas中使用to_datetime()方法将文本格式转换日期格式 dataframe数据类型如果为datetime64,可以使用dt方法取出年月日等 对于时间差数据,可以使用timedelta函数将其转换为指定时间单位的数值 时间差数据,可以使用dt方法访问其常用属性 未转换之前 转换后 日期数据转换后就可以使……

层次化索引

层次化索引

在一个轴上拥有两个或者两个以上的索引 使用loc语句进行访问 loc里面接受tuple,如loc[(a,b),:] df.loc[([2,5])] #第一层索引为2和5的 df.loc[(2,5)]#第一层索引 第二层索引 ……

数据整理

数据整理

        在数据清洗过程中,很多情况需要将不用的数据整理在一起,方便后续的分析,这个过程叫做数据合并。          常见的合并的方法有堆叠和按主键进行合并,堆叠又可分为横向堆叠和纵行堆叠,按主键合并类似于sql里的关联操作 注意: 使用concat时,axis=1用于横向,0代表纵向 join取inner或者outer时,分别代表交集……