在数据分析中,抽样采集的样本数据往往存在各种异常情况,如大量缺失,错误数据、重复数据等,直接影响数据分析效果使结果出现偏差,所以在数据分析之前要对样本数据进行必要的处理。
数据清洗
数据清洗是指发现并纠正数据存在的错误,主要包括缺失数据、错误数据和重复数据。
1、缺失数据
样本数据里的数据缺失是常见的现象,这其中有的是数据存储错误的原因,有的是原始数据本身就是缺失的,例如录入的信息不全,录入错误等,对于这些情况,要考虑缺失数据的重要性和缺失比例,严格谨慎加以处理,常用的处理方式有两种:
a、删除
分析缺失数据的重要性,如果不是关键字段内容缺失,同时缺失数据占样本数据比例不大,直接删除即可。
b、替换
经过统计分析,根据数据的取值分布,选择有相同属性的数据进行替换,例如众数、算数平均数、中位数*、最大值、最小值等有代表性的数据,这种方法简单、直观且有一定的依据。
还有一种情况的替换, 是针对某些重要数据的缺失,采用回归模型等算法对缺失数据进行预测,找出最近替代值。
2、错误数据
样本数据可能来源于不同的数据库,如果是人工收集或者来自客户填写,在内容和格式上很可能存在错误或异常,例如,销售额出现负数,年龄大于200的异常值,录入多余空格等等情况,都会使分析结果出现偏差,具体常见的数据错误有以下几种:
a、数据值错误
数据值存在错误,例如销量为负数、小数据位数不统一、拼写错误、逻辑错误等情况。
b、数据格式错误
格式错误常与人为输入有关,例如,半角全角字符、中英文字符存储错误,数据存储的编码错误,数据值头尾或中间有空格等。
c、数据类型错误
数据的存储类型不符合处理需求的,例如,日期型数据存储成数值型,数据值型存储为字符型等。
d、数据异常值
异常值错误是数据超出值域范围,数据出现的次数、频率过大或太小等情况,需要结合业务背景进行正确判断。
3、重复数据
由于不同的原因,数据中可能存在重复记录或重复字段,对于重复数据的处理需要与业务部门确认,判断其是否合理有效,一般的去重操作就是直接删除。
数据清洗的任务是过滤那些不符合数据分析要求和自身异常的数据,在实际场景中对数据的识别与清洗是一个复杂的过程,需要反复与业务部门进行分析确认,最终留下有价值的数据,保证分析结果符合业务实际需求。
注:众数、算数平均数、中位数的含义见数据分析基础—1.2 常用的数据分析指标与术语
作者:小明学数据
链接:https://www.jianshu.com/p/6c3faa6f8cc5
共同学习,写下你的评论
评论加载中...
作者其他优质文章