什么是脏数据?怎样用箱形图分析异常值?终于有人讲明白了


导读:数据质量分析是数据挖掘中数据准备过程的重要一环 , 是数据预处理的前提 , 也是数据挖掘分析结论有效性和准确性的基础 。 没有可信的数据 , 数据挖掘构建的模型将是空中楼阁 。
数据质量分析的主要任务是检查原始数据中是否存在脏数据 。 脏数据一般是指不符合要求以及不能直接进行相应分析的数据 。 在常见的数据挖掘工作中 , 脏数据包括:缺失值、异常值、不一致的值、重复数据及含有特殊符号(如#、¥、*)的数据 。
本文将主要对数据中的缺失值、异常值和一致性进行分析 。
作者:张良均 谭立云 刘名军 江建明
来源:华章科技
什么是脏数据?怎样用箱形图分析异常值?终于有人讲明白了
本文插图
01 缺失值分析
数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失 , 两者都会造成分析结果不准确 。 下面从缺失值产生的原因及影响等方面展开分析 。
1. 缺失值产生的原因
缺失值产生的原因主要有以下3点:

  1. 有些信息暂时无法获取 , 或者获取信息的代价太大 。
  2. 有些信息是被遗漏的 。 可能是因为输入时认为该信息不重要、忘记填写或对数据理解错误等一些人为因素而遗漏 , 也可能是由于数据采集设备故障、存储介质故障、传输媒体故障等非人为原因而丢失 。
  3. 属性值不存在 。 在某些情况下 , 缺失值并不意味着数据有错误 。 对一些对象来说某些属性值是不存在的 , 如一个未婚者的配偶姓名、一个儿童的固定收入等 。
2. 缺失值的影响
缺失值会产生以下的影响:
  1. 数据挖掘建模将丢失大量的有用信息 。
  2. 数据挖掘模型所表现出的不确定性更加显著 , 模型中蕴含的规律更难把握 。
  3. 包含空值的数据会使建模过程陷入混乱 , 导致不可靠的输出 。
3. 缺失值的分析
对缺失值的分析主要从以下两方面进行:
  1. 使用简单的统计分析 , 可以得到含有缺失值的属性的个数以及每个属性的未缺失数、缺失数与缺失率等 。
  2. 对于缺失值的处理 , 从总体上来说分为删除存在缺失值的记录、对可能值进行插补和不处理3种情况 。

什么是脏数据?怎样用箱形图分析异常值?终于有人讲明白了
本文插图
02 异常值分析
异常值分析是检验数据是否有录入错误 , 是否含有不合常理的数据 。 忽视异常值的存在是十分危险的 , 不加剔除地将异常值放入数据的计算分析过程中 , 会对结果造成不良影响;重视异常值的出现 , 分析其产生的原因 , 常常成为发现问题进而改进决策的契机 。
异常值是指样本中的个别值 , 其数值明显偏离其他的观测值 。 异常值也称为离群点 , 异常值分析也称为离群点分析 。
1. 简单统计量分析
在进行异常值分析时 , 可以先对变量做一个描述性统计 , 进而查看哪些数据是不合理的 。 最常用的统计量是最大值和最小值 , 用来判断这个变量的取值是否超出了合理范围 。 如客户年龄的最大值为199岁 , 则判断该变量的取值存在异常 。
2. 3σ原则
如果数据服从正态分布 , 在3σ原则下 , 异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值 。 在正态分布的假设下 , 距离平均值3σ之外的值出现的概率为P(|x-μ|>3σ)≤0.003 , 属于极个别的小概率事件 。
如果数据不服从正态分布 , 也可以用远离平均值的标准差倍数来描述 。
3. 箱型图分析
箱型图提供了识别异常值的一个标准:异常值通常被定义为小于QL -1.5IQR或大于QU +1.5IQR的值 。