什么是脏数据？怎样用箱形图分析异常值？终于有人讲明白了

导读：数据质量分析是数据挖掘中数据准备过程的重要一环，是数据预处理的前提，也是数据挖掘分析结论有效性和准确性的基础。没有可信的数据，数据挖掘构建的模型将是空中楼阁。
数据质量分析的主要任务是检查原始数据中是否存在脏数据。脏数据一般是指不符合要求以及不能直接进行相应分析的数据。在常见的数据挖掘工作中，脏数据包括：缺失值、异常值、不一致的值、重复数据及含有特殊符号（如#、￥、*）的数据。
本文将主要对数据中的缺失值、异常值和一致性进行分析。
作者：张良均谭立云刘名军江建明
来源：华章科技

本文插图
01 缺失值分析
数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失，两者都会造成分析结果不准确。下面从缺失值产生的原因及影响等方面展开分析。
1. 缺失值产生的原因
缺失值产生的原因主要有以下3点：

有些信息暂时无法获取，或者获取信息的代价太大。
有些信息是被遗漏的。可能是因为输入时认为该信息不重要、忘记填写或对数据理解错误等一些人为因素而遗漏，也可能是由于数据采集设备故障、存储介质故障、传输媒体故障等非人为原因而丢失。
属性值不存在。在某些情况下，缺失值并不意味着数据有错误。对一些对象来说某些属性值是不存在的，如一个未婚者的配偶姓名、一个儿童的固定收入等。

2. 缺失值的影响
缺失值会产生以下的影响：

数据挖掘建模将丢失大量的有用信息。
数据挖掘模型所表现出的不确定性更加显著，模型中蕴含的规律更难把握。
包含空值的数据会使建模过程陷入混乱，导致不可靠的输出。

3. 缺失值的分析
对缺失值的分析主要从以下两方面进行：

使用简单的统计分析，可以得到含有缺失值的属性的个数以及每个属性的未缺失数、缺失数与缺失率等。
对于缺失值的处理，从总体上来说分为删除存在缺失值的记录、对可能值进行插补和不处理3种情况。

本文插图
02 异常值分析
异常值分析是检验数据是否有录入错误，是否含有不合常理的数据。忽视异常值的存在是十分危险的，不加剔除地将异常值放入数据的计算分析过程中，会对结果造成不良影响；重视异常值的出现，分析其产生的原因，常常成为发现问题进而改进决策的契机。
异常值是指样本中的个别值，其数值明显偏离其他的观测值。异常值也称为离群点，异常值分析也称为离群点分析。
1. 简单统计量分析
在进行异常值分析时，可以先对变量做一个描述性统计，进而查看哪些数据是不合理的。最常用的统计量是最大值和最小值，用来判断这个变量的取值是否超出了合理范围。如客户年龄的最大值为199岁，则判断该变量的取值存在异常。
2. 3σ原则
如果数据服从正态分布，在3σ原则下，异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值。在正态分布的假设下，距离平均值3σ之外的值出现的概率为P(|x-μ|>3σ)≤0.003 ，属于极个别的小概率事件。
如果数据不服从正态分布，也可以用远离平均值的标准差倍数来描述。
3. 箱型图分析
箱型图提供了识别异常值的一个标准：异常值通常被定义为小于QL -1.5IQR或大于QU +1.5IQR的值。