什么是脏数据?怎样用箱形图分析异常值?终于有人讲明白了
导读:数据质量分析是数据挖掘中数据准备过程的重要一环 , 是数据预处理的前提 , 也是数据挖掘分析结论有效性和准确性的基础 。 没有可信的数据 , 数据挖掘构建的模型将是空中楼阁 。
数据质量分析的主要任务是检查原始数据中是否存在脏数据 。 脏数据一般是指不符合要求以及不能直接进行相应分析的数据 。 在常见的数据挖掘工作中 , 脏数据包括:缺失值、异常值、不一致的值、重复数据及含有特殊符号(如#、¥、*)的数据 。
本文将主要对数据中的缺失值、异常值和一致性进行分析 。
作者:张良均 谭立云 刘名军 江建明
来源:华章科技
本文插图
01 缺失值分析
数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失 , 两者都会造成分析结果不准确 。 下面从缺失值产生的原因及影响等方面展开分析 。
1. 缺失值产生的原因
缺失值产生的原因主要有以下3点:
- 有些信息暂时无法获取 , 或者获取信息的代价太大 。
- 有些信息是被遗漏的 。 可能是因为输入时认为该信息不重要、忘记填写或对数据理解错误等一些人为因素而遗漏 , 也可能是由于数据采集设备故障、存储介质故障、传输媒体故障等非人为原因而丢失 。
- 属性值不存在 。 在某些情况下 , 缺失值并不意味着数据有错误 。 对一些对象来说某些属性值是不存在的 , 如一个未婚者的配偶姓名、一个儿童的固定收入等 。
缺失值会产生以下的影响:
- 数据挖掘建模将丢失大量的有用信息 。
- 数据挖掘模型所表现出的不确定性更加显著 , 模型中蕴含的规律更难把握 。
- 包含空值的数据会使建模过程陷入混乱 , 导致不可靠的输出 。
对缺失值的分析主要从以下两方面进行:
- 使用简单的统计分析 , 可以得到含有缺失值的属性的个数以及每个属性的未缺失数、缺失数与缺失率等 。
- 对于缺失值的处理 , 从总体上来说分为删除存在缺失值的记录、对可能值进行插补和不处理3种情况 。
本文插图
02 异常值分析
异常值分析是检验数据是否有录入错误 , 是否含有不合常理的数据 。 忽视异常值的存在是十分危险的 , 不加剔除地将异常值放入数据的计算分析过程中 , 会对结果造成不良影响;重视异常值的出现 , 分析其产生的原因 , 常常成为发现问题进而改进决策的契机 。
异常值是指样本中的个别值 , 其数值明显偏离其他的观测值 。 异常值也称为离群点 , 异常值分析也称为离群点分析 。
1. 简单统计量分析
在进行异常值分析时 , 可以先对变量做一个描述性统计 , 进而查看哪些数据是不合理的 。 最常用的统计量是最大值和最小值 , 用来判断这个变量的取值是否超出了合理范围 。 如客户年龄的最大值为199岁 , 则判断该变量的取值存在异常 。
2. 3σ原则
如果数据服从正态分布 , 在3σ原则下 , 异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值 。 在正态分布的假设下 , 距离平均值3σ之外的值出现的概率为P(|x-μ|>3σ)≤0.003 , 属于极个别的小概率事件 。
如果数据不服从正态分布 , 也可以用远离平均值的标准差倍数来描述 。
3. 箱型图分析
箱型图提供了识别异常值的一个标准:异常值通常被定义为小于QL -1.5IQR或大于QU +1.5IQR的值 。
- QL称为下四分位数 , 表示全部观察值中有四分之一的数据取值比它小;
- QU称为上四分位数 , 表示全部观察值中有四分之一的数据取值比它大;
推荐阅读
- 学点时尚搭配|这些发型凭什么这么火?因为它适合所有女人
- 躺着看电影|“她这么丑,凭什么穿性感亵服!”丨原创
- 【】数百头大象离奇死亡!疫情下的非洲“大象王国”发生了什么?
- 虞书欣为张艺凡打call真相是什么?虞书欣为张艺凡打call具体情况
- 抗议者在白宫外烧美国国旗意味着什么?抗议者在白宫外烧美国国旗具体情况
- 宁静曾是动画师真相是什么?宁静曾是动画师具体情况
- 北京可控范围内病例还会确诊真相是什么?北京可控范围内病例还会确诊事件始末
- 海南农家水井出现大量桃花水母真相是什么?海南农家水井出现大量桃花水母事件始末
- 刘国梁为代言爱钱进道歉真相是什么?刘国梁为代言爱钱进道歉令人震惊
- 湖北村民50万建的新房被洪水冲倒是什么原因?湖北村民50万建的新房被洪水冲倒时间过程详解