甜腻的嘴角|数据质量的六个维度-以及如何处理它们( 二 )
您的数据集的及时性可能取决于导致其创建的数据集成管道 。 这可以是实时的 , 可以在事件描述后立即提供数据 , 也可以批量处理 , 这意味着数据将"冻结"直到下一次刷新 。 对该管道的更改可能使您可以访问更多最新数据 , 并对新事件做出更快的响应 。
独特性
因此 , 任何涉及客户的指标(客户数量 , 每位客户的支出 , 购买频率)都将由于包含一个人的重复表示而被剔除 。
发现此问题意味着确定适当的主键 。 在JohnDoe和JohnnyDoe的示例中 , 他们可以具有不同的名称和客户ID , 但是可以匹配电子邮件地址 , 这有力地暗示了他们是同一个人 。 这意味着在进行任何分析或建模之前 , 需要进行数据整理以合并这些客户记录的附加步骤 。
有效期
在许多情况下 , 使用正则表达式可以轻松实现有效性检查 。 有在线数据库 , 例如regexlib.com , 其中包含数千种常见数据类型的正则表达式 。 对于离散数据类型 , 例如上面的成员资格级别示例 , 简单的频率统计信息可以告诉您是否存在有效性问题 。 如果除了"Gold" , "Silver"或"Bronze"以外 , 还有大量其他值 , 则说明出现了问题 。
一旦识别出无效数据 , 它将有效地成为完整性问题 , 可以使用前面介绍的方法来解决 。
综上所述
(本文翻译自RichardFarnworth的文章《TheSixDimensionsofDataQuality—andhowtodealwiththem》 , 参考:)
推荐阅读
- 1688|华为胜出!最新数据下的成功,特朗普承认此番禁令“特不靠谱”
- 不束人间|shopee店家如何分析店铺后台数据?更好的针对优化
- 爱分析|非结构化数据中台的革命性创新,突破海量数据管理困局
- 水哥爱搞机|苹果数据线却很快就坏?,华为延长TypeC接口寿命
- 数据宝|江阴市蝉联榜首,国产芯片封测龙头竟诞生于此,百强县A股公司排行榜出炉!合计市值抵得上特斯拉+美团+京东+网易+百度
- 甜腻的嘴角|「看点」宁德时代投资成立智能装备制造公司安脉时代
- 拙言|多屏协同很实用!,感觉这样用平板更爽:传输数据靠畅连
- 每日科技果粉|Graph启动激励测试网,参与者有机会获Graph代币奖励,数据索引项目The
- 王石头|只比华为多一些!,小米手机出货量暴跌?最新权威数据显示
- 兵器数据库|撑死一年也就130架,为何不能自动化生产?,F-35脉动生产线