@为什么大数据项目总失败?你没问对这四个问题

当今时代 , 数据已经成为我们经营业务的核心手段 。事实上 , 据全球市场情报公司IDC预计 , 到2020年 , 全球花费在数据分析项目上的支出将达到2743亿美元 。然而 , 其中的大部分钱并没有得到合理地利用 。据高德纳咨询公司(Gartner)的分析师尼克?赫尔德克的估算 , 高达85%的大数据项目是失败的 。
问题的重点在于 , 出现在电脑屏幕上的数字具有一种特殊的权威感 。一旦数据通过大量的数据库被提取出来 , 并通过复杂的分析软件进行分析 , 我们就几乎不再会去关心这些数据究竟来自哪里 , 它们究竟是如何被修正的 , 更不会去关心它是否真正适用于我们的研究目标了 。
@为什么大数据项目总失败?你没问对这四个问题
文章图片

文章图片

因此 , 实际上 , 要想从数据中得到有用的答案 , 我们便不能只看到它表面的数据值 。我们需要学会如何提出更加深层的问题 。我们尤其需要知道这些数据是如何得出的 , 我们用了什么样的模型来分析它们 , 以及在这一分析过程中究竟遗漏了什么 。最重要的是 , 我们需要超越仅仅使用数据来优化操作程序的做法 , 并学会利用数据来构思新的生产可能性 。
我们要问的第一个问题是:
一、数据是如何得出的?
据说 , 数据一词是“奇闻轶事”的复数形式 。英语中有一句俚语 , 叫“很多奇闻轶事聚在一起就成了数据” 。的确 , 真实世界的各种事件 , 如交易记录、诊断结果和其他诸多相关信息 , 都被一一记录下来 , 并存储在大型服务器之中 , 这就是数据 。但几乎没人会关注这些数据究竟来自哪里 , 因此 , 非常不幸的是 , 我们收集到的数据的质量和处理方式可能会有很大差别 。事实的确如此 , 高德纳咨询公司最近的一项研究揭示出 , 由于收集到的数据质量太差 , 每个公司平均损失竟然高达1500万美元 。
一般来说 , 数据的准确性会受到人为错误的影响 , 例如当低工资和动力不足的零售职员检查库存时 , 他们收集到的数据就往往并不准确 。然而 , 即使数据收集过程是自动化的 , 也仍然会有很多的错误来源 , 比如手机信号塔的间歇性停电就会造成错误;在金融交易清算过程中运用自动化的信息收集方式同样可能产生错误 。
质量过差的数据和用于错误语境的数据可能比根本没有数据更为糟糕 。事实上 , 一项研究发现 , 65%的零售商库存数据是不准确的 。而自欧盟通过并发行了严格的GDPR(通用数据保护条例)数据标准以来 , 另一个日益重要的问题逐渐浮现:在收集数据时是否得到当事人适当的同意 。
因此 , 不要简单地认为你所拥有的数据是准确的和高质量的 。你首先必须关心它是从哪里得来的 , 以及它是如何维护的 。我们越来越需要像做金融交易一样 , 小心谨慎地审查我们的数据处理方式 。
二、数据是如何分析的?
即使数据得到了准确和良好的维护 , 数据分析模型的质量也会有很大差异 。一般而言 , 各种数据分析模型是通过开源平台(如GitHub)组合在一起 , 并要为特定的分析任务进行重新的组合部署 。但是 , 过不了多久 , 人们就忘记该模型究竟来自何处 , 也不再关心它究竟是如何评估特定的数据集合的了 。
类似于这样的失误要比你所能想象到的更为常见 , 并且有可能造成严重的损失 。我们可以回顾一下如下案例:曾经有两位著名的经济学家发表了一份工作报告 , 警告说美国债务即将面临一个关键的节点 。他们的工作引发了一场政治风暴 , 但事实证明 , 他们犯了一个简单的Excel错误 , 导致他们夸大了债务对GDP的影响 。这就是对数据处理方式的失误造成的 。
随着数据处理模型变得越来越复杂 , 并纳入了更多的数据来源 , 我们也越来越能看到 , 在数据模型的训练上不断出现更为严重的问题 。最常见的错误之一是过度拟合 , 这大体意味着 , 用来创建模型的变量越多 , 模型本身就越难变得普遍有效 。而在某些情况下 , 过量的数据会导致数据泄漏 , 在数据泄露中 , 训练数据和测试数据搅和在一起了 。


推荐阅读