爱因儿科技|教你拆穿所谓“万金油”,数据骗子无处不在( 二 )


爱因儿科技|教你拆穿所谓“万金油”,数据骗子无处不在
文章图片
骗子怎样测试假设
擅长统计并不意味着擅长分析 , 反之亦然 。 如果有人跟你说的与之相反 , 请自行思考 。 如果这个人告诉你 , 你可以对你研究过的数据进行统计推断 , 请再次问问自己 。 他很有可能是个骗子 。
隐藏在天花乱坠的解释背后
如果你在现实生活中观察数据骗子 , 你会发现他们喜欢编造一些天花乱坠的故事来“解释”观察到的数据:故事听起来越学术越好 , 并不在乎它们只是(过分)符合事后的数据 。
骗子这样做完全是胡扯 。 再多的方程甚至是夸夸其谈也无法弥补这样一个事实:他们没有证据表明他们知道自己谈论的内容超过了数据的范围 。 不要被他们天花乱坠的解释蒙骗了 。 如果是统计推断 , 他们就必须在看到数据之前谨慎做出决定 。
这相当于炫耀他们的“通灵”能力 , 先瞄一眼你出的牌 , 然后预测你手上拿着什么牌……无论你拿着什么牌 , 他们都能预测出来 。 做好准备 , 听听他们的花言巧语:你的面部表情如何将你手中的牌泄露给他们 。 这是后见之明偏误 , 它在数据科学领域随处可见 。
分析师说 , “这是你刚才出的方块皇后 。 ”统计学家说 , “游戏开始之前 , 我把我的假设写在了这张纸片上 。 我们开始吧 , 观察一些数据 , 看我假设得对不对 。 ”骗子说 , “我早知道你要出方块皇后 , 因为……”
机器学习说 , “我要一直提前调用它 , 看看我完成得如何 。 然后重复再重复 。 我可能会调整自己的反应 , 从而适应某个有效的策略 。 但我会用某个算法来完成这一过程 , 因为手动追踪这一切实在太烦人了 , ”
爱因儿科技|教你拆穿所谓“万金油”,数据骗子无处不在
文章图片
图源:unsplash
阻止骗子进入你的生活
要处理的数据不算太多时 , 你必须要在统计学和分析学之间做出选择 。 幸运的是 , 如果你有大量数据 , 那么你将有一个绝妙的机会来利用自己的分析和统计信息 , 而不会上当受骗 。 你还可以通过一个完美的计策来让自己免受骗子侵害 , 这叫做“数据拆分” , 笔者认为这是数据科学中最强大的思想 。
为保护自己免受骗子侵害 , 你要做的就是确保某些测试数据处于他们可窥探到的范围之外 , 然后将其他所有内容看作分析学(不要当真) 。 当你面对某种你可能会全盘接受的理论时 , 可以用它来替你做主 , 然后打开你的秘密测试数据 , 看看这个理论是不是一派胡言 。
从人们习惯的时代到“小数据”时代 , 这是一个巨大的文化转变 , 你必须解释自己是如何知道自己所知道的东西 , 才能以一种轻松的方式-说服人们 , 你可能确实知道一些东西 。
同样的道理也适用于机器学习/人工智能
一些伪装成机器学习/人工智能专家的骗子很容易被识破 。 你可以通过识破蹩脚工程师的方法来识破他们:他们反复尝试构建的“解决方案”无法交付 。 (较早的预警信号是他们缺乏行业标准编程语言和库的经验 。 )
但是那些构建出看上去可以正常运行的系统的人呢?你怎么知道事情是否有可疑之处?同样的道理也适用于此!骗子是阴险的 , 他会向你展示他们的模型有多好 , 用的是他们制作模型时使用的数据 。 如果你构建了一个极其复杂的机器学习系统 , 你怎么知道它能不能正常运行呢?你没法知道 , 除非你能证明它可以处理以前从未见过的新数据 。
有足够的数据可以分割时 , 无需改变工整的公式即可证明项目的合理性(这仍然是一种老习惯 , 在任何地方都可以看到 , 不仅仅是在科学领域) 。
进行统计工作或保持谦虚的态度
套用经济学家保罗·萨缪尔森(PaulSamuelson)的一句俏皮话:骗子成功预测了最近五次衰退中的九次衰退 。


推荐阅读