科学大家@世界是确定还是随机?如何巧妙用数学调查传染病?( 二 )


假设老师在概率课上布置作业 , 要求学生课后抛200次硬币 , 并把结果记录下来 。 下面是小张的记录 , 其中0代表硬币正面 , 1代表硬币反面 。
小张的这个数据记录有非常大的可能性是在造假!也就是说他根本没有去抛硬币 , 而是随意写出了这串数字 。
为什么认为小张是在做假呢?可以用最简单的办法来分析:数一下这个记录中0和1出现的次数 。
我们发现这串数字有111个0 , 89个1 , 也就是说小张200次抛硬币的结果中有111次出现正面 , 89次出现反面 。 计算一下就会知道 , 这个结果的可信度非常低 , 低于1% , 也就是说可能性不大 。
抛硬币得到任何一串0、1数字都是有可能的 , 但是有些数字串出现的可能性非常小 。
比如抛200次 , 每一次出现的都是0 , 或者每一次出现的都是1 , 这种情况基本上是不可能的 。 全是0或全是1的记录基本上可以肯定是造假的 。
我们再看看小李的记录:
几乎可以肯定 , 小李也在造假 。 我们首先来数一下小李这个记录中0和1的个数:101个0 , 99个1 。 好像一点问题都没有 , 正面和反面出现的概率差不多 。 但是 , 我们发现在这个记录中 , 111出现了三次 , 而1111一次都没有出现 。
我们可以去计算一下 , 抛200次硬币的过程中 , 出现111的次数小于或等于3的情形的可信度非常低 , 低于千分之一;一次1111都没有出现的可信度低于百分之一 。 所以 , 几乎可以肯定小李的记录也是随便做出来的 , 尽管他把0和1的概率设置得差不多 , 但其它方面还是存在问题 。
也许有人可以伪造一些记录出来 , 把111和1111出现的频率也进行适当调整 。 但是在200个数字里面 , 不仅是111和1111 , 我们还可以再看010出现的次数 , 或者101出现的次数 , 这些都是有规律的 。
我们看到 , 假如不真正去抛硬币而是想伪造出抛硬币的结果 , 这其实是非常难的 。 最简单的方法就是老老实实地去抛硬币 , 然后把结果写出来 , 这个时候数据内在的统一性才会体现出来 , 不然很难做到 。
如何用大数据发现论文造假
我们经常会看到科学文献里有一大堆的数据 , 其中不乏数据造假的情况 。 同样的道理 , 造假的时候没法做到数据的统一性 。 所以 , 我们可以用大数据来打假 。
假如下面是一组从某实验室得来的数据 , 总共有40个数字:
科学大家@世界是确定还是随机?如何巧妙用数学调查传染病?
文章图片
我们可以发现:
(1)每个数都有7位数字 , 包括小数点后面的6位数字;最后一位数字为0的一个都没有 。
从心理上分析 , 造假者为了把小数点后的每个数字都写出来 , 一般来说他放的0就会非常少 。 而一组真正从实验中得来的数据 , 40个数字中一个0都没有的概率是非常小的 。
(2)倒数第二位没有一个1 。
这种情形出现的概率也是非常非常小的 。 一般的物理数据或任何通过实验得到的数据 , 精确的有效数字可能只有前面两三位数字 。
在一些比较精确的实验中 , 可能有效数字更多 , 而其他一些实验里的有效数字比较少 。 假如说上面的例子中有效数字是三位 , 其后面几位数字基本上是随机的;即使有效数字是四位 , 那最后面的三位数字也是比较随机的 。
一般的实验数据 , 最后几位数字都是比较随机的 。 所以 , 最后一位数不出现0的概率就非常小 。 我们可以用这种方法去找有可能做假的文章来进行打假分析 , 且数据量越大 , 打假就越精确 。
我们也可以用一些更简单的办法 。 刚才这组数据总共才40个数字 , 这个数据量是比较小的 , 统计规律有时候不是那么明显 。 但我们可以不按照0、1、2、3、4、5、6、7、8、9来分 , 而是分成奇数和偶数两大类 , 这个时候它的统计规律会比较明显 。 或者可以把数据用二进制表示 , 此时某一位置上数字的统计规律就会体现得非常强 。


推荐阅读