科学大家@世界是确定还是随机?如何巧妙用数学调查传染病?( 三 )


随机系统的应用
我们可以利用随机系统的性质做一些真正有意义的统计 。
例如 , 某个防疫部门需要以问卷形式统计某个传染病的发病情况 , 比如性病、肺结核等 。
但出于对自己隐私的保护 , 调查对象可能不愿意对问卷上的有关问题进行如实回答 , 即使调查结果不会对外公布 。
那该如何完成这项调查呢?
利用随机的性质 , 我们有一个简单的解决办法 。 给每个调查对象一个骰子 , 在回答问卷前自己投骰子 , 如果骰子出现的结果是1、2、3、4 , 就如实回答;如果骰子出现的结果是5、6 , 就一定要撒谎 。
由于收问卷者并不知道每个人投骰子的具体情况 , 他也就不知道问卷上的答案是真是假 。 被调查者因此也可以毫无顾虑地回答问卷 。
此时 , 尽管每个人的回答都是随机的 , 但按照前面讲的原理 , 整体的统计数据可以非常精确 。
假设3万份问卷里有1.2万人回答有传染病 , 那么真实情况下应该是多少人?误差会有多大?
我们不妨来计算一下:假如真实情况下有病的人数为x , 假定精确地有2/3如实回答 , 1/3撒谎 , 则回答有病的人应该是:
x?2/3+(30000-x)?1/3=12000
解这个方程可以得到x=6000 。
由于每一次投骰子是一个随机的过程 , 所以有病的人数不一定是精确的6000人 。 假如置信区间放在95% , 那么我们算出 , 这个统计结果的误差上下不超过139人 , 即真正有病的人数范围为6000±139;把置信区间放大到99% , 最大的可能的误差也就是200人左右 , 所以统计结果还是相当可信的 。
大数定理与中心极限定理
从上面的例子我们可以看出 , 随机系统中存在的确定性比想象的要强得多 。 在物质世界中 , 每个原子、分子都有很大的不确定性 , 但是把大量的原子、分子放在一起 , 这种不确定性就会消失 , 展示出非常强的确定性 。
比如说抛100万次硬币 , 在置信度为0.26%(即±3δ)的情况下 , 正反面出现次数的平均值误差不会超过0.015 。
有一些数学理论揭示了随机系统的一些非常好的内在规律 , 而其中最好的也是最简单的一个是大数定理 。
大数定理告诉我们 , 一个实验重复次数多了 , 或者数据量大了以后 , 数据的平均值将会越来越接近数据的期望值 。
中心极限定理是比大数定理更加精确的一个数学理论 。 它在形式上比大数定理要稍微复杂一点 , 但其实也很简单 。
我们仍然考虑抛硬币的例子 。 假设正反面出现的概率各是50% , 正面记录为0 , 反面记录为1 。
科学大家@世界是确定还是随机?如何巧妙用数学调查传染病?
文章图片
扔硬币概率分布1
扔第1次 , 记录为0的概率是50% , 为1的概率也是50%;[见图(1)]
扔第2次 , 记录为0的概率是50% , 为1的概率是50%;对前两次结果取平均 , 平均值为0的概率是25% , 为1的概率是25% , 另外还有50%的概率为0.5 。 [见图(2)]
扔第3次 , 对三次结果取平均 , 平均值为0(即记录为000)或平均值为1(即记录为111)的概率都很小 。 [见图(3)]
……
扔100次取平均 , 平均值的分布是中间突出 , 两边特别小 , 一百次全是0或全是1都基本上不可能 。 [见图(4)]
科学大家@世界是确定还是随机?如何巧妙用数学调查传染病?
文章图片
扔硬币概率分布2
如果我们换一个重量分布不均的硬币(一头重一头轻) , 其正反面出现的概率是不一样的 。 有趣的是 , 用这个非均匀硬币抛100次所得平均值的概率分布图形与之前抛均匀硬币100次所得到的概率分布图形在形状上几乎是一样的[图(4)与图(8)] , 都很像教堂里的钟 。
中心极限定理是说 , 不管原来的概率分布是怎么样的 , 只要满足一些基本的性质要求 , 一次次重复实验 , 最后的平均值都呈现出钟形的分布 。


推荐阅读