真实的谎言——我们是如何被事实和数字欺骗的?( 四 )



平均数只是描述一个总体的一个指标 , 当这个总体分布相对均匀的时候 , 平均数是有意义的 , 而当其分布及其不均匀时 , 用平均数试图描述每个人状况就不适合了 , 这时候中位数和众数在某种意义上更能体现分布 , 中位数指整体有一半比这个数高 , 另一半比这个数低 , 众数是指整体中分布最多的数 。

我们看一个实际例子 , 假如你们宿舍5个人 , 毕业十年后 , 一个人失业 , 月工资0;

一个人当老板 , 一个月100万;
另外三人一人月入6万;

所有人月薪为0、8、8、8、100万 , 这时候平均数为24.8万、中位数为8万 , 众数也是8万 , 显然 , 中位数8万和众数8万这两个数更能描述你们宿舍的实际情况 。

嗯 , 马云可真有钱 , 我和王健林加起来还没有他多 。
六、把相关当因果的谎言


在很多媒体在报道数据的时候经常一个误导读者的方式就是把相关关系错当成因果关系 , 的确这两个关系在现实中特别容易混淆 。

观察到经常看电视的孩子最暴力 , 就直接下结论说电视使孩子们变得更加暴力 , 而可能存在的另一个原因是暴力的孩子更喜欢看电视 。
中世纪欧洲一直认为虱子能预防风伤感冒 , 因为观察到感冒的人身上通常没有虱子 , 而事实上是虱子对体温特别敏感 , 如果人发烧了 , 虱子就离开了 。

在医学界一个典型的案例——医学观察发现使用激素替代疗法的治疗冠心病的女性复发率率明显低于平均水平 , 于是很多医生认为这个疗法肯定比其他疗法更好 , 但之后的随机医学试验证实恰恰相反 , 这个疗法效果甚至还不如普通疗法 , 那么这是为什么呢?

原来是因为该疗法前沿且价格高昂 , 而接受这一疗法的女性通常社会地位和财富地位相对较高 , 而她们的饮食习惯的健康程度和运动量也高于普通人 , 因而复发率低于普通人 。

为了讲清楚因果和相关这个问题 , 我举一个栗子——比如某个地方车祸次数和黑熊袭击从数据表现上极其相关 , 大家可能第一时间想到的是黑熊袭击导致了车祸的发生 , 但事实上他们可能有四种关系:

  • 黑熊袭击导致车祸发生
  • 车祸发生到底黑熊袭击
  • 车祸和黑熊袭击都由第三方因素(如火山爆发)引起
  • 车祸发生和黑熊袭击完全没有关系
所以之后不要看到相关的数据就认为他们之间一定是因果关系 , 我们要认真分析背后可能的具体原因和逻辑关系 , 国外有一个神奇的网站(https://tylervigen.com/)专门收集那种不可能有联系的虚假相关关系 , 比如这个:

“世界非商用太空发射次数和美国社会学博士授予量呈高度关系”

真实的谎言——我们是如何被事实和数字欺骗的?
文章图片
不要看到“刘姥姥一进荣国府 , 贾宝玉初试云雨情“ , 就瞎想贾宝玉的口味可真重!


推荐阅读