梁建章:用统计学思维确定防疫隔离天数

当前 , 中国正在倾全国之力来控制疫情 。 可喜的是 , 很多地区的疫情开始趋于稳定 。 但与此同时 , 整个社会也在为此付出高昂的经济代价 。 如何在防治疫情和恢复之间找到平衡点 , 会成为目前乃至今后一段时间内的难题 。 至于解题的关键 , 就是需要来精准计算不同措施的综合成本和各种情况的概率 。 从根本上看 , 传染病其实是个随机事件 , 所以在防治疫情的过程中 , 我们需要运用更多统计学的概念 , 来帮助各方面理性对待各种随机现象 , 从而避免过度恐慌 , 做出正确的判断和决策 。 下面我们举两个例子: 有关潜伏期的担忧 比如 , 钟南山团队近日在网站上发布最新论文 , 披露了针对1099例新冠病毒感染者的回顾性研究成果 。 这篇论文对未来的疫情防治工作提供了重要的决策支持 , 但其中提到的潜伏期最长可达24天的结论 , 却引起不少人的恐慌——原来不是一直说潜伏期最长14天吗 , 现在怎么变成24天了?到底是前面的结论错了 , 还是病毒已经变异得更加可怕了?当前各地执行的14天隔离期是否需要延长到24天? 其实大可不必如此恐慌 , 几乎所有涉及到群体生理乃至其他特征的结论 , 都具有一定程度的不确定性 。 要更好地理解这些结论的意义 , 需要对统计学知识有个基本的了解 。 在流行病学中 , 疾病的潜伏期通常可以用对数正态分布来近似 , 这种近似的合理性往往可在病原体繁殖动力学上得到一定解释 。 简单来说 , 这相当于假设 log(潜伏期) 服从正态分布 。 对数正态随机分布都存在一个长尾 , 尽管长尾部分的概率很小但不是零 , 如果样本量足够大 , 长尾部分的小概率事件还是有可能发生的 。 钟南山团队在论文中提到潜伏期的中位数为3.0天 , 这意味着 log(潜伏期) 的均值为1.1 。 在均值已经确定的前提下 , log(潜伏期)的标准差越大 , 潜伏期的尾部概率也越大 。 根据钟南山团队的论文 , 1099例中潜伏期最长为24天 。 我们使用蒙特卡洛模拟方法可以推算出 , 当 log(潜伏期) 的标准差为0.64 , 1099例中最长的潜伏期的中位数为24天 。 这个对数正态分布中 , 百分之九十以上的患者的潜伏期在7天以内 。 (具体计算:(Log 7-log 3)/0.64= 1.32σ , 可以查正态分布的计算表格 , 就可以得到超过1.32个方差以外的概率10%) 我们还可以模拟出 , 任意一个病例的潜伏期超过14天的概率为0.838% , 超过24天的概率为0.062% 。 显而易见的是 , 观察到的病例越少 , 这些病例中的最长潜伏期也越短 。 如果我们只观察83个病例 , 那么其中最长潜伏期的中位数就只有14天 。 如上所述 , 当观察病例达到1099时 , 最长潜伏期的中位数就会达到24天 。

梁建章:用统计学思维确定防疫隔离天数

所以 , 不用质疑钟南山以前的结论 , 或者据此担心病毒发生了变化 。 其实还是同样的病毒 , 同样的潜伏期随机分布 , 只是在样本量增加之后 , 长尾的小概率事件就有可能发生 。 专家们当然还会据此进行更深入的研究 , 而普通人却不必为极小概率而过度恐慌 。 做个简单的类比. 如果观察1000人 , 最高的身高可能是1.9米 , 如果观察10000个人 , 最高就可能超过2米 , 我们都知道 , 世界上存在着身高2.2米以上的人类 , 然而 , 在实践中的建筑标准只要房门高度达到2.0米就够了 。 同样的道理 , 不要因担心现有的检测和隔离制度会因为一两个极端病例而被彻底颠覆 。 有关气溶胶的担忧 近期还有一个引发了不少恐慌情绪的关键词 , 叫做“气溶胶” 。 因为曾有人公开表示 , 目前确定的新冠肺炎传播途径 , 除了原先众所周知的直接传播和接触传播之外 , 还有气溶胶传播 。 一时间人们又变得紧张了起来 , 以为只要感染者曾经路过某个区域 , 然后由其呼吸所产生的“气溶胶” , 就可能导致之后途经该区域的其他人感染病毒 。 对于这种“气溶胶传播”的说法 , 之后又有其他权威专家表示 , 目前尚没有证据显示新型冠状病毒通过气溶胶传播 。 但即便在澄清之后 , 部分公众仍然对于这个概念心有余悸 。 其实在我们看来 , 这种情绪同样属于过度恐慌 。 至于消除恐慌的关键 , 依然是怀着科学精神 , 从统计学的角度来寻求答案 。 病毒传播其实也是一个随机事件 , 不排除有极小概率以某种特殊方式进行传播 , 但关键是概率到底有多低?如果在现有已经确诊的几万个病例中 , 仅有几例是因为特殊方式被传染的 , 那么更精确的表述 , 应当是在四个九的可靠性下 , 病毒只是通过近距离途径传播 。 至于“气溶胶传播” , 如果仅仅存在理论上的可能性 , 实践中却很难达到符合条件的场景 , 那么对于绝大多数人来说 , 仍然只是极小概率的威胁 。 还有 , 我们在看待各类数据的过程中 , 还必须把各种测量误差考虑进去 。 在目前的检测中 , 必然存在一定数量的假阴性和假阳性的误差 。 假设 , 现有检测方式存在假阳误诊概率(即没有患病的情况下被错误诊断) , 人群中又有一定比例的人具有一般感冒的症状 , 当我们测试几十万到几百万的人群时 , 不免有相当数量的被确诊 , 但是实际真的只是普通流感患者 。 而且这些误诊的人完全没有到武汉或者紧密接触武汉的历史 。 如果硬是要把这些误诊的人寻找传染源的话 , 那就需要侦探小说的想象力 , 会夸大了这个病毒的真实传染性 。 又会引发新一轮的没有必要的恐慌 。 结论 所以说 , 消除恐慌最有效的方式 , 就是学会从研究概率和统计学的角度来看待消息 。 公众千万别因为外界对于少数不幸事件的聚焦 , 就丧失从整体统计中获取信心的思考 。 更为重要的是 , 决策者也需要以冷静而客观的态度 , 来分析目前呈现出来的各项数据 , 据此在制定政策时实现平衡 , 避免在过度恐慌的背景下出现极端做法 , 为追求所谓的“零风险” , 而彻底牺牲其它领域 , 导致整个社会为此付出过于高昂的成本 。 正如我们之前文章中所分析的那样 , 如果经济遭受沉重打击 , 那么由此产生的副作用 , 最终也会导致人均寿命的下降 , 以另一种形式付出生命的代价 。 还有些情况下 , 过度恐慌所造成的极端决策 , 会直接导致其他各类风险的上升 。 比如曾有新闻报道提及 , 在湖北省黄冈市黄梅县 , 母亲要带着女儿接受白血病的二期治疗 , 却因为封路而无法前往武汉 , 险些造成悲剧 。 我们在隔离方面也是要更加精准 。 目前对于很多返程人员 , 部分地区要求一律自行隔离14天 。 表面上看 , 这自然是为了将风险降到最低点 。 但实际上 , 返程人员到底来自疫情严重地区还是其他地区?返程之前在当地是否接受过隔离?这些变量会导致传染风险出现天差地别的变化 , 如今一刀切地全都要求隔离14天 , 显然并不是最科学的做法 , 同时也可能稀释基层日趋紧张的防治资源 。 现在很多地方 , 交通设施和小区采取以户籍作为隔离依据的粗暴方式 , 使得很多人在各地被重复隔离甚至无家 。 更为理性而有效的做法 , 应当在国家出面 , 组织专家 , 出台评估风险的相关规则以及针对不同风险等级的不同措施 , 避免各地制定重复和过激的限行和隔离政策 。 政府还可以利用移动通信技术 , 根据个人在短期内的旅行轨迹 , 来估算相关人员的感染风险 , 进而作为各地采取限制措施的依据 。 如果国家的隔离和限行规则能够执行到位 , 确保现在进入低发地区的人都是低风险的 , 那么在这些地区也不需要大面积带口罩 , 这样口罩也就够用了 。 另外隔离时间也不应追求要做到零风险 , 对于无症状者甚至不需隔离14天 , 只要下降到和当地普通人群差不多就可以放行 。 按照我们本文简单模拟估算的数学模型 , 隔离7天就能成功排查出百分之九十以上的感染者 , 也就是说把风险降低到了只有原来的百分之十 。 如果 , 对于很多人群可能隔离7天就够了 , 那么就会大幅降低经济和社会成本 。 (需要提醒读者的是 , 我们的模型只是基于钟南山的文章非常有限的几个数据 , 一线的专家应该可以给出更加精确的模型) 未来这段时间里 , 疫情防治即将进入最关键的攻坚战 。 值此时刻 , 对任何一种随机事件的描述 , 都应该从概率和统计的角度进行考虑 , 要理解随机事件不可能实现绝对的零风险 , 并且避免为不切实际的追求付出额外代价 。 相信所有人都希望 , 整个社会最终能用最小的代价 , 来获取最好的疫情防治效果 。 要想实现这个目标 , 就需要综合各类数据进行精准的统计和概率计算 , 帮助我们制定科学理性的控制疫情的政策 。


推荐阅读