「病毒」新冠病毒到底从哪来?专家梳理了一大堆证据( 九 )


需要注意的是D与E , D是平头的 , E的线长出来一截 , 表示它还有个独特的基因 , 是其他样本没有的 , 拖出来的线越长 , 基因组也就越独特 , C就是这样的例子 。
看上去很简单 , 但如何解读"树"也不能想当然 。 有人看了下面这张图 , 就声称病毒在欧美的传播时间长 , 理由是美国、欧洲的突变数量比中国的高得多 。
「病毒」新冠病毒到底从哪来?专家梳理了一大堆证据
文章图片

先澄清一点 , 突变是一个概率事件 , 偶然性很大 , 病毒基因组小、复制周期短、错误率高、选择压力大 , 甚至有时还不得不考虑回复突变的概率 , 变数很多 。 传播的时间久 , 累积的突变数量多 , 本来也只是一个笼统的说法 , 不能单凭个别数据推算可能的起源时间 , 只能整体估计 。
更关键的是 , 突变数量和起源地真有关系吗?假设A国和B国的疾控条件相同 , 病毒从A国到B国 , 在3个月里总共传了3000人 , 与本身在B国3个月传3000人 , 有本质区别吗?病毒又不认识国境线 。
中国样本的突变数量少 , 最主要的原因是疫情彻底控制住了 , 目前只有前期的样本 , 等于后半部分传播的时间被砍掉了 。
真正和辨别起源相关的是突变的多样性 , 而不是数量 。 一般而言 , 突变五花八门 , 也就是在树上分支多 , 那么很可能更古老一些 。
但对于致病微生物 , 千万不能独立看待突变多样性 , 同样要考虑疾控的影响 。 打个比方 , 病毒在A地传播 , 但传播的人数有限 , 传到B地后 , 疫情失控 , B地的病毒虽然晚 , 复制的机会却比留在A地的病毒多得多 , 那么复制出错的机会也就更多 , 基因多样性也就上去了 。 只有看与A地基因树相连的地方 , 才能反映B地病毒的真正来源 。
有人还指出 , 图上一个高达26个突变的美国样本后来被篡改了 。 这也是"隔行如隔山"导致的问题 。 科学工作者遇到一个奇特的数据 , 也许很兴奋 , 但首先应该质疑数据是否有问题 。 如果确实出现了重大失误 , 理应撤回数据 。
不了解基因测序的人 , 会以为测序必定100%正确 , 其实根本不是 , 把基因打断检测 , 再一点点拼起来 , 真的不容易 。 中国较早提交的Wuhan-Hu-1样本 , 在GenBank里的编号是MN908947 , 版本号是MN908947.3 , 更新了三次 。
当样本多了之后 , 还常有两个国家的样本基因相同的情况 。 我们可以假设下 , 如果一个庞大的分支 , 几乎都来自甲国 , 在基部有A、B两个相同样本 , A的样本取自乙国飞到甲国的病例 , 而且比当地的B发病略早 , 那么正常的推论是:这是一个乙国来的病例 , 甲国疫情失控后 , 导致分支大扩展 。
当然 , 我们不能完全排除一些小概率事件 。 比如甲国首发病人C , 恰好刚感染就出差去乙国传给A , 而且没有突变 , A恰好也是刚感染立即出差去甲国传给了B 。 现在A、B、C序列是一样的 , 而时间也没拉开 , 因此它们在各自国内的传播 , 可能和上一段假设的情况差别不大 , 那么如果C没有被测序 , 而A、B测序了 , 我们就可能得到差不多的树 , 以及相同的从乙国输入甲国的推论 。
唯一的问题是 , 这样的小概率假设 , 科学家不会采信--当然也无法完全排除 。 科学家的谨慎是有道理的 。
另外 , 好几个国家在树的多个分支上都有出现 , 不能简单解读为这些国家是发源地 , 都需要结合流行病学调查 , 看看是否多次输入导致的多样性 。 目前的证据没有颠覆多次输入的推论 。
这么说 , 光看"大树"其实对推测"终极来源"没什么用?事实正是如此 。 "大树"固然是靠基因之间的比较建起来的 , 可在一般情况下 , 后面采集的样本其实主要是在把"树"做大 , 对挖"深"根部没什么帮助 。 也可以拟合曲线 , 看看可能的最早分化时间 , 但这是比较粗糙的估计 。


推荐阅读