热心肠先生|王军:25分钟漫谈菌群研究中的大数据和人工智能( 二 )


而右边同样是高维度的数据 , 只不过这次我们看到的是宏基因组 , 也就是我们肠道或者其他地方微生物组的组成以及功能的数据 。
比如说在这张图里面 , 我们发现肠道菌群是我们研究最多的一个菌群 , 但它其实并不是最有代表性的一个菌群 , 我们的皮肤、我们的呼吸道 , 甚至生殖道系统等等 , 它们的菌群是和消化道完全不一样的 。 虽然对于它们的研究相对来讲比较少 , 但是在健康领域 , 在对人的健康和疾病的影响方向 , 它们的重要性一点都不逊于肠道微生物组的贡献 。

热心肠先生|王军:25分钟漫谈菌群研究中的大数据和人工智能
本文插图

过去的 10 多年是我们能够获取这些数据的能力快速增长的 10 多年 , 因为我们有了一个 game changer , 这就是在生物医学领域有着突破性变革的第二代测序技术 , 或叫下一代测序技术 。
在 16S rRNA 作为宏基因组的主要 Marker 的基础之上 , 我们开始对于微生物组全新的、更全面的这种研究也是全靠第二代测序技术 。
热心肠先生|王军:25分钟漫谈菌群研究中的大数据和人工智能
本文插图

它的发展使我们能够获得与之前相比完全不是一个等级的 16S rRNA 的数据量 。
之前我们可能用好几周 , 甚至好几个月的时间才能获得几十条、几百条的细菌的 16S rRNA 的数据 。 但是我们现在通过一次二代测序就可以获得几万条、几十万条 , 甚至更多的这种数据 , 我们可以一次获得很多生境里面主要的代表性细菌的这种分类学组成 , 就知道什么细菌在那个地方 。
除了做 16S 这种传统的、比较保守的生物学 Marker 之外 , 我们还可以进行全部的宏基因组的 DNA , 甚至 RNA 的分析 , 随之就产生了宏基因组和宏转录组这样的一些代表性研究 。
在这个研究里面我们通过对 DNA 或者是 RNA 反转来的 cDNA 这种全部的测序 , 明确了很多微生物组在更精细的水平上的组成以及它们究竟发挥什么样的功能 。
在中间还有一个非常小的模块叫做病毒组学 , 病毒组学也是随着二代测序技术的发展逐渐发展起来的这样一个学科 。 但是我们现在对它的这种投入以及对它的了解还是相对比较少的 , 主要还是一个方法学上的一些限制 。

热心肠先生|王军:25分钟漫谈菌群研究中的大数据和人工智能
本文插图

在生物信息学利用这些数据的历史上 , 可能最大的就是人类基因组学的这样里程碑式的一系列研究 。
在本世纪初的时候 , 我们成功破解了人的基因组 , 随后我们从几个人的基因组 , 就慢慢发展到了几十个几百个 , 甚至几千个人的基因组 。 比如说有一个专门的项目叫做 1k genome project——1 千人基因组的研究 。
后来 , 又有一些国家发展了国民基因组计划 , 比如说英国 , 比如说冰岛等等 。 这些国家相对来讲人口要比我们少很多 , 特别关注整个国民的基因组组成 , 所以他们提出了非常大的这种测序计划 , 包括 Genomics UK 这样测序超过 1 万人的基因组测序项目 , 以及现在仍然在进行的冰岛测序项目 。
冰岛人口相对来讲是非常少的 , 然后通过这个项目他们可以实现整个国民 10% , 甚至更多的这种基因组的研究 , 并且在这个项目里面也发现了非常多有意思的现象 , 大家有兴趣的可以去看专门的科普报道 。

热心肠先生|王军:25分钟漫谈菌群研究中的大数据和人工智能
本文插图

同样在宏基因组的研究方向 , 我们也有一系列这种地标性质或者是里程碑式的研究 , 最有代表性的就是著名的人类微生物组计划(Human Microbiome Project) 。
世界上很多的实验室和科学家共同解析了人类微生物组的图谱 , 包括我们最常见的肠道微生物组 , 包括我们的呼吸道、生殖道 , 以及其它地方的微生物组等等 。


推荐阅读