热心肠先生|王军:25分钟漫谈菌群研究中的大数据和人工智能


编者按:
今年的 5 月 20~21 日 , 达能纽迪希亚和热心肠研究院联合搞了一场特别的会——邀请了 8 位重量级专家出镜发表线上演讲 , 作为为期 8 天的第六届纽迪希亚生命早期营养国际研讨会(首届云端高峰论坛)的组成部分 。

热心肠先生|王军:25分钟漫谈菌群研究中的大数据和人工智能
本文插图

今天我们特别整理并发布王军老师的演讲视频及图文实录 , 以飨读者 。
以下是图文实录:

热心肠先生|王军:25分钟漫谈菌群研究中的大数据和人工智能
本文插图

各位老师同学 , 大家下午好 , 非常高兴能在这样一个虚拟的平台跟大家交流我们自己在微生物组领域的一些见解 。
本演讲的幻灯片 .pdf 版将在热心肠菌群微信群分享 , 感兴趣的读者请按以下方法申请入群:
大家可能听说了 , 我们国家现在正在进行新一轮基建 。 其中非常重要的几个发展点就是大数据、5G 以及人工智能等方向 。 关于微生物组的研究其实我们也正在利用这些新的发展点 , 包括数据的增长 , 包括人工智能的发展等等 。
所以 , 今天在这里面给大家讲一下我们自己的一些粗浅的见解 。

热心肠先生|王军:25分钟漫谈菌群研究中的大数据和人工智能
本文插图

我们现在的生活已经被大数据所包围了 。 我们的医疗数据是大数据 , 我们的出行数据是大数据 , 我们的经济行为、购买行为都是大数据 。
这些大数据不光是能够给很多我们自己的行为进行描述 , 同时也给很多的商家、很多的政府机构提供了一个非常宝贵的机会来进行一些新政策的指导 , 比如一些刺激消费政策的提出 。
同时我们也知道 , 这种大数据的发展是会持续地发展的 , 所以我们真正的是在大数据时代的一个最蓬勃发展的时期 , 但是同时也是相对来讲比较初期的这样一个阶段 。

热心肠先生|王军:25分钟漫谈菌群研究中的大数据和人工智能
本文插图

大数据有这么几个特征 , 我们叫做 Big FOUR 。
Big FOUR 的话 , 就是它的量很大 , 它的 Volume(大量)很大 , 它的 Velocity(高速)就是速度也会很快 , 数据传输可以实现百兆、千兆 , 甚至万兆每秒的这样一些传输速率 。
Variety(多样)是说我们有什么样类型的数据 , 比如说我们看到的这些社交媒体大数据是我们自身交流信息 , 还有生活状态的一些内容 , 包括我们微信朋友圈 , 还有一些经济的数据 , 比如说我们花钱买什么 。
我们自己以及很多做基础医学研究的人最关心的其实是人的健康数据 , 这些数据有多少 , 牵涉到我们什么样的方面 , 同时我们能用这些数据再去做什么 。
最后一个就是 Veracity(真实性) , 就是我们能用这些数据 , 再去延伸做什么 , 就是它的这种多样性、它的这种可用性以及这些数据之中的一些价值 。

热心肠先生|王军:25分钟漫谈菌群研究中的大数据和人工智能
本文插图

我们自己在做的主要的两大类数据:一个是人自身的基因组数据 , 包括这种基因变异的数据;另一个呢 , 在微生物所这样全国领先的微生物研究机构 , 所研究的微生物组学数据 。
在过去的 20 年左右 , 我们首先对于自身的基因组有了初步并且快速发展的这样一个认识 。 我们从最早的几个人的基因组 , 慢慢地发展到几千人、几万人 , 甚至十几万人的基因组信息 。
在左边这张图上 , 我们可以根据这些信息很明确的分出来各个地域、各个不同民族之间有明显的这种基因组上的区别 , 包括一些单碱基的变异和一些大规模的变异等等 。 通过这些数据 , 我们其实就可以反推出他们之间相互的这种亲缘关系 , 以及他们在历史上的变迁、 相互的通婚和交互等等 。


推荐阅读