AI能为科学研究做什么


AI能为科学研究做什么

文章插图
陈永伟/文
从蛋白质的结构说起
在生命过程中,蛋白质扮演着十分重要的角色 。一方面,它是生物体的构造师,小到一个细胞,大到各种器官,都需要由蛋白质来构造 。另一方面,它还是很多生命活动的重要参与者,无论是在生物体内进行物质传输、对各种生化过程进行催化,还是对来自体外的侵袭进行抵抗,都离不开蛋白质的参与 。
目前,人类已知的蛋白质达到了两亿多种,每一种蛋白质的三维结构都不相同,而它们的功能差异就是由这些不同的结构决定的 。例如,人们出于滋润补水、护肤嫩肤的需要,经常会设法补充胶原蛋白,其奥秘就在于这类蛋白的结构类似于一股拧起来的绳子,因而具有很强的韧性,从而可以在软骨、韧带、骨骼和皮肤之间传递张力 。又如,我们免疫系统中的抗体蛋白大致上呈现了一种Y型的结构,并能够形成独特的钩状,这就使得它们可以附着在病毒和细菌上,对致病微生物进行检测、标记及消灭 。正是因为蛋白质的结构和功能之间存在着以上这样的关系,因此从上世纪中期开始,对蛋白质结构的探索就成为了生物学家研究的一个重点 。
1961年,美国国立卫生学院的研究员安芬森(ChristianAnfinsen)发表了一篇论文,对其进行的一项实验进行了介绍:在实验中,他将牛胰核糖核酸酶蛋白分子用变性试剂打开,将二硫键还原成巯基,由此,蛋白质原有的折叠结构就被破坏了,酶的活性也随之消失 。然后,他将装有实验样品的烧杯暴露在空气中过夜 。令他惊奇的是,在经过一夜的放置之后,酶的大部分活性恢复了,被破坏了结构的蛋白质又折叠成了原来的样子 。这有多奇怪呢?大致上就相当于我们将一朵由铁丝编织成的花用老虎钳拉直,但在经过一段时间之后,却发现那段已经被拉直的铁丝竟又自己变成了一朵花!
为什么会出现这样的情况呢?安芬森给出的一个猜想是:这或许说明了蛋白质多肽链中氨基酸的排列顺序,也就是所谓的蛋白质一级结构决定了它最终的三维结构——当一级结构决定后,多肽链会服从热力学的定律,自动折叠成能量最小化的状态 。在后来的生物学研究中,安芬森的上述猜测被归纳为了“安芬森法则” 。1972年,安芬森凭借着这个重要的法则斩获了诺贝尔化学奖 。
对于研究者而言,安芬森法则指出了一个重要的研究方向,即“蛋白质折叠问题”:既然蛋白质的三维结构取决于其一级结构,那么,从理论上讲,人们就可以根据分子间的能量优化法则通过蛋白质的一级结构来对其三维结构进行预测 。由于蛋白质的功能很大程度上取决于其结构,因此如果人们可以充分了解蛋白质的三维结构,就可以按图索骥地寻找,甚至创造自己所需要的蛋白质 。很显然,由此带来的想象空间是十分巨大的 。
然而,正所谓“理想很丰满,现实很骨感” 。尽管乍看之下“蛋白质折叠问题”的潜在价值十分巨大,不过由于组成蛋白质多肽链的氨基酸数量都很庞大,因此要通过其结构来预测蛋白质的折叠是非常困难的 。所以安芬森法则指出的道路看似光明,但在很长时间内,却成了一条少有人走的路 。
相比之下,生物学家们似乎更倾向于用直接观测的方法来探索蛋白质的结构 。从早期的X光衍射法到新近的冷冻电镜法,随着实验器具的日益发展,人们通过实验探索蛋白质结构的能力也日渐提高 。但尽管如此,相比于蛋白质庞大的种类量,人们用实验探索蛋白质结构的努力只能算是杯水车薪 。
2018年,转机出现了 。在当年11月举办的第13届全球蛋白质结构预测竞赛(CASP)上,DeepMind的AI程序AlphaFold成功地对43种蛋白质中的25种的结构进行了预测,由此在98名参赛者中获得了第一 。而相比之下,第二名只预测准确了3种蛋白质的结构 。更值得一提的是,在对某些蛋白质结构的预测中,AlphaFold得到的结论甚至比用X光衍射法和冷冻电镜法观测到的结论更为准确 。
AlphaFold是靠什么获得了如此优异的成绩呢?其实,它用的方法很简单:学习大量蛋白质的序列和结构数据,从中寻找氨基酸分子之间的相互作用,以及蛋白质片段之间的演化关系,然后再按照找到的规律对蛋白质的结构进行预测 。
初战告捷之后,AlphaFold不断从生物学、物理学和机器学习领域的最新进展中汲取灵感,以此来升级自己的算法,其预测能力也获得了很大的提升 。2022年7月28日,DeepMind在其官网发布了一篇名为《AlphaFold揭示蛋白质宇宙的结构》(AlphaFoldrevealsthestructureoftheproteinuniverse)的新闻,宣布AlphaFold已经对几乎所有已知蛋白质的结构做出了预测 。随后,又将所有预测的蛋白质结构放到了网上,供科研人员自行下载使用 。据不少下载了数据的科研人员反映,这些数据的准确率非常高 。


推荐阅读