蛋白质|只需一块RTX2080 10分钟就能算出蛋白质结构( 二 )


比对序列进一步组合8 blocks的结构模型,从而直接构建出蛋白质的3D结构 。
最后两步过程还会进行3次循环,可以使预测更加准确 。
蛋白质|只需一块RTX2080 10分钟就能算出蛋白质结构
文章图片
△如何用三维坐标确定结构
还有更快、成本更低的算法?
AlphaFold2首次公布的时候并没有透露太多技术细节 。
在华盛顿大学,同样致力于蛋白质领域的David Baker一度陷入失落:如果有人已经解决了你正在研究的问题,但没有透露他们是如何解决的,你该如何继续研究?
不过他马上重整旗鼓,带领团队尝试能不能复现AlphaFold2的成功 。
几个月后,Baker团队的成果不仅在准确度上和AlphaFold2不相上下,还在计算速度和算力需求上实现了超越 。
就在AlphaFold2开源论文登上Nature的同一天,Baker团队的RoseTTAFold也登上Science 。
RoseTTAFold只需要一块RTX2080显卡,就能在10分钟左右计算出400个氨基酸残基以内的蛋白质结构 。
这样的速度,意味着什么?
那就是研究蛋白质的科学家不用再排队申请超算资源了,小型团队和个人研究者只需要一台普通的个人电脑就能轻松展开研究 。
RoseTTAFold的秘诀在于采用了3轨注意力机制,分别关注蛋白质的一级结构、二级结构和三级结构 。
再通过在三者之间加上多处连接,使整个神经网络能够同时学习3个维度层次的信息 。
蛋白质|只需一块RTX2080 10分钟就能算出蛋白质结构
文章图片
考虑到现在市场上显卡不太好买,Baker团队还贴心的搭建了公共服务器,任何人都可以提交蛋白质序列并预测结构 。
自服务器建立以来,已经处理了来自全世界研究者提交的几千个蛋白质序列 。
【蛋白质|只需一块RTX2080 10分钟就能算出蛋白质结构】
蛋白质|只需一块RTX2080 10分钟就能算出蛋白质结构
文章图片
这还没完,团队发现如果同时输入多个氨基酸序列,RoseTTAFold还可以预测出蛋白质复合体的结构模型 。
蛋白质|只需一块RTX2080 10分钟就能算出蛋白质结构
文章图片
对于多个蛋白质组成的复合体,RoseTTAFold的实验结果是在24GB显存的英伟达Titan RTX上计算30分钟左右 。
现在整个网络是用单个氨基酸序列训练的,团队下一步计划用多序列重新训练,在蛋白质复合体结构预测上还可能有提升空间 。
正如Baker所说:我们的成果可以帮助整个科学界,为生物学研究加速 。


推荐阅读