序列百度推出LinearDesign,全球首个mRNA疫苗不稳定性解决方案,仅需16分钟

十三 发自 凹非寺
量子位 报道 | 公众号 QbitAI
新冠疫情全球流行 , 疫苗研制成为当务之急 。
mRNA作为一种全新的疫苗类型 , 能够快速大规模生产 ,因此成为科学家们攻克的主阵地之一 。
新冠疫情爆发后 , RNA设计领域世界知名专家、斯坦福大学生物化学系Rhiju Das教授关注到疫苗研发存在的一个非常棘手的问题:
找到一个既具有稳定二级结构 , 而且还有效的mRNA疫苗 。
有多难?
序列百度推出LinearDesign,全球首个mRNA疫苗不稳定性解决方案,仅需16分钟
图片

首先是稳定性 , mRNA疫苗“脆弱”到在保存、运输过程中 , 就有可能因为降解而失效 。
然后是有效性 , 需要找一个mRNA序列 , 能够翻译成特定的蛋白质(抗原) 。
单是满足这两个条件 , 若是采用遍历的方式去寻找 , 那就需要查看10632个mRNA序列!
这是什么概念?用一台超级计算机来处理 , 即便一秒钟能计算一个新冠RNA序列的二级结构 , 哪怕是从宇宙诞生到现在(130-140亿年) , 连“潜在”mRNA序列的亿万分之一都没算到 。
仅靠科研人员的力量是远远不够的 , 那就“全民参赛”吧!
于是乎 , Rhiju Das教授便找到了百度 , 使用百度此前开源的LinearFold算法 , 搭建一个疫苗设计公开赛 , 让全民参与进来 , 以游戏的形式 , 边玩边找这个mRNA 。
序列百度推出LinearDesign,全球首个mRNA疫苗不稳定性解决方案,仅需16分钟
图片

但正如刚才提到的 , 搜索空间是异常庞大 , 难道就没有办法在相对节省人力的情况下 , 就能够设计出满足条件的mRNA疫苗序列呢?
这个可以有 。
现在 , (可能)“拯救世界”的新算法 , LinearDesign , 来了!
序列百度推出LinearDesign,全球首个mRNA疫苗不稳定性解决方案,仅需16分钟
图片

LinearDesign:最快16分钟完成mRNA疫苗序列设计
其实 , 回顾近二十年的历史 , 随着全球化和城市化的深入发展 , 全球疫情爆发周期越来越短——从2002年的SARS , 到2012的MERS , 再到现如今的新冠病毒 。
面对一次又一次的冠状病毒的侵袭 , 快速研制出特定疫苗成为了解决问题的一种途径 。
那么 , 在mRNA疫苗如此庞大的搜索空间面前 , LinearDesign又能起到什么作用?
针对新冠病毒的mRNA疫苗序列 , 通常是以自然界存在的新冠刺突蛋白对应的mRNA段为基础 , 经过一些改动后作为备选序列 。
但是这样的序列其二级结构通常是不够稳定的 。 如下图(A)展示的是新冠病毒刺突蛋白对应的mRNA二级结构 , 其能量为-967.8 kcal/mol 。
序列百度推出LinearDesign,全球首个mRNA疫苗不稳定性解决方案,仅需16分钟
图片

△图A
这一能量衡量了mRNA二级结构的稳定性 , 能量越低(越负)表明越稳定 。
mRNA由多个核苷酸(共四种 , 分别是A、U、C、G)串联而成 , 蛋白质由多个氨基酸(共21种)串联而成 。 每三个核苷酸(称为一个密码子)翻译成一个蛋白质 。 显而易见 , 三个核苷酸共有4的三次方共64种组合 , 那么必然有多个密码子对应一个氨基酸 , 也就是说有很多mRNA序列都可以翻译成同一个蛋白质(抗原)序列 。 具体来说 , 新冠病毒刺突蛋白(抗原)共有1273个氨基酸 , 能翻译成刺突蛋白的mRNA序列有10的632次方之多 。 如下图所示:
序列百度推出LinearDesign,全球首个mRNA疫苗不稳定性解决方案,仅需16分钟
图片

在保持翻译成的蛋白质不变的前提下 , 还可以选择其他的序列作为mRNA疫苗序列 。 下图(B)展示了从1万个随机序列中选取的能量最低的序列 , 能量为-1149.8 kcal/mol 。
序列百度推出LinearDesign,全球首个mRNA疫苗不稳定性解决方案,仅需16分钟
图片

△图B
这一序列能量比Wildtype低一些 , 但是也并不是能量最低的序列 。


推荐阅读