开创RNA研究新时代
晓查 明敏 发自 凹非寺
量子位 报道 | 公众号 QbitAI
AI在生物学领域再次立功了。
今天,Science封面刊登了AI在预测RNA分子结构上的重大进展。
来自斯坦福大学的研究团队,使用一种叫做ARES的几何深度学习,在预测RNA三级结构上达到了前所未有的准确度。
一个月前,AlphaFold 2预测人类98.5%的蛋白质,惊艳了全世界。
但是与蛋白质相比,同样是生物分子的RNA,人类对它的研究主要还停留在二级结构上,对三级结构知之甚少。
加州大学欧文分校的药物学家Robert Spitale说,我们对大部分RNA结构几乎一无所知。
一无所知到什么程度呢?
人类基因转录为RNA的数量是蛋白质数量的30倍。迄今为止实验已经确定了数千种蛋白质的三级结构,而人类测定三级结构的RNA不到蛋白质的1%,大约只有几十种。
现在ARES已经预测了1500种RNA分子结构,从过去的将精度提高了4Å左右(1Å等于0.1纳米),平均误差为12Å。,当相比之前的方法有了显著提升。
虽然和AlphaFold 2预测35种蛋白质相去甚远,也达不到原子级精度(大约1Å),但这足以称为一项开创性研究。
因为斯坦福大学的科学家们的训练集只有18个结构数据,少得可怜,取得如此大幅的提升实属不易。
ARES的出现,让AI预测RNA三级结构的细节成为可能。
论文的第一作者、斯坦福大学博士Raphael Townshend说:“结构生物学是对分子形状的研究,在生物学中有一句名言,即结构决定功能。”
因此,这项研究有助于科学家们去发现RNA的生物学功能,并为发现新型RNA靶向药物铺平道路。
为何要研究RNA
为什么要研究RNA呢?
这与它在整个生命活动中发挥的重要作用离不开关系。
在生物体内,RNA具有十分重要的细胞功能,包括合成蛋白质、催化反应、调节基因表达、调节先天免疫和感知小分子等。
一方面,RNA是遗传信息表达的重要一环。
只有通过RNA的转录、翻译,DNA中的信息才能在蛋白质中表达。
△RNA转录
另一方面,RNA还能调节一些重要生命活动。
核糖RNA可以催化肽链的生成,为转移RNA提供结合位点,参与核糖体大小亚单位的结合、校正阅读等等功能。
而且,参与遗传信息表达的RNA只占RNA总量的20%不到,这意味着有大部分遗传信息都还没有被表达出来。
还有一些病毒是以RNA作为遗传信息的载体,比如引起新冠肺炎的SARS-CoV-2,就是一种RNA病毒。
因此,研究RNA是探索生命奥秘的必经之路。
除了研究层面,在实际应用上RNA能发挥的作用也越来越多。
依据致病基因的序列信息,科学家开发出了RNA药物、RNA疫苗。
它们可以从基因层面就发挥作用,靶向抑制致病蛋白的表达,在医学领域具有非常广泛的应用前景。
RNA研究难点在哪
结构生物学有一个信条,即结构决定功能,RNA也不例外。
在知道RNA对生命活动发挥如此大作用后,科学家首先要做的,就是探究RNA的结构。
这也是RNA研究的一大难点。
不同于DNA稳定的双链结构,RNA绝大多数情况下都以单链形式存在。
但是单链RNA可以通过折叠形成双链结构,再折叠形成三级结构。
而且RNA的糖环上有3个自由烃基,而DNA由于脱氧只有两个,所以RNA的化学性质也更加活泼,也就是更容易发生反应。
此外,RNA还更容易被自己的分解酶降解。
这些原因使得RNA在实验过程中操作难度也更高。
事实上,到目前为止人类已知的RNA结构只有几十种。既然实验难以测定,所以科学家开始把目光放在了AI预测RNA结构上。
和AlphaFold 2的不同
近来深度学习技术的重大进展,往往都需要大量数据来进行训练。
但是可以给ARES预测的RNA结构只有18种,这些数据显然不足以使用传统方法。
斯坦福的科学家们想到了几何深度学习,开发了ARES(Atomic Rotationally Equivariant Scorer)。
顾名思义,这种方法并非直接针对RNA的特殊情况,而是细化到分子中的原子,参数只给出原子坐标和元素类型。
ARES被输入一小组已知RNA的真实结构,以及这些RNA的大量替代(不正确)结构。
在这个过程中,ARES了解每个原子的功能、几何排列以及这些元素相互之间彼此定位。神经网络中逐渐从原子级小尺度学习到分子大尺度的特征。
就这样,ARES一开始并不了解RNA,随着训练过程的进行,它学会了RNA的碱基配对模式、RNA螺旋的最佳几何形状。
接下来还有个问题,人类已知RNA种类太少,如何去评估ARES的预测未知RNA能力呢?
斯坦福大学的研究人员编制了一个基准数据集,包含七年来在结构预测竞赛RNA-Puzzles中获胜的作品。
根据RNA-Puzzles的规则,当科学家通过实验发现新的RNA结构时,他们不会公开细节,直到RNA-Puzzles参与者提交了他们的预测结果,然后将二者的结果进行对比。
经过测试集的检验,ARES对4种RNA结构的预测全都达到了最高准确度。
接下来,科学家使用采样软件生成了至少1500个RNA结构模型。然后,他们用ARES和其他三种软件对模型进行预测。
当使用ARES时,有62%结果接近原生RNA模型(平均误差<2Å),而
Rosetta、RASP和3dRNAscore分别只有43%、33%和5%的结果接近。
在ARES生成的10个最好模型中包括至少一个接近原生模型的有81%,而Rosetta、RASP和3dRNAscore分别只有48%、48%和33%。
虽然ARES还没有达到能精确预测靶点、辅助药物研发的精度,但研究人员说,他们的算法还有进步的空间
未来,他们计划输入除原子坐标和元素类型之外的更多信息,增加信息或许能进一步提高ARES的性能。
通过与低温电子显微镜等实验数据结合,ARES也可能得到进一步改进。
另外,本文的第一作者Raphael Townshend已经创立了一家生物学AI公司Atomic AI,使用AI技术设计药物分子。
Townshend刚刚在个人Twitter上发布了招聘信息,看来他是准备AI药物领域大展拳脚了。
参考链接:
[1]https://science.sciencemag.org/content/373/6558/1047
[2]https://science.sciencemag.org/content/373/6558/964.full
[3]https://www.scienceboard.net/index.aspx?sec=ser&sub=def&pag=dis&ItemID=3190
[4]https://www.eurekalert.org/news-releases/926246