巨大冲击！AlphaFold2再登Nature，从业者都懵了：人类98.5%的蛋白质，全都被预测了一遍

深度学习

巨大冲击！AlphaFold2再登Nature，从业者都懵了：人类98.5%的蛋白质，全都被预测了一遍

016

吕朋飞

2021-07-27

98.5%的人类蛋白质结构被AlphaFold2预测出来了！

而且还做成了数据集，全部免费开放！

在开源AlphaFold2仅一周后，DeepMind震撼发布AlphaFold数据集，再次引爆科研圈！

数据集中预测的所有氨基酸残基中，有58%达到可信水平，其中更有35.7%达到高置信度。

而在这之前科学家们数十年的努力，只覆盖了人类蛋白质序列中17%的氨基酸残基。

除了人类蛋白质组，数据集中还包括大肠杆菌、果蝇、小鼠等20个具有科研常用生物的蛋白质组数据，总计超过35万个蛋白质的结构。

最重要的是，这些全都免费开放！交给欧洲生物信息学研究所托管。

“这是人类基因组图谱之后最重要的数据集”，这样的评价来自Ewan Birney，他领导了人类基因组计划的后续项目：人类基因元件百科全书(ENCODE)。

DeepMind创始人哈撒比斯在官网发布题为《把AlphaFold的力量交到全世界手中》的文章，同时也在推特上表达了他抑制不住地兴奋：

这是我一生中梦寐以求的日子，也是创办Deepmind的初衷：用AI推进科学发展并造福人类。

造福人类整体的另一面，是对当前结构生物学相关从业者的巨大冲击。

有人对与AI赛跑这件事感到绝望。

还有人吐槽，都开源了免费了没法申报经费了。

但也有人提出了不同的看法：21世纪不只是生物学的世纪，更是合成生物学的世纪啊！

在结构生物学实验室工作过的知乎网友@sorrySorui有点骚也认为AlphaFold的出现为科研人员节省大量时间和精力。

他认为使用AlphaFold得出来的结果，可以帮助进行药物设计等进一步的研究。

那么这次预测结果中有哪些蛋白质能开辟新的研究方向？

几个重点预测

AlphaFold 2预测的结果总共有35万个，DeepMind在论文中挑出了3种典型的蛋白质结构预测，这些预测都是从头开始的。

虽然结果最终要通过实验来验证，但是这些预测还是为生物学家提供了很多有用的结果。

1、葡萄糖-6-磷酸酶（Glucose-6-phosphatase）：发现了一种新的蛋白质门控机制

这是一种膜结合酶，可催化葡萄糖合成的最后一步，对维持血糖水平至关重要。以前没有该蛋白质的实验结构。AlphaFold预测具有非常高的可信度并给出了一个九螺旋拓扑结构。

DeepMind发现，在这种预测的结构中，谷氨酸可以稳定封闭构象的结合位点，因此可能存在门控功能，而这种新的机制是过去没有发现过的。

2、二酰基甘油O-酰基转移酶2（Diacylglycerol O-acyltransferase 2）：寻找抑制酶的结合位点

这种酶负责将多余的代谢能量储存为脂肪，它（ DGAT2）是催化过程中最终酰基添加的两种必需酰基转移酶之一，之前的研究显示抑制DGAT2可改善肝病小鼠模型中的肝功能。

凭借AlphaFold高度可信的预测结构（中值 pLDDT 95.9），可以确定该蛋白与抑制剂的结合位点。

3、Wolframin：寻找遗传病的成因

Wolframin是一种定位于ER的跨膜蛋白，与遗传病Wolfram综合征有关。Wolfram综合征是一种神经退行性疾病，其特征是早发性糖尿病、逐渐视力和听力丧失以及早逝。

虽然AlphaFold完整预测结果的置信度较低（中值 pLDDT 81.7），但是可用于识别该蛋白质结构特殊区域，一样能获得有用的结果。

比如，最近的进化分析研究了Wolframin的一个区域，AlphaFold的预测在很大程度上支持了他们的结论。

AlphaFold的预测表明，由于Wolfram综合征患者缺乏Wolframin中的半胱氨酸，可能会在蛋白质中形成二硫键交联。分析结果对帮助我们理解这种遗传疾病的原理很重要。

加速癌症、HIV等疾病治疗

目前，AlphaFold数据库中大约有36.5万个结构预测。

研究人员表示，接下来他们会将预测范围进一步扩大，预计在今年年底将预测数量增加到1.3亿个。

这个数量已经达到了人类已知蛋白质总数的一半。

这样震撼的成果，也让谷歌CEO Pichai再一次为AlphaFold站台：

AlphaFold数据库展现了AI加速科学进步的巨大潜力，它能在一夜之间就大幅提升我们对蛋白质结构和人类蛋白质组的认识。

蛋白质有着结构决定功能的特性，通过对它结构的研究，科学家能够掌握更多其功能、机理上的信息。

比如可以了解蛋白质是如何与其他化学物质相互作用的，以及在什么位置上发生反应。

这有助于科学家了解突变蛋白质是如何改变其功能的，从而展开对癌症、HIV、遗传性疾病的进一步探索。

此外，AlphaFold2能够将预测的准确性提升到了原子级别。

也就是说，人类现在可以更快速精准地确定酶的活性位点，这对药物开发也有着重大意义。

欧洲分子生物学实验室（EMBL）的负责人Edith Heard就说道：

我们相信这对理解生命体是如何运作有着变革性的影响。

哥伦比亚大学的计算生物学家Mohammed AlQuraishi表示，此前蛋白质结构预测领域总是要花费大量时间在一些基础工作上，浪费了学者的很多精力，现在他们可以更加专注于对蛋白质结构的研究了。

之前我们做研究都要依赖于氨基酸序列，现在可以直接从蛋白质结构上入手了。

事实上，一些与DeepMind展开合作的研究团队，已经通过AlphaFold加速了研究进程。

比如DNDi（被忽视疾病药物开发组织）就表示，AlphaFold2推动了他们在热带疾病药物开发方面的研究。

朴茨茅斯大学酶创新中心（CEI）也表示，他们正在利用AlphaFold2开发一些新的酶，可以用来降解污染环境的一次性塑料。

科罗拉多大学波尔德分校的生化学家Marcelo Sousa则利用AlphaFold来制作蛋白质结构模型，开展一项关于抗生素的研究。

加州大学旧金山分校的一个团队则表示，AlphaFold2可以帮助他们更好理解SARS-CoV-2的生物学机制。

蛋白质组学

AlphaFold2获得巨大成功的背后，离不开蛋白质组学(Proteomics)的研究。

蛋白质组指在特定时间由基因组、细胞、组织或有机体表达的全部蛋白质。

在90年代，人类基因组计划开始成形时，科学家意识到光掌握基因的碱基排列是不够的，还必须了解基因的产物蛋白质。

由此，澳大利亚遗传学家马克·威尔金斯提出了破译人类蛋白质组的想法。

2001年人类基因组框架图发布的同时，人类蛋白质组研究组织(HUPO)也正式成立。

直到2014年，慕尼黑工业大学和约翰霍普金斯大学终于绘制出人类蛋白质组草图。

随后人类蛋白质组数据库逐渐被完善，AlphaFold此次使用的就是目前收录最广泛和注释信息最全面Uniprot数据库。

想了解更多AlphaFold的技术细节可参考下面链接👇：

《AlphaFold2成功秘诀：注意力机制取代卷积网络，预测准确性提升超30%》

论文地址：
https://www.nature.com/articles/s41586-021-03828-1

数据集：
https://alphafold.ebi.ac.uk

知乎授权回答：
@sorrySorui有点骚：https://www.zhihu.com/question/474094187/answer/2014736529

参考链接：
[1]https://deepmind.com/blog/article/putting-the-power-of-alphafold-into-the-worlds-hands
[2]https://twitter.com/demishassabis/status/1418226238888448004?s=20
[3]https://www.nature.com/articles/d41586-021-02025-4
[4]https://www.sciencemag.org/news/2021/07/new-public-database-ai-predicted-protein-structures-could-transform-biology

— 完 —

上一篇：颜水成团队开源VOLO：无需额外数据，首次在ImageNet上达到87.1%的精度

下一篇：用算法代替生物大脑，90后博士造出活的微型机器人登上Science子刊

请先登录，登录后发言！