Press "Enter" to skip to content

在蛋白质组学尺度上实现高精度的蛋白质结构预测

AlphaFold方法

许多新颖的机器学习创新为AlphaFold目前的准确性做出了贡献。我们在下面对系统进行了高级概述;有关网络架构的技术描述,请参阅我们的AlphaFold方法论文,特别是其中广泛的附加信息。

AlphaFold网络由两个主要阶段组成。第一阶段以氨基酸序列和多重序列比对(MSA)作为输入。它的目标是学习一个丰富的“成对表示”,该表示对于了解哪些残基对在三维空间中靠近很有信息。

第二阶段使用这个表示直接产生原子坐标,将每个残基视为一个单独的对象,预测将每个残基放置到所需的旋转和平移,并最终组装成一个结构化的链。网络的设计借鉴了我们对蛋白质物理和几何的直觉,例如应用的更新形式和损失的选择。

有趣的是,我们可以根据网络的中间层的表示产生一个三维结构。产生的“轨迹”视频展示了AlphaFold在推理过程中对正确结构的信念是如何逐层发展的。通常,在前几层之后会出现一个假设,然后经过漫长的精炼过程,一些目标需要网络的完整深度才能得出一个好的预测。

在网络的连续层中,对CASP14目标T1044、T1024和T1064的预测结构。结构按残基编号着色,计数器显示当前层。

准确性和置信度

AlphaFold在CASP14实验中进行了严格评估,参与者在该实验中盲目预测已解决但尚未公开的蛋白质结构。该方法在大多数情况下具有高准确性,平均RMSD-Cα与实验结构的差异小于1Å。在我们的论文中,我们进一步在一个更大的最近PDB条目集上评估了模型。其中的发现包括在大蛋白质上的强大性能和在骨架被良好预测的情况下的良好侧链准确性。

AlphaFold相对于其他方法的CASP14准确性。基于每个目标的最佳预测95%残基的RMSD-Cα。

结构预测的实用性中一个重要因素是相关置信度的质量。模型能否确定其预测中可靠部分?我们在AlphaFold网络之上开发了两个置信度度量。

第一个是pLDDT(预测的lDDT-Cα),它是一个每残基的本地置信度度量,范围从0到100。pLDDT在链上可以剧烈变化,使模型能够在结构域上表达高置信度,但在它们之间的连接区域上表达低置信度,例如。在我们的论文中,我们提供了一些证据表明,一些具有低pLDDT的区域在孤立状态下可能是非结构化的;可以是内在无序的,或者只在较大复合物的上下文中有结构。pLDDT小于50的区域除了可能是无序预测之外,不应该进行解释。

第二个度量是PAE(预测对齐误差),它报告了AlphaFold在残基x处的预测和真实结构在残基y上对齐时的期望位置误差。这对于评估全局特征的置信度特别有用,尤其是域的堆砌。对于来自两个不同域的残基x和y,(x, y)处持续低的PAE表明AlphaFold对于相对域的位置非常自信。持续高的PAE在(x, y)处表明不应该解释域的相对位置。用于产生PAE的一般方法可以适应预测各种基于叠加的度量,包括TM分数和GDT。

两个示例蛋白质(P54725,Q5VSL9)的每残基置信度(pLDDT)和预测对齐误差(PAE)。两者都有自信的单个结构域,但后者还具有自信的相对域位置。注意:Q5VSL9是在此预测之后解决的。

为了强调,AlphaFold模型最终是预测的:虽然通常非常准确,但有时会出错。应该谨慎解读预测的原子坐标,并结合这些置信度指标来理解。

开源

除了我们的方法论文之外,我们还在GitHub上提供了AlphaFold的源代码。这包括访问训练模型和进行新输入序列预测的脚本。我们认为这是一个重要的步骤,将使社区能够使用和建立在我们的工作基础上。使用我们的Colab笔记本是使用AlphaFold折叠单个新蛋白质的最简单方法。

开源代码是基于JAX框架的我们CAS14系统的更新版本,并且达到同样高的准确度。它还包含了一些最近的性能改进。AlphaFold的速度一直严重依赖于输入序列的长度,处理短蛋白质只需要几分钟,而处理非常长的蛋白质可能需要几个小时。一旦MSA组装完成,开源版本可以在V100上的不到一分钟的GPU时间内预测400个残基蛋白质的结构。

蛋白质组学和AlphaFold DB

AlphaFold的快速推理时间使得该方法可以应用于整个蛋白质组学范围。在我们的论文中,我们讨论了AlphaFold对人类蛋白质组的预测。然而,我们已经为多个模式生物、病原体和具有经济意义的物种生成了参考蛋白质组的预测,并且大规模预测现在已经成为常规。有趣的是,我们观察到不同物种之间的pLDDT分布存在差异,细菌和古菌通常具有更高的置信度,真核生物的置信度较低,我们猜测这可能与这些蛋白质组中无序性的普遍存在有关。

没有任何一个研究团队可以完全探索如此庞大的数据集,因此我们与EMBL-EBI合作,通过AlphaFold DB免费提供预测结果。每个预测结果都可以与上述置信度指标一起查看。每个物种还提供了批量下载,并且所有数据都受CC-BY-4.0许可证的保护(可用于学术和商业用途)。我们非常感谢EMBL-EBI与我们合作开发这个新资源。在接下来的几个月中,我们计划扩展数据集,覆盖UniRef90中超过1亿个蛋白质。

多种生物的AlphaFold DB预测示例。
14个物种每个残基置信度的分布;从左到右:细菌/古菌、动物和原生生物。

在AlphaFold DB中,我们选择共享长度最长为2700个氨基酸的完整蛋白质链的预测结果,而不是裁剪到单个结构域。这是因为这样可以避免遗漏尚未注释的结构区域。它还提供了完整氨基酸序列的上下文,并允许模型尝试进行结构域装配的预测。AlphaFold的结构域内准确度在CASP14中得到了更广泛的评估,预计比其结构域间准确度更高。然而,AlphaFold在结构域间评估中排名第一,我们预计它在某些情况下会产生有意义的预测。我们鼓励用户查看PAE图以确定结构域的放置是否有意义。

未来工作

我们对计算结构生物学的未来感到兴奋。还有许多重要的问题需要解决:预测复合物的结构、整合非蛋白质组分以及捕获动态和对点突变的响应。像AlphaFold这样在理解蛋白质结构任务上表现出色的网络架构的发展是一个乐观的迹象,我们可以在相关问题上取得进展。

我们认为AlphaFold是实验结构生物学的一项补充技术。这最好通过其在解决实验结构中的作用来说明,通过分子置换和与冷冻电镜体积的对接。这两种应用都可以加速现有的研究,节省数月的工作量。从生物信息学的角度来看,AlphaFold的速度使得可以大规模生成预测的结构。这有潜力解锁新的研究方向,通过支持对大型序列数据库内容的结构研究。

最终,我们希望AlphaFold能够成为一个有益的工具,来揭示蛋白质空间的奥秘,我们期待在未来的几个月和几年中看到它的应用。

我们非常愿意听取您的反馈,并了解AlphaFold和AlphaFold数据库在您的研究中有何用处。请将您的故事分享至alphafold@deepmind.com。

Leave a Reply

Your email address will not be published. Required fields are marked *