Press "Enter" to skip to content

一项新的人工智能研究提出了一种基于蛋白质的三维结构的简单而有效的结构编码器,用于蛋白质表示学习

一项新的人工智能研究提出了一种基于蛋白质的三维结构的简单而有效的结构编码器,用于蛋白质表示学习 四海 第1张一项新的人工智能研究提出了一种基于蛋白质的三维结构的简单而有效的结构编码器,用于蛋白质表示学习 四海 第2张

蛋白质是细胞的能量,在各种应用中都起着重要作用,包括材料和治疗。它们由一条氨基酸链组成,折叠成一定的形状。由于低成本测序技术的发展,近年来发现了大量的新型蛋白质序列。由于对新型蛋白质序列的功能注释仍然昂贵且耗时,因此需要准确有效的基于计算的蛋白质功能注释方法来弥合当前的序列-功能差距。

许多数据驱动的方法依赖于学习蛋白质结构的表示,因为许多蛋白质功能受到它们折叠方式的控制。然后,这些表示可以应用于蛋白质设计、结构分类、模型质量评估和功能预测等任务。

由于实验蛋白质结构鉴定的困难,已发表的蛋白质结构数量比其他机器学习应用领域的数据集数量少几个数量级。例如,蛋白质数据银行有182K个经实验证实的结构,而Pfam中有47M个蛋白质序列和ImageNet中有10M个注释图片。一些研究利用丰富的无标签蛋白质序列数据来开发适当的现有蛋白质表示,以弥合这种表征差距。许多研究人员已经利用自监督学习在数百万个序列上预训练蛋白质编码器。

准确的基于深度学习的蛋白质结构预测技术的最新发展使得能够有效自信地预测许多蛋白质序列的结构成为可能。然而,这些技术没有特别捕捉或使用关于蛋白质结构的信息,而这些信息已知决定蛋白质的功能。已经提出了许多基于结构的蛋白质编码器来更好地利用结构信息。不幸的是,这些模型尚未明确解决模拟蛋白质结构中至关重要的边缘之间的相互作用问题。此外,由于实验确定的蛋白质结构的匮乏,直到最近才进行了相对较少的工作,以创建利用无标签3D结构的预训练技术。

受到这一进展的启发,他们创建了一种可应用于各种属性预测应用的蛋白质编码器,并对最可行的蛋白质结构进行了预训练。他们提出了一种简单而高效的基于结构的编码器,称为GeomEtry-Aware关系图神经网络,它在编码空间信息后,在蛋白质残基图上进行关系传递。他们提出了一种稀疏边缘传递技术,以改进蛋白质结构编码器,这是第一个在蛋白质结构编码的GNN上实现边缘级消息传递的尝试。他们的想法受到Evoformer中三角形注意力设计的启发。

他们还提供了一种基于众所周知的对比学习框架的几何预训练方法,以学习蛋白质结构编码器。他们提出了创新的增强函数,增强来自同一蛋白质的亚结构获取表示之间的相似性,同时减小来自不同蛋白质的亚结构之间的相似性,以找到在蛋白质中同时出现的生理相关的蛋白质亚结构。他们同时提出了一套基于自预测的简单基线。

通过将他们的预训练方法与几个下游属性预测任务进行比较,他们为预训练蛋白质结构表示奠定了坚实的基础。这些预训练问题包括对各种几何或物理化学属性(如残基种类、欧氏距离和二面角)的屏蔽预测。使用各种基准测试,例如酶委员会编号预测、基因本体术语预测、折叠分类和反应分类,显示在监督环境中,具有边缘消息传递功能的GearNet在大多数任务上始终优于现有蛋白质编码器。

此外,使用建议的预训练策略,他们的模型在少于一百万个样本的训练下,获得了与甚至优于以百万或十亿的数据集为基础预训练的最先进序列编码器相当或更好的结果。代码库在Github上公开可用。它使用PyTorch和Torch Drug编写。

Leave a Reply

Your email address will not be published. Required fields are marked *