Press "Enter" to skip to content

蛋白质设计的下一步是什么?微软的研究人员引入了EvoDiff:一种革命性的AI框架,用于基于序列的蛋白质工程

蛋白质设计的下一步是什么?微软的研究人员引入了EvoDiff:一种革命性的AI框架,用于基于序列的蛋白质工程 四海 第1张蛋白质设计的下一步是什么?微软的研究人员引入了EvoDiff:一种革命性的AI框架,用于基于序列的蛋白质工程 四海 第2张

深度生成模型在原位创造新型蛋白质方面越来越强大。扩散模型是一类最近被证明能够产生与自然界中任何实际蛋白质都不同的生理学合理蛋白质的生成模型,它们在全新蛋白质设计中提供了无与伦比的能力和控制。然而,当前最先进的模型只能构建蛋白质结构,这严重限制了它们的训练数据范围,并将生成限制在蛋白质设计空间的一个微小且有偏见的部分。微软研究员开发了EvoDiff,这是一个通用的扩散框架,它通过结合进化规模的数据和扩散模型的独特调节能力,允许在序列空间中进行可调节的蛋白质创造。EvoDiff可以使结构合理的蛋白质变化多样,涵盖了所有可能的序列和功能范围。序列为基础的公式的普适性通过EvoDiff可以构建结构为基础的模型无法访问的蛋白质,例如那些具有无序部分的蛋白质,同时能够为有用的结构基序设计支架。他们希望EvoDiff能为蛋白质工程中的可编程序列优先设计铺平道路,使他们能够超越结构-功能范式。

EvoDiff是一个新颖的生成建模系统,仅基于序列数据进行可编程蛋白质创造,通过结合进化规模的数据和扩散模型开发而成。他们使用离散扩散框架,其中正向过程通过改变氨基酸的身份,迭代地破坏蛋白质序列,而学习到的反向过程则由神经网络参数化,预测每次迭代所做的更改,利用蛋白质作为离散令牌序列的自然特征。

蛋白质序列可以使用反向方法从头开始创建。与传统用于蛋白质结构设计的连续扩散公式相比,EvoDiff所使用的离散扩散公式在数学上具有显著的改进。多重序列比对(MSAs)突出显示了相关蛋白质群体的氨基酸序列的保守性模式和变异,从而捕捉到了超出单个蛋白质序列进化规模数据集的进化联系。为了利用这种额外的进化信息深度,他们构建了在MSAs上训练的离散扩散模型,以产生新的单一序列。

为了说明他们在可调节蛋白质设计方面的有效性,研究人员对一系列生成活动进行了序列和MSA模型(EvoDiff-Seq和EvoDiff-MSA)的检验。他们首先展示了EvoDiff-Seq可靠地产生高质量、多样化的蛋白质,准确反映了自然界中蛋白质的组成和功能。通过将具有类似但独特进化历史的蛋白质与对齐,EvoDiff-MSA允许引导开发新的序列。最后,他们展示了EvoDiff可以可靠地生成具有无序区域的蛋白质,直接克服了基于结构的生成模型的一个关键限制,并且可以生成没有任何显式结构信息的功能结构基序的支架,通过利用扩散模型框架的调节能力和其在通用设计空间中的基础。

为了生成具有序列限制的多样且新颖的蛋白质,研究人员提出了EvoDiff,这是一个扩散建模框架。通过挑战基于结构的蛋白质设计范式,EvoDiff可以通过从序列数据中生成内在无序区域和支撑结构基序,无条件地采样结构合理的蛋白质多样性。在蛋白质序列进化中,EvoDiff是第一个展示扩散生成建模效果的深度学习框架。

通过引导的调节,可以在未来的研究中添加这些能力。EvoDiff-D3PM框架对于通过引导进行调节工作是自然的,因为可以在每个解码步骤中编辑序列中的每个残基的身份。然而,研究人员观察到OADM在无条件生成方面通常优于D3PM,这可能是因为OADM的去噪任务比D3PM更容易学习。不幸的是,OADM和其他现有的条件LRAR模型(如ProGen)降低了引导的效果。预计通过将EvoDiff-D3PM与序列功能分类器所描述的功能目标进行调节,可以生成新颖的蛋白质序列。

EvoDiff的数据要求很低,这意味着它可以很容易地适应未来的用途,这是结构为基础方法所无法实现的。研究人员已经证明,EvoDiff可以通过填充而无需微调来创建IDR,避免了基于结构的预测和生成模型的一个经典陷阱。获取大规模测序数据集的结构的高成本可能会阻止研究人员使用新的生物、医学或科学设计选项,这些选项可以通过在应用特定数据集上微调EvoDiff来实现,例如来自展示库或大规模筛选的数据集。尽管AlphaFold和相关算法可以预测许多序列的结构,但在指示虚假蛋白质的结构时,它们在点突变方面存在困难,并且可能过于自信。

研究人员展示了几种粗粒度的通过支架和修复来调节产物的方式;然而,EvoDiff可以根据文本、化学信息或其他形式的模态来提供对蛋白质功能的更精细调控。在未来,可调节的蛋白质序列设计的概念将以多种方式使用。例如,有条件设计的转录因子或内切酶可用于程序化调节核酸;生物制剂可优化用于体内传递和运输;而酶底物特异性的零样本调节可以打开全新的催化途径。

数据集

Uniref50是一个包含约4200万个蛋白质序列的数据集,由研究人员使用。MSAs来自OpenFold数据集,其中包括16,000,000个UniClust30聚类和401,381个MSAs,涵盖了140,000个不同的PDB链。关于IDRs(内在无序区)的信息来自Reverse Homology GitHub。

研究人员在支架结构基元挑战中使用了RFDiffusion基线。在examples/scaffolding-pdbs文件夹中,您可以找到可用于有条件生成序列的pdb和fasta文件。examples/scaffolding-msas文件夹还包含可以根据特定条件创建MSAs的pdb文件。

当前模型

研究人员研究了两种前向技术,以决定在离散数据模态上扩散的最高效技术。每个粗体的步骤中,一个氨基酸被转换为唯一的掩码标记。完整序列在一定数量的阶段后被隐藏。该组还开发了离散去噪扩散概率模型(D3PM),专门用于蛋白质序列。在EvoDiff-D3PM的前向阶段,根据过渡矩阵对行进行突变采样。这一过程会一直持续,直到序列无法与氨基酸上的均匀样本区分开为止。在所有情况下,恢复阶段涉及重新训练神经网络模型以消除损害。对于EvoDiff-OADM和EvoDiff-D3PM,训练模型可以从遮蔽标记的序列或均匀采样的氨基酸产生新的序列。他们使用CARP蛋白质遮蔽语言模型中首次出现的扩张卷积神经网络架构,在UniRef50的4200万个序列上训练了所有EvoDiff序列模型。对于每种前向损坏方案和LRAR解码,他们开发了具有3800万和6400万训练参数的版本。

关键特点

  • 为了生成可管理的蛋白质序列,EvoDiff将进化规模的数据与扩散模型结合。
  • EvoDiff可以使结构合理的蛋白质多样化,覆盖了可能序列和功能的全部范围。
  • 除了生成具有无序区段和其他结构模型无法访问的特征的蛋白质之外,EvoDiff还可以产生用于功能性结构基元的支架,证明了基于序列的公式的普适性。

总之,微软科学家发布了一组离散扩散模型,可用于在基于序列的蛋白质工程和设计中进行进一步开发。可以根据结构或功能扩展EvoDiff模型,并且可以立即用于无条件、进化引导和有条件的蛋白质序列创建。他们希望通过直接使用蛋白质语言进行阅读和写入过程,EvoDiff将为可编程蛋白质创造开辟新的可能性。

Leave a Reply

Your email address will not be published. Required fields are marked *