遇见CLAMP：一种新的AI工具，用于分子活性预测，可以在推理时间适应新的实验

遇见CLAMP：一种新的AI工具，用于分子活性预测，可以在推理时间适应新的实验四海第1张

几十年来，基于化学结构预测分子的化学、宏观或生物性质的任务一直是一个关键的科学研究问题。由于近年来技术的显著进步，许多机器学习算法已被用于发现化学结构与这些分子特性之间的相关性。此外，深度学习的出现标志着引入了活性预测模型，这些模型用于在去除具有不良特征的分子后对剩余分子进行生物测试排序。这些基于深度学习的活性预测模型是计算药物发现行业的主要工具，它们可以与自然语言处理中的大型语言模型和计算机视觉中的图像分类模型进行比较。这些基于深度学习的活性预测模型利用了各种低级化学结构描述，包括化学指纹、描述符、分子图、SMILES字符串表示或其组合。

尽管这些架构表现出色，但它们的进展并不像视觉和语言领域那样具有革命性。通常，使用来自生物实验或“生物检测”的分子对和活性标签来训练活性预测模型。由于标注训练数据（也称为生物活性）的过程非常耗时和劳动密集，研究人员急切地寻找能够以较少数据点高效训练活性预测模型的方法。此外，当前的活性预测算法还不能够使用关于活性预测任务的全面信息，这主要是因为这些模型需要从它们所训练或微调的生物检测或活性预测任务中获得测量数据。因此，当前的活性预测模型无法进行零样本活性预测，并且在少样本情况下的预测准确性较差。

由于其被报道具有零样本和少样本能力，研究人员已经转向各种科学语言模型来进行低数据任务。但是，当涉及到活性预测时，这些模型在预测质量方面明显不足。在解决这个问题的过程中，来自奥地利林茨约翰内斯·开普勒大学机器学习系的一组杰出研究人员发现，使用化学数据库作为训练或预训练数据，并选择一个高效的分子编码器，可以提高活性预测的效果。为了解决这个问题，他们提出了一种名为对比语言-生物检测-分子预训练（CLAMP）的新型活性预测架构，该架构可以根据预测任务的文本描述进行条件化。这种模块化架构由一个单独的分子编码器和一个单独的语言编码器组成，这两个编码器在这两个数据模态之间进行对比性预训练。研究人员还提出了一种对训练数据中包含的化学数据库中的信息进行对比性预训练的目标。这些数据中包含了比生物医学文本中的化学结构多几个数量级的化学结构。

如前所述，CLAMP使用可训练的文本编码器创建生物检测嵌入和可训练的分子编码器创建分子嵌入。假设这些嵌入已进行层归一化。奥地利研究人员提出的方法还包括一个评分函数，当一个分子在某个生物检测上活跃时提供高值，而在不活跃时提供低值。此外，对比学习策略使模型能够进行零样本迁移学习，简而言之，为未见过的生物检测产生有见地的预测。根据研究人员进行的多个实验评估显示，他们的方法在少样本学习基准和药物发现中的零样本问题上显著改善了预测性能，并产生了可迁移的表示。研究人员认为他们模型的模块化架构和预训练目标是其出色性能的主要原因。

需要记住的是，尽管CLAMP表现出色，但仍有改进的空间。许多影响生物检测结果的因素，如化学剂量，未被考虑在内。此外，某些不正确的预测可能由于语法不一致和否定引起。尽管如此，对比学习方法CLAMP在几个大型数据集上展示了在零样本预测药物发现任务中的最佳性能。