利用扩散生成模型加速药物研发

麻省理工学院的研究人员建立了DiffDock，这个模型将来或许能够比传统方法更快地发现新药，并降低潜在的不良副作用

Image courtesy of the researchers.

随着类似DALL-E 2和Midjourney等平台的发布，扩散生成模型由于其能够从文本提示（如“泰迪熊在1980年代的月球上进行新的人工智能研究”）生成一系列荒谬、惊人、常常是梗的图像而广受欢迎。但麻省理工学院阿卜杜勒·拉蒂夫·贾米尔机器学习健康诊所（Jameel Clinic）的研究人员认为，扩散生成模型可能不仅仅能够创建超现实的图像，它们还可以加速新药的研发并降低不良副作用的可能性。

介绍这种名为DiffDock的新型分子对接模型的论文将在第11届国际学习表征会议上展示。该模型对计算药物设计的独特方法是目前大多数制药公司使用的最先进工具的范式转变，为传统药物研发流程的彻底改革提供了重大机会。

药物通常通过与构成我们身体的蛋白质或细菌和病毒的蛋白质相互作用来发挥作用。分子对接技术的发展是为了通过预测配体（即药物分子）和蛋白质结合的原子3D坐标来了解这些相互作用。

尽管分子对接技术已经成功地识别出了现在用于治疗艾滋病毒和癌症的药物，但每种药物平均需要十年的开发时间，90％的药物候选者在昂贵的临床试验中失败（大多数研究估计平均药物开发成本约为10亿至20亿美元），因此研究人员正在寻找更快、更有效的方式来筛选潜在的药物分子。

目前，用于计算机辅助药物设计的大多数分子对接工具采用“采样和评分”方法，搜索最适合蛋白质口袋的配体“姿势”。这个耗时的过程评估了大量不同的姿势，然后根据配体与蛋白质结合情况进行评分。

在以前的深度学习解决方案中，分子对接被视为回归问题。换句话说，“它假设您有一个要优化的单个目标，有一个正确答案，”Gabriele Corso说，他是电气工程和计算机科学系的第二年级MIT博士生，是MIT计算机科学和人工智能实验室的附属机构。“通过生成建模，您假设有可能的答案分布-在存在不确定性的情况下，这是至关重要的。”

“现在，与之前的单一预测不同，您现在允许预测多个姿势，每个姿势具有不同的概率，”Hannes Stärk补充道，他是电气工程和计算机科学系的第一年级MIT博士生，是MIT计算机科学和人工智能实验室的附属机构。因此，该模型无需妥协，试图得出单一结论，这可能是失败的原因。

为了理解扩散生成模型的工作原理，有助于基于生成图像扩散模型进行解释。在这里，扩散模型通过一系列步骤逐渐向2D图像添加随机噪声，破坏图像中的数据，直到它变成了粗糙的静态图像。然后通过反转此噪声过程来训练神经网络以恢复原始图像。然后，该模型可以通过从随机配置开始并逐步消除噪声来生成新数据。

在DiffDock的情况下，在接受各种配体和蛋白质姿势的培训后，该模型能够成功地识别出它以前从未遇到过的蛋白质上的多个结合位点。它不是生成新的图像数据，而是生成新的3D坐标，帮助配体找到可能允许它适合蛋白质口袋的角度。

这种“盲对接”方法创造了利用AlphaFold 2（2020年），DeepMind著名的蛋白质折叠AI模型的新机会。自从AlphaFold 1于2018年首次发布以来，研究界对AlphaFold的计算折叠蛋白结构有了很大的兴趣，以帮助发现新的药物作用机制。但是，最先进的分子对接工具尚未证明它们在将配体与计算预测的结构结合时的表现比随机机会更好。

DiffDock不仅比传统对接基准的先前方法更准确，而且由于其能够在更高的规模上进行推理并隐含地模拟一些蛋白质的灵活性，DiffDock在其他对接模型开始失败时仍保持高性能。在涉及使用计算生成的未结合蛋白质结构的更现实的情况下，DiffDock将其预测的22％放置在2埃（被广泛认为是准确姿势的阈值，1Å相当于十亿分之一米）以内，超过其他仅略高于10％的对接模型，甚至低至1.7％。

这些改进为生物研究和药物发现创造了新的机遇。例如，许多药物是通过一种称为表型筛选的过程发现的，在这个过程中，研究人员观察给定药物对疾病的影响，而不知道药物作用于哪些蛋白质。发现药物的作用机制对于理解该药物如何改进及其潜在副作用至关重要。这个过程被称为“反向筛选”，可能会非常具有挑战性和昂贵，但蛋白质折叠技术和DiffDock的结合可能允许在计算机中执行过程的大部分，从而在临床试验之前及早发现潜在的“非靶向”副作用。

“DiffDock使药物靶标识别变得更加可能。以前，人们必须与每个蛋白质进行费时费力的实验（几个月到几年）来定义药物对接。但现在，人们可以筛选很多蛋白质，并在一天内进行虚拟筛选，” 华盛顿大学医学院助理教授Tim Peterson说。Peterson在最近的一篇论文中使用DiffDock表征治疗与衰老相关疾病的新型药物候选物的作用机制。“Eroom法则（药物发现每年时间和成本都在增加）正在通过其名字的缪尔定律（计算机的速度和价格每年都在变得更快更便宜）等工具的使用得到解决，比如DiffDock，这是一种非常具有讽刺意味的现象。”

这项工作由MIT博士生Gabriele Corso，Hannes Stärk和Bowen Jing以及他们的导师Regina Barzilay教授和Tommi Jaakkola教授完成，并得到了医药发现和合成机器学习联合会、Jameel诊所、新兴威胁的医疗应对DTRA计划、DARPA加速分子发现计划、Sanofi计算抗体设计项目和能源部计算科学研究生奖学金的支持。