Press "Enter" to skip to content

认识TxGNN:一种利用几何深度学习和以人为中心的人工智能来进行零样本预测的新模型,可以跨越17,080种疾病的广泛范围进行治疗用途预测

认识TxGNN:一种利用几何深度学习和以人为中心的人工智能来进行零样本预测的新模型,可以跨越17,080种疾病的广泛范围进行治疗用途预测 四海 第1张认识TxGNN:一种利用几何深度学习和以人为中心的人工智能来进行零样本预测的新模型,可以跨越17,080种疾病的广泛范围进行治疗用途预测 四海 第2张

世界各地数十亿人的健康需求迫切需要开发治疗方法。然而,目前只有少数被临床认可的疾病有授权的治疗方法。基因功能和它们产生的分子的改变是疾病的常见原因。恢复正常分子活动的药物是对这些疾病的潜在防御。不幸的是,恢复受损基因的生物活动的治疗方法对于许多疾病仍然难以实现。此外,大多数疾病是由多个基因的变化引起的,即使在单个基因内,个体之间的突变模式也可能存在巨大差异。与参与疾病相关的过程和活动的基因网络(即相互作用组)是解释这些遗传事件的重要工具。为了解析疾病中被破坏的遗传结构并帮助创造针对性治疗药物,机器学习已经被用于分析高通量分子相互作用组和电子病历数据。

新药开发具有挑战性,尤其是对于治疗选择有限的疾病,但可以用更安全、更有效的药物替代效率低下的药物。美国FDA只为数百种人类疾病授权了治疗方法。在分析的17,080种临床认可的疾病中,只有1,363种疾病有专门的药物处方,其中435种只有一种处方,182种有两种处方,128种有三种处方。对于已有治疗方法的疾病来说,寻找新的药物具有重要的治疗意义,它提供了更多治疗选择,并减少了不良反应,可以替代某些患者群体中无效的药物。

TXGNN是一种用于治疗使用预测的几何深度学习技术,由对分子原因和潜在治疗方法需要更多了解的疾病感兴趣的研究人员引入。TXGNN使用一个以治疗为重点的图层与目前正在治疗的疾病干扰网络相结合进行训练。该知识图整合和编制了几十年来对17,080种常见和不常见疾病的生物学研究。它被优化以反映TXGNN的治疗中心图的几何特性。一个图神经网络模型将治疗候选药物和疾病集成到一个潜在的表示空间中。TXGNN使用在潜在表示空间中工作的度量学习模块,可以将TXGNN的模型从训练过程中见过的疾病转移到被忽视的疾病上,以避免有监督深度学习对于预测被忽视疾病的治疗使用的限制。

TxGNN是在包括17,080种临床认可的疾病和7,957种治疗候选药物的知识图上进行预训练的图神经网络。它可以以统一的形式执行不同的治疗任务。由于在训练后不需要微调地面真实标签或额外参数,因此TxGNN可以进行未训练疾病的零样本推理。与最先进的方法相比,TxGNN在指示任务的准确性上提高了49.2%,在禁忌任务的准确性上提高了35.1%。

实验设计和方法 – 对数据集进行全面性能评估的分区

  • 疾病领域划分:

许多疾病具有治疗潜力,但缺乏有效的治疗方法和很少的生物理解。通过使用研究团队开发的数据分割来模拟已经进行了分子特征化的疾病,测试TXGNN在预测药物与疾病的联系方面的潜力。

首先,将该组的疾病和相关的药物-疾病边缘复制到测试集中。这意味着在训练过程中,TXGNN对于代表选定疾病类别的当前指示和禁忌边缘的存在是盲目的。这模拟了治疗具有未知基础生物机制的疾病的困难。

  • 系统性数据集划分:

针对不可治疗的疾病进行预测应该非常适合正在实施的机器学习模型。预测已经有现有治疗方法的疾病的潜在疗法要比预测没有现有治疗方法的疾病要简单得多。研究人员设计了这个划分来严格研究该模型预测以前未被发现疾病的能力。研究人员首先随机划分所有疾病。当在训练过程中没有识别出治疗方法,并且测试集包含唯一的疾病时,研究人员将与测试集相关的所有药物-疾病关系转移到测试集中。每次迭代测试集中包含超过一百个唯一疾病。

  • 以疾病为中心的数据集划分:

研究人员使用以疾病为中心的评估来模拟药物候选者在临床中的使用情况。首先,研究人员将知识图中的所有药物与测试集中的所有疾病进行关联,排除训练集中的药物-疾病关联。然后,研究人员基于它们相互作用的可能性对所有可能的配对进行评分。然后,研究人员通过检索前K个药物来计算召回率(即在测试集中有多少药物和疾病在完整的K中)。最后一步是建立一个随机筛选基准,其中在药物集中随机抽样前K个药物,并计算召回率。

结果

  • 使用几何生物先验在TXGNN中进行治疗应用预测。TXGNN基于这样的假设:针对蛋白质相互作用网络中受疾病扰动的网络的药物将具有最大的成功机会。TXGNN经过优化,能够捕捉TXGNN知识图谱的几何特征,它是一种基于知识的图神经网络,将治疗候选者和疾病(疾病概念)映射到潜在表示空间中。
  • 使用参考TXGNN进行零样本治疗应用预测。研究人员测试了TXGNN预测指示和禁忌症的能力。由于TXGNN的目标是治疗像Stargardt病16和高草酸尿症这样目前没有可用治疗方法的疾病,所以使用一种叫做零样本性能的指标来衡量其性能,即模型被要求预测在模型训练期间未见过的另一个数据集(称为保留(测试)集)中的疾病的治疗用途。
  • 在预测五种疾病类型的治疗用途方面达到100%的准确率。类似的治疗方法可能适用于具有相似生物学基础的疾病。
  • 无法预测那些经常拒绝治疗的患者的治疗用途。
  • 对于存在指示的1,363种疾病和存在禁忌症的1,195种情况,准确率达到100%。
  • 对推荐哪些治疗方法和哪些禁忌症给予仔细考虑。
  • 将TXGNN的预测与当前的治疗选择进行比较。研究人员考虑了在TXGNN的数据集和模型开发完成之后获得授权的10种新上市药物,以展示TXGNN不受确认偏见的驱动。在TXGNN的数据集中,没有直接连接的药物-疾病节点。然后,要求TXGNN为研究人员提供预测。

特点

  • 对于不存在药物并且我们对其分子知识很少的疾病,TXGNN具有“零样本”预测治疗用途的能力。
  • 尽管我们对特定疾病没有任何药物的实际了解,并且需要推断到在训练过程中未观察到的新疾病领域,但TXGNN可以极大地提高对各种疾病的治疗用途的预测能力。
  • 此外,TXGNN的预测治疗方法与实际电子健康记录数据的相关性很高,并且可以通过对已经跟踪了几年的患者人群进行定位,同时测试大量治疗假设,找到已经或未曾使用某种特定药物的疾病群体。
  • TXGNN的预测结果呈现给一组医生,并且观众可以了解TXGNN用于治疗疾病的自解释模型。一个可用性研究的结果凸显了以临床医生为中心的设计在将机器学习从开发转向生物医学实施中的重要性,该研究表明使用交互式的TXGNN Explorer的研究人员可以重现机器学习模型,更容易地识别和调试模型的失效点。
Leave a Reply

Your email address will not be published. Required fields are marked *