Press "Enter" to skip to content

帮助确定疾病原因的遗传突变目录

新的人工智能工具对7100万个“错义”突变进行分类

揭示疾病的根本原因是人类遗传学面临的最大挑战之一。由于可能的突变数量众多且实验数据有限,到底哪些突变可能引起疾病仍然是一个谜。这种知识对于更快的诊断和开发拯救生命的治疗方法至关重要。

今天,我们发布了一个“错义”突变目录,研究人员可以了解这些突变可能产生的影响。错义变异是可以影响人类蛋白质功能的遗传突变。在某些情况下,它们可以导致囊性纤维化、镰刀细胞贫血或癌症等疾病。

AlphaMissense目录是使用我们的新AI模型AlphaMissense开发的,该模型可对错义变异进行分类。在一篇发表在《科学》杂志上的论文中,我们展示了它将7100万种可能的错义变异中的89%归类为可能致病或可能良性。相比之下,只有0.1%经过人类专家确认。

能够准确预测变异效果的AI工具具备加速从分子生物学到临床和统计遗传学等领域的研究的能力。揭示致病性突变的实验费用高昂且繁琐 – 每个蛋白质都是独特的,每个实验都必须单独设计,这可能需要几个月的时间。通过使用AI预测,研究人员可以一次性预览数千个蛋白质的结果,有助于优先分配资源并加速更复杂的研究。

我们已经将所有预测结果免费提供给研究界,并公开了AlphaMissense模型的代码。

AlphaMissense预测了所有可能的7100万种错义变异的致病性。它将89%归类为可能良性,32%归类为可能致病。

什么是错义变异?

错义变异是DNA中的单个字母替换,导致蛋白质中的不同氨基酸。如果将DNA视为一种语言,改变一个字母就可以改变一个单词,从而改变整个句子的含义。在这种情况下,替换改变了被翻译的氨基酸,这可能会影响蛋白质的功能。

平均每个人携带着9000多个错义变异。其中大多数是良性的,几乎没有任何影响,但其他一些是致病的,可以严重干扰蛋白质功能。错义变异可用于诊断罕见遗传疾病,其中一两个甚至一个错义变异可能直接导致疾病。它们对于研究复杂疾病也很重要,如2型糖尿病,该疾病可能由多种不同类型的遗传变化组合而成。

对错义变异进行分类是理解这些蛋白质变化中哪些可能引起疾病的重要步骤。在已经在人类中观察到的400多万个错义变异中,只有2%被专家注释为致病性或良性,大约占所有7100万个可能的错义变异的0.1%。其余的被认为是“未知意义的变异”,因为缺乏对其影响的实验或临床数据。通过使用AlphaMissense,我们现在通过对已知疾病变异数据库进行90%精确度的阈值分类,获得了迄今为止最清晰的情况。

致病性还是良性:AlphaMissense如何对变异进行分类

AlphaMissense基于我们的突破性模型AlphaFold,该模型可以根据氨基酸序列预测几乎所有已知蛋白质的结构。我们的改进模型可以预测突变引起的蛋白质氨基酸错义变异的致病性。

为了训练AlphaMissense,我们在AlphaFold的基础上进行了精调,根据区分人类和密切相关灵长类动物种群中的突变标签进行了训练。常见的变异被视为良性,而从未见过的变异被视为致病性。AlphaMissense不会预测变异引起的蛋白质结构变化或其他对蛋白质稳定性的影响。相反,它利用相关蛋白质序列和变异的结构上下文来生成一个介于0和1之间的分数,该分数大致评估变异具有致病性的可能性。这种连续的分数允许用户选择一个阈值,以符合其准确性要求,将变异分类为致病性或良性。

AlphaMissense分类人类错义变异的示意图。输入一个错义变异,AI系统将其评分为致病性或可能良性。AlphaMissense结合了结构上下文和蛋白质语言模型,并在人类和灵长类变异频率数据库上进行了精调。

AlphaMissense在各种遗传和实验基准测试中取得了最先进的预测结果,而无需明确训练这些数据。当用于对ClinVar的变异进行分类时,我们的工具在性能上优于其他计算方法,ClinVar是一个关于人类变异与疾病关系的公共存档。我们的模型还是预测实验结果最准确的方法,这表明它与不同的病原性测量方式是一致的。

AlphaMissense在预测错义变异效果方面优于其他计算方法。左图:比较AlphaMissense和其他方法在对Clinvar公共存档中分类变异的性能。灰色显示的方法是直接在ClinVar上训练的,它们在这个基准测试中的性能可能被过高估计,因为其中一些训练变异物种包含在测试集中。右图:比较AlphaMissense和其他方法在预测生物实验测量结果方面的性能。

构建社区资源

AlphaMissense基于AlphaFold构建,进一步推动世界对蛋白质的了解。一年前,我们发布了使用AlphaFold预测的2亿个蛋白质结构,这有助于全球数百万科学家加快研究进程,为新发现铺平道路。我们期待看到AlphaMissense如何帮助解决基因组学和生物科学中的开放性问题。

我们已经将AlphaMissense的预测结果免费提供给科学界。与EMBL-EBI合作,我们还通过Ensembl变异效应预测器使其更易于研究人员使用。

除了我们的错义突变查找表之外,我们还分享了超过19,000个人类蛋白质中所有可能的2.16亿个单个氨基酸序列替换的扩展预测结果。我们还包括每个基因的平均预测值,类似于测量基因的进化约束,这表明该基因对生物体的生存至关重要。

AlphaMissense预测结果覆盖在AlphaFold预测的结构上的示例(红色=预测为致病性,蓝色=预测为良性,灰色=不确定)。红点表示已知的致病性错义变异,蓝点表示来自ClinVar数据库的已知良性变异。左图:HBB蛋白。该蛋白的变异可能导致镰刀细胞贫血。右图:CFTR蛋白。该蛋白的变异可能导致囊性纤维化。

加速对遗传疾病的研究

将这项研究转化为实际应用的关键步骤是与科学界合作。我们一直与英国基因组学研究机构(Genomics England)合作,探索这些预测如何帮助研究罕见疾病的遗传学。英国基因组学研究机构将AlphaMissense的发现与以前与人类参与者一起汇总的变异致病性数据进行了交叉验证。他们的评估证实了我们的预测准确一致,为AlphaMissense提供了另一个现实世界的基准。

虽然我们的预测结果并不是直接用于临床,而应与其他证据一起解释使用,但这项工作有可能改善罕见遗传疾病的诊断,并帮助发现新的致病基因。

最终,我们希望AlphaMissense与其他工具一起,能够让研究人员更好地理解疾病并开发新的拯救生命的治疗方法。

了解更多关于AlphaMissense的信息:

阅读我们在Science杂志上的论文:https://www.science.org/doi/10.1126/science.adg7492

下载Ensembl变异效应预测器插件:https://www.ensembl.org/info/docs/tools/vep/script/vep_plugins.html

下载AlphaMissense代码:https://github.com/deepmind/alphamissense

Leave a Reply

Your email address will not be published. Required fields are marked *