Press "Enter" to skip to content

使用人工智能预测基因表达

基于Transformer的Enformer架构通过提高对DNA序列影响基因表达的预测能力,推动了基因研究的进展。

当人类基因组计划成功地绘制了人类基因组的DNA序列时,国际研究界对于更好地理解影响人类健康和发育的基因指令感到兴奋。DNA携带着决定从眼睛颜色到对某些疾病和疾病易感性的遗传信息。人体中被称为基因的大约20,000个DNA部分包含有关蛋白质的氨基酸序列的指令,这些蛋白质在我们的细胞中执行许多重要功能。然而,这些基因只占基因组的不到2%。剩下的碱基对——占据基因组中三十亿个“字母”中的98%——被称为“非编码”,它们包含了关于何时何地在人体中产生或表达基因的不太被理解的指令。在DeepMind,我们相信人工智能可以揭示这类复杂领域的更深层次理解,加速科学进步,并为人类健康带来潜在的益处。

今天,《自然方法学》(Nature Methods)发表了题为“通过整合长程相互作用从序列中有效预测基因表达”的论文(首次在bioRxiv上以预印本形式分享),我们与我们在Calico的Alphabet同事合作,引入了一种名为Enformer的神经网络架构,极大地提高了从DNA序列预测基因表达的准确性。为了推动基因调控和疾病因素的进一步研究,我们还在此处公开提供了我们的模型及其对常见遗传变异的初步预测。

以前的基因表达研究通常使用卷积神经网络作为基本构建模块,但是其在模拟远距离增强子对基因表达的影响方面的局限性妨碍了其准确性和应用。我们的初步探索依赖于Basenji2,它可以从较长的DNA序列(40,000个碱基对)中预测调节活性。在这项工作和了解到调节性DNA元素可以在更远距离上影响表达的知识的推动下,我们看到了需要进行基本架构改变以捕获长序列的需求。

我们开发了一种基于自然语言处理中常用的Transformer的新模型,利用自注意机制来整合更大的DNA上下文。由于Transformer非常适合处理长文本段落,我们对其进行了改进,使其能够“阅读”大大扩展的DNA序列。通过有效地处理序列,以考虑距离比以前的方法长5倍以上(即200,000个碱基对)的相互作用,我们的架构可以从DNA序列更远的位置模拟增强子等重要调节元素对基因表达的影响。

Enformer受过训练,可以从输入DNA的200,000个碱基对预测功能基因组数据,包括基因表达。上面的示例展示了超过5,000个可能的基因组轨迹中的三个。通过使用收集整个序列的信息的Transformer模块,并利用注意力机制,我们能够与先前的模型相比,有效地考虑更长的输入序列。

为了更好地理解Enformer如何解释DNA序列以得出更准确的预测,我们使用贡献分数来突出显示输入序列中最具影响力的部分。与生物学直觉相匹配,我们观察到该模型即使位于基因之外超过50,000个碱基对的增强子也会引起注意。预测哪些增强子调控哪些基因仍然是基因组学中一个尚未解决的重要问题,因此我们很高兴看到Enformer的贡献分数与专门为此任务开发的现有方法(使用实验数据作为输入)相当。Enformer还学习到了隔离元素,用于分隔DNA的两个独立调控区域。

Enformer关注与基因(蓝色显示)相距超过20,000个碱基对的相关调节DNA区域(以灰色框表示)得益于更广泛的接受场。

尽管现在可以对一个生物的DNA进行全面研究,但需要进行复杂的实验才能理解基因组。尽管进行了大量的实验努力,但DNA对基因表达的控制仍然是一个谜。有了人工智能,我们可以探索基因组中的新模式,并提供关于序列变化的机械性假设。类似于拼写检查器,Enformer部分理解DNA序列的词汇,并可以突出显示可能导致基因表达改变的编辑。

这个新模型的主要应用是预测DNA字母的哪些变化,也称为遗传变异,会改变基因的表达。与先前的模型相比,Enformer在预测变异对基因表达的影响方面显著更准确,无论是自然遗传变异还是改变重要调控序列的合成变异。这个特性对于解释通过全基因组关联研究获得的与疾病相关的变异数量的增加非常有用。与复杂遗传疾病相关的变异主要位于基因组的非编码区域,很可能通过改变基因表达来引起疾病。但由于变异之间的内在相关性,其中许多与疾病相关的变异只是表面上的相关而非因果关系。计算工具现在可以帮助区分真正的关联和误报。

<img alt="位于免疫应答基因NLRC5中的变异rs11644125与单核细胞和淋巴细胞白细胞水平降低相关。通过系统地突变变异周围的每个位置并预测对NLRC5基因表达的结果性改变(以字母高度表示),我们观察到该变异导致NLRC5的整体表达降低,并调节了一种名为SP1的转录因子的已知结合基序。因此,Enformer的预测表明,这个变异对白细胞计数的生物学机制是由于干扰SP1结合导致NLRC5基因表达降低。

我们离解开人类基因组中尚未解决的众多谜题还有很长的路要走,但Enformer是理解基因组序列复杂性的一步。如果您有兴趣使用人工智能探索基本细胞过程的工作原理,以及它们如何编码在DNA序列中,并建立新的系统来推进基因组学和疾病理解,我们正在招聘。我们也期待与其他研究人员和组织扩大合作,共同探索计算模型,以帮助解决基因组学核心问题。

Leave a Reply

Your email address will not be published. Required fields are marked *