斯坦福研究人员推出了HyenaDNA：一种长程基因组基础模型，其上下文长度可达到100万个令牌，并且具有单核苷酸分辨率

斯坦福研究人员推出了HyenaDNA：一种长程基因组基础模型，其上下文长度可达到100万个令牌，并且具有单核苷酸分辨率四海第1张

在过去几年中，人工智能（AI）领域取得了快速的进展，有可能彻底改变行业，并推动了可能性的边界。研究人员关注的一个领域是开发更强大和高效的自然语言任务模型。在这个背景下，研究人员不断努力开发能够处理更长标记的模型，因为模型中的标记数量决定了其处理和理解文本的能力。此外，更高的标记数量使模型能够考虑更广泛的上下文，从而使模型能够处理大量的数据序列。然而，在长上下文模型方面，大部分关注都集中在自然语言上，而与处理长序列的领域存在显著的疏忽：基因组学，它涉及研究生物体的遗传物质的不同方面，如结构、进化元素等。与自然语言模型采取的方法类似，研究人员提出了在基因组学中使用基础模型（FMs）来从非结构化的基因组数据中获取可泛化特征的建议。这些FMs可以进行微调，用于各种任务，如基因定位、调控元件识别等。

然而，基于Transformer架构的现有基因组模型在处理DNA序列时面临着独特的挑战。其中一个限制是注意力的二次扩展，限制了对DNA内的长程相互作用的建模。此外，主流方法依赖于固定的k-mers和标记器来聚合有意义的DNA单元，这往往导致个体DNA特征的损失。然而，与自然语言不同，这种损失是至关重要的，因为即使是微小的遗传变异也可能对蛋白质功能产生深远影响。Hyena是一种最近引入的LLM，通过利用隐式卷积成为一种有希望的替代方案来处理长序列。这种创新方法通过允许处理更长的上下文长度，显著减少计算时间复杂度，证明了与基于注意力的模型相当的质量。受到这些发现的启发，斯坦福大学和哈佛大学的研究人员团队开始调查是否可以利用Hyena的能力有效捕捉分析基因组序列所需的基本长程依赖性和个体DNA特征。

这导致了HyenaDNA的开发，这是一种基因组FM，具有处理长达100万个标记的上下文长度的前所未有的能力，相比现有的基于注意力的模型增加了500倍。利用Hyena的长程能力，HyenaDNA展示了无与伦比的可伸缩性，训练速度比配备FlashAttention的Transformer快160倍。HyenaDNA利用一系列Hyena操作符作为其模型DNA和其复杂交互的基础。该模型使用无监督学习来学习DNA序列的分布，并理解基因如何编码以及非编码区域在基因表达中起到调控功能。该模型在一些具有挑战性的基因组任务上表现出色，如长程物种分类任务。此外，与核苷酸Transformer相比，它在17个数据集中有12个达到了最先进的结果，同时使用的参数和预训练数据显著减少。

如前所述，在预训练期间，HyenaDNA可以达到100万个标记的令人印象深刻的上下文长度，使模型能够有效捕获基因组序列中的长程依赖性。此外，通过在每个层上利用单核苷酸分辨率和全局上下文进行标记化，进一步增强了模型的能力。为了解决训练不稳定性并进一步加快过程，研究人员还考虑到了序列长度预热调度器，从而使物种分类相关任务的训练时间减少了40%。HyenaDNA的另一个重要优势是其参数效率。研究人员还对模型大小和质量之间的关系进行了突破性观察，表明在较长的序列和较小的词汇表中，HyenaDNA尽管尺寸显著较小，但表现卓越。

研究人员评估了HyenaDNA在几个下游任务上的性能。在GenomicBenchmarks数据集上，预训练模型在所有八个数据集上都取得了新的最先进（SOTA）性能，远远超过了以前的方法。此外，在Nucleotide Transformer的基准测试中，HyenaDNA在17个数据集中有12个达到了SOTA结果，并且使用的参数和预训练数据要少得多。为了探索在基因组学中上下文学习（ICL）的潜力，研究人员还进行了一系列实验。他们引入了软提示标记的概念，允许输入指导冻结预训练的HyenaDNA模型的输出，而无需更新模型权重或附加解码器头部。增加软提示标记的数量显著提高了在GenomicBenchmarks数据集上的准确性。该模型在超长范围任务中也表现出色。在具有挑战性的染色质剖面任务上，HyenaDNA与SOTA稀疏变压器模型BigBird进行了有效竞争。此外，在超长范围物种分类任务中，当上下文长度增加到450K和1M标记时，该模型证明了其效率。

这些结果突显了HyenaDNA在处理复杂基因组任务方面的卓越能力，以及它在解决长程依赖和物种差异方面的潜力。他们预期这一进展将对推动AI辅助药物发现和治疗创新至关重要。此外，它还有潜力使基因组基础模型能够以个性化的方式学习和分析完整的患者基因组，进一步增强对基因组学的理解和应用。