Press "Enter" to skip to content

元人工智能研究员提出了先进的长上下文LLMs

元人工智能研究员提出了先进的长上下文LLMs 四海 第1张

在一份新的论文中,Meta AI的研究人员提出了先进的长序列语言模型(LLMs),以解决缺乏具有强大长序列理解能力的LLMs的问题。过去,这主要通过专有API实现。

然而,这种方法对于寻求开源解决方案的研究人员和开发人员来说存在一定的不足。虽然存在开源长序列模型,但它们在严格评估方面往往表现不佳,主要关注语言建模损失和不充分反映真实场景的合成任务。

为了应对这些挑战,Meta AI推出了一种新的方法。它基于来自LLAMA 2检查点的持续预训练,将额外的4000亿令牌纳入到创建了抓住长序列理解要点的广泛训练序列中。

目前为止,结果包括了一系列的模型变体,从较小的使用32768令牌序列进行训练的7B/13B模型,到较大的使用16384令牌序列进行训练的34B/70B模型。这种方法的特点在于其评估过程的彻底性。

与以往的研究不同,Meta Research在语言建模能力、合成任务和真实世界基准测试等多个维度对模型进行评估。它们涵盖了长序列和短序列任务,提供了对模型能力的全面了解。

研究结果凸显了模型的扩展行为,表明随着上下文范围的增大,模型的性能也在不断提升。上下文长度成为LLMs扩展的关键因素。

与研究基准LLAMA 2相比,这种方法在长序列任务上取得了显著的进展,并在标准短序列任务上稍微提高了性能。值得注意的是,它在编码、数学问题解决和知识相关任务方面表现出色。

这项研究还探索了一种成本效益的指导微调方法,从而产生了在各种长序列基准测试中优于gpt-3.5-turbo-16k的聊天模型。

根据论文和研究结果,Meta Research的方法弥合了专有和开源长序列LLMs之间的鸿沟。它声称提供了性能更优越、全面评估以及洞察力的模型,这些模型能够塑造其能力的因素。

这项工作使研究人员和开发人员能够利用长序列LLMs的潜力,进而推动基于自然语言处理的研究进入一个新时代。通过推动对先进语言模型和工具的民主化和获得,Meta AI致力于推动更大的人机交互。

Leave a Reply

Your email address will not be published. Required fields are marked *