Abacus AI 推出一款新的开放式长上下文大语言模型 LLM：遇见Giraffe

Abacus AI 推出一款新的开放式长上下文大语言模型 LLM：遇见Giraffe 四海第1张

最近的语言模型可以将长上下文作为输入；需要了解它们如何更好地使用更长的上下文。能否将LLMs扩展到更长的上下文？这是一个未解答的问题。Abacus AI的研究人员进行了多次实验，涉及不同方案来开发Llama的上下文长度能力，该模型在上下文长度2048上进行了预训练。他们使用IFT将这些模型进行线性缩放，缩放比例为4和16。将模型缩放到16倍可以执行长达16k的上下文长度的任务，甚至可以执行长达20-24k的上下文长度的任务。

扩展上下文长度的不同方法包括线性缩放、通过幂将旋转位置嵌入（RoPE）的傅里叶基缩放、截断傅里叶基和随机化位置向量。Abacus AI的研究人员使用这些方法对RedPajama数据集和Vicuna数据集进行了微调。他们发现线性缩放是稳健的，但会增加模型的上下文长度。截断和随机化具有很高的困惑度分数，但在检索任务上表现较差。

为了评估这些模型，研究人员使用了来自LMSys、开放式问答数据集和WikiQA的数据集。LMSys数据集用于在上下文中定位子字符串。WikiQA任务是根据维基百科文档中给出的信息回答问题的任务。

团队根据Google自然问题中的简短回答格式数据构建了一个QA任务。他们确保输出只是从原始文档中复制粘贴的短词回答。这样可以精确定位LLM应该查找的位置，通过将答案放置在不同位置有效地评估扩展上下文长度的每个部分。他们还创建了多个具有不同大小的相同维基百科文档的版本，这使他们能够在模型大小上进行公平评估。

基于维基百科的数据集的问题是模型从其预训练的文本中回答而不是从上下文中回答。研究人员通过创建一个由只有数字答案的问题组成的改编数据集来解决这个问题。他们改变了答案和文档中响应的每个出现，使得如果LLM从其预训练的文本中回忆起来，模型将错误地回答。他们将原始QA任务命名为自由格式QA（FFQA），将改编任务命名为改编数字QA（AltQA）。

AbacusAI的研究人员在两个版本的QA任务中对每个示例进行了存在准确性评估。存在准确性是衡量生成的解决方案中是否存在答案作为子字符串的准确性。他们观察到IFT的准确性提高并不能给模型能够实现的上下文长度范围带来任何扩展。

研究人员表明，通过缩放上下文进行IFT可以显著提高性能。他们观察到在缩放上下文因子插值的所有位置上，FFQA的性能提高了2倍，AltQA的性能提高了2.5倍。最后，他们的研究工作提出了一个更大上下文的语言模型，它通过更好地捕捉文档的主题更容易地提高困惑度。