Press "Enter" to skip to content

了解LLM-Blender:一种新的集成框架,通过利用多个开源大型语言模型(LLMs)的多样强项,实现持续优异的性能

了解LLM-Blender:一种新的集成框架,通过利用多个开源大型语言模型(LLMs)的多样强项,实现持续优异的性能 机器学习 第1张了解LLM-Blender:一种新的集成框架,通过利用多个开源大型语言模型(LLMs)的多样强项,实现持续优异的性能 机器学习 第2张

大型语言模型在各种任务中表现出了卓越的性能。从生产独特且有创意的内容和提出问题答案,到翻译语言和概括文本段落,LLM在模拟人类方面非常成功。一些知名的LLM,如GPT、BERT和PaLM,因准确遵循指令和访问大量高质量数据而成为头条新闻。像GPT4和PaLM这样的模型不是开源的,这阻止了任何人了解其架构和训练数据。另一方面,像Pythia、LLaMA和Flan-T5这样的开源LLM提供了一个机会,让研究人员在自定义指令数据集上微调和改进模型。这使得像Alpaca、Vicuna、OpenAssistant和MPT这样的更小更高效的LLM得以开发。

市场上没有一个单一的开源LLM处于领先地位,而不同例子的最佳LLM可能会有很大的差异。因此,为了不断为每个输入产生改进的答案,动态整合这些LLM是必要的。通过整合各种LLM的独特贡献,可以减少偏见、误差和不确定性,从而产生更符合人类偏好的结果。为了解决这个问题,来自艾伦人工智能研究所、南加州大学和浙江大学的研究人员提出了LLM-BLENDER,这是一个集成框架,通过利用多个开源大型语言模型的许多优势,始终获得卓越的性能。

LLM-BLENDER由两个模块组成——PAIRRANKER和GENFUSER。这些模块表明,不同例子的最佳LLM可能会有很大的差异。第一个模块PAIRRANKER被开发出来,用于识别潜在输出之间微小的变化。它使用先进的成对比较技术,其中原始文本和来自各种LLM的两个候选输出作为输入。为了共同编码输入和候选对,它利用交叉注意力编码器,如RoBERTa,PAIRRANKER可以使用这种编码来确定两个候选的质量。

第二个模块GENFUSER专注于合并排名靠前的候选项以生成更好的输出。它最大程度地利用所选候选项的优点,同时最小化它们的缺点。GENFUSER旨在通过合并各种LLM的输出来开发优于任何一个LLM的输出。

为了评估,团队提供了一个称为MixInstruct的基准数据集,它结合了Oracle成对比较和各种指令数据集。该数据集使用11个流行的开源LLM为各种遵循指令的任务生成多个输入的候选项。它包括训练、验证和测试示例,具有自动评估的Oracle比较。这些Oracle比较已用于为候选输出排名,从而可以评估LLM-BLENDER和其他基准技术的性能。

实验结果表明,LLM-BLENDER在各种评估参数上的表现要比单独的LLM和基准技术好得多。它建立了一个相当大的性能差距,并表明采用LLM-BLENDER集成方法可以产生比单个LLM或基准方法更高质量的输出。PAIRRANKER的选择在基于参考的度量和GPT-Rank方面的表现优于单个LLM模型。通过高效的融合,GENFUSER通过利用PAIRRANKER的首选项显著提高了响应质量。

LLM-BLENDER还优于像Vicuna这样的单个LLM,因此展示了通过集成学习来改进LLM部署和研究的巨大潜力。

Leave a Reply

Your email address will not be published. Required fields are marked *