了解LLM-Blender：一种新的集成框架，通过利用多个开源大型语言模型（LLMs）的多样强项，实现持续优异的性能

了解LLM-Blender：一种新的集成框架，通过利用多个开源大型语言模型（LLMs）的多样强项，实现持续优异的性能机器学习第1张

大型语言模型在各种任务中表现出了卓越的性能。从生产独特且有创意的内容和提出问题答案，到翻译语言和概括文本段落，LLM在模拟人类方面非常成功。一些知名的LLM，如GPT、BERT和PaLM，因准确遵循指令和访问大量高质量数据而成为头条新闻。像GPT4和PaLM这样的模型不是开源的，这阻止了任何人了解其架构和训练数据。另一方面，像Pythia、LLaMA和Flan-T5这样的开源LLM提供了一个机会，让研究人员在自定义指令数据集上微调和改进模型。这使得像Alpaca、Vicuna、OpenAssistant和MPT这样的更小更高效的LLM得以开发。

市场上没有一个单一的开源LLM处于领先地位，而不同例子的最佳LLM可能会有很大的差异。因此，为了不断为每个输入产生改进的答案，动态整合这些LLM是必要的。通过整合各种LLM的独特贡献，可以减少偏见、误差和不确定性，从而产生更符合人类偏好的结果。为了解决这个问题，来自艾伦人工智能研究所、南加州大学和浙江大学的研究人员提出了LLM-BLENDER，这是一个集成框架，通过利用多个开源大型语言模型的许多优势，始终获得卓越的性能。

LLM-BLENDER由两个模块组成——PAIRRANKER和GENFUSER。这些模块表明，不同例子的最佳LLM可能会有很大的差异。第一个模块PAIRRANKER被开发出来，用于识别潜在输出之间微小的变化。它使用先进的成对比较技术，其中原始文本和来自各种LLM的两个候选输出作为输入。为了共同编码输入和候选对，它利用交叉注意力编码器，如RoBERTa，PAIRRANKER可以使用这种编码来确定两个候选的质量。

第二个模块GENFUSER专注于合并排名靠前的候选项以生成更好的输出。它最大程度地利用所选候选项的优点，同时最小化它们的缺点。GENFUSER旨在通过合并各种LLM的输出来开发优于任何一个LLM的输出。

为了评估，团队提供了一个称为MixInstruct的基准数据集，它结合了Oracle成对比较和各种指令数据集。该数据集使用11个流行的开源LLM为各种遵循指令的任务生成多个输入的候选项。它包括训练、验证和测试示例，具有自动评估的Oracle比较。这些Oracle比较已用于为候选输出排名，从而可以评估LLM-BLENDER和其他基准技术的性能。

实验结果表明，LLM-BLENDER在各种评估参数上的表现要比单独的LLM和基准技术好得多。它建立了一个相当大的性能差距，并表明采用LLM-BLENDER集成方法可以产生比单个LLM或基准方法更高质量的输出。PAIRRANKER的选择在基于参考的度量和GPT-Rank方面的表现优于单个LLM模型。通过高效的融合，GENFUSER通过利用PAIRRANKER的首选项显著提高了响应质量。

LLM-BLENDER还优于像Vicuna这样的单个LLM，因此展示了通过集成学习来改进LLM部署和研究的巨大潜力。