四海吧 – Page 130 – 四海之内皆兄弟，四海带你涨姿势

Python 中处理分类变量的指南

Published June 19, 2023 by 四海吧

在数据科学或机器学习项目中处理分类变量并非易事这种工作需要对应用领域有深入的了解和对…广泛的理解

了解LLM-Blender：一种新的集成框架，通过利用多个开源大型语言模型（LLMs）的多样强项，实现持续优异的性能

Published June 19, 2023 by 四海吧

大型语言模型在各种任务中表现出了卓越的性能。从生产独特且有创意的内容和提出问题答案，到翻译语言和概括文本段落，LLM在模拟人类方面非常成功。一些知名的LLM，如GPT、BERT和PaLM，因准确遵循指令和访问大量高质量数据而成为头条新闻。像GPT4和PaLM这样的模型不是开源的，这阻止了任何人了解其架构和训练数据。另一方面，像Pythia、LLaMA和Flan-T5这样的开源LLM提供了一个机会，让研究人员在自定义指令数据集上微调和改进模型。这使得像Alpaca、Vicuna、OpenAssistant和MPT这样的更小更高效的LLM得以开发。市场上没有一个单一的开源LLM处于领先地位，而不同例子的最佳LLM可能会有很大的差异。因此，为了不断为每个输入产生改进的答案，动态整合这些LLM是必要的。通过整合各种LLM的独特贡献，可以减少偏见、误差和不确定性，从而产生更符合人类偏好的结果。为了解决这个问题，来自艾伦人工智能研究所、南加州大学和浙江大学的研究人员提出了LLM-BLENDER，这是一个集成框架，通过利用多个开源大型语言模型的许多优势，始终获得卓越的性能。 LLM-BLENDER由两个模块组成——PAIRRANKER和GENFUSER。这些模块表明，不同例子的最佳LLM可能会有很大的差异。第一个模块PAIRRANKER被开发出来，用于识别潜在输出之间微小的变化。它使用先进的成对比较技术，其中原始文本和来自各种LLM的两个候选输出作为输入。为了共同编码输入和候选对，它利用交叉注意力编码器，如RoBERTa，PAIRRANKER可以使用这种编码来确定两个候选的质量。第二个模块GENFUSER专注于合并排名靠前的候选项以生成更好的输出。它最大程度地利用所选候选项的优点，同时最小化它们的缺点。GENFUSER旨在通过合并各种LLM的输出来开发优于任何一个LLM的输出。为了评估，团队提供了一个称为MixInstruct的基准数据集，它结合了Oracle成对比较和各种指令数据集。该数据集使用11个流行的开源LLM为各种遵循指令的任务生成多个输入的候选项。它包括训练、验证和测试示例，具有自动评估的Oracle比较。这些Oracle比较已用于为候选输出排名，从而可以评估LLM-BLENDER和其他基准技术的性能。实验结果表明，LLM-BLENDER在各种评估参数上的表现要比单独的LLM和基准技术好得多。它建立了一个相当大的性能差距，并表明采用LLM-BLENDER集成方法可以产生比单个LLM或基准方法更高质量的输出。PAIRRANKER的选择在基于参考的度量和GPT-Rank方面的表现优于单个LLM模型。通过高效的融合，GENFUSER通过利用PAIRRANKER的首选项显著提高了响应质量。 LLM-BLENDER还优于像Vicuna这样的单个LLM，因此展示了通过集成学习来改进LLM部署和研究的巨大潜力。

四海吧 Posts