美团和北卡大学教堂山分校的研究人员引入“分支-解决-合并” 一种革命性的程序，提升大型语言模型在复杂语言任务中的性能

BRANCH-SOLVE-MERGE（BSM）是一种用于增强大型语言模型（LLM）在复杂自然语言任务中的程序。BSM包括分支、解决和合并模块，用于规划、破解和组合子任务。应用于LLM响应评估和带有Vicuna、LLaMA-2-chat和GPT-4等模型的约束文本生成，BSM提高了人类-LLM一致性，减少了偏见，并使LLaMA-2-chat能够在大多数领域与或超过GPT-4相匹配。它还提高了约束故事生成的连贯性和满意度。

LLM在多方面语言任务上表现出色，但通常需要复杂性的帮助。BSM是一种LLM程序，将任务分为步骤，并使用不同的提示参数化每个步骤。它是一种与以前的顺序方法有所不同的方法，目标是解决LLM评估和约束文本生成等受益于并行分解的任务。该过程为评估LLM在复杂文本生成任务中提供了宝贵的解决方案，特别是在基于规划和约束的场景中，满足对整体评估的需求。

LLM在文本生成方面表现出色，但在复杂的多目标任务中需要帮助。UNC-Chapel Hill和Meta的研究人员引入了BSM，一种应对这些挑战的方法。BSM通过分支、解决和合并模块将任务分解为并行子任务。应用于LLM响应评估和约束文本生成，BSM提高了这些任务中的正确性、一致性和约束满足度，使得LLaMA-2-chat、Vicuna和GPT-4等各种LLM受益。它为提高LLM在复杂语言任务中的性能提供了有前途的解决方案。

BSM将复杂语言任务分解为三个模块：分支、解决和合并。应用于LLM响应评估和约束文本生成，BSM提高了正确性的一致性，并减少了偏见。它将人类-LLM一致性提高了26％，约束满足度提高了12％。BSM是一种多功能的基于分解的方法，可应用于各种LLM，因此在改善不同任务和规模的LLM评估方面具有前景。

BSM提高了LLM-human的一致性，使LLaMA-2-70B-chat在回答一回合和二回合的问题方面提高了12个百分点。它在位置偏差和长度偏差方面的性能超越了自一致性，并减少了34％的偏见。BSM使弱的开源模型（如LLaMA-2）能够与GPT-4竞争。BSM的性能延伸到各个领域，与不同类别的GPT-4相匹配或逼近，在改善一致性得分和减少偏见方面。它在评分基于参考的问题方面表现出色，在数学等类别中超越LLaMA-2-70B-chat和GPT-4，提高了一致性得分，减轻了位置偏差。

BSM方法解决了LLM评估和文本生成中的关键挑战，增强了连贯性、规划和任务分解。BSM的分支、解决和合并模块改进了LLM响应评估和约束文本生成，从而提高了正确性、一致性和人类-LLM一致性。BSM还减少了偏见，增强了故事的连贯性，并提高了约束满足度。它在不同的LLM和领域中证明了效果，甚至在各种类别中胜过GPT-4。BSM是一种多功能且有前景的方法，可提高LLM在多个任务中的性能。

查看论文。此研究的所有功劳归功于该项目的研究人员。另外，别忘了加入我们的32k+ ML SubReddit，40k+ Facebook Community，Discord Channel和Email Newsletter，我们在其中分享最新的AI研究新闻、酷炫的AI项目等等。

如果您喜欢我们的作品，您会喜欢我们的通讯..

我们也在Telegram和WhatsApp上。

研究人员来自Meta和UNC-Chapel Hill推出Branch-Solve-Merge：一款革命性程序，提高复杂语言任务中大型语言模型的性能首次出现在MarkTechPost上。