Press "Enter" to skip to content

美团和北卡大学教堂山分校的研究人员引入“分支-解决-合并” 一种革命性的程序,提升大型语言模型在复杂语言任务中的性能

BRANCH-SOLVE-MERGE(BSM)是一种用于增强大型语言模型(LLM)在复杂自然语言任务中的程序。BSM包括分支、解决和合并模块,用于规划、破解和组合子任务。应用于LLM响应评估和带有Vicuna、LLaMA-2-chat和GPT-4等模型的约束文本生成,BSM提高了人类-LLM一致性,减少了偏见,并使LLaMA-2-chat能够在大多数领域与或超过GPT-4相匹配。它还提高了约束故事生成的连贯性和满意度。

LLM在多方面语言任务上表现出色,但通常需要复杂性的帮助。BSM是一种LLM程序,将任务分为步骤,并使用不同的提示参数化每个步骤。它是一种与以前的顺序方法有所不同的方法,目标是解决LLM评估和约束文本生成等受益于并行分解的任务。该过程为评估LLM在复杂文本生成任务中提供了宝贵的解决方案,特别是在基于规划和约束的场景中,满足对整体评估的需求。

LLM在文本生成方面表现出色,但在复杂的多目标任务中需要帮助。UNC-Chapel Hill和Meta的研究人员引入了BSM,一种应对这些挑战的方法。BSM通过分支、解决和合并模块将任务分解为并行子任务。应用于LLM响应评估和约束文本生成,BSM提高了这些任务中的正确性、一致性和约束满足度,使得LLaMA-2-chat、Vicuna和GPT-4等各种LLM受益。它为提高LLM在复杂语言任务中的性能提供了有前途的解决方案。

BSM将复杂语言任务分解为三个模块:分支、解决和合并。应用于LLM响应评估和约束文本生成,BSM提高了正确性的一致性,并减少了偏见。它将人类-LLM一致性提高了26%,约束满足度提高了12%。BSM是一种多功能的基于分解的方法,可应用于各种LLM,因此在改善不同任务和规模的LLM评估方面具有前景。

BSM提高了LLM-human的一致性,使LLaMA-2-70B-chat在回答一回合和二回合的问题方面提高了12个百分点。它在位置偏差和长度偏差方面的性能超越了自一致性,并减少了34%的偏见。BSM使弱的开源模型(如LLaMA-2)能够与GPT-4竞争。BSM的性能延伸到各个领域,与不同类别的GPT-4相匹配或逼近,在改善一致性得分和减少偏见方面。它在评分基于参考的问题方面表现出色,在数学等类别中超越LLaMA-2-70B-chat和GPT-4,提高了一致性得分,减轻了位置偏差。

BSM方法解决了LLM评估和文本生成中的关键挑战,增强了连贯性、规划和任务分解。BSM的分支、解决和合并模块改进了LLM响应评估和约束文本生成,从而提高了正确性、一致性和人类-LLM一致性。BSM还减少了偏见,增强了故事的连贯性,并提高了约束满足度。它在不同的LLM和领域中证明了效果,甚至在各种类别中胜过GPT-4。BSM是一种多功能且有前景的方法,可提高LLM在多个任务中的性能。

查看论文。此研究的所有功劳归功于该项目的研究人员。另外,别忘了加入我们的32k+ ML SubReddit40k+ Facebook CommunityDiscord ChannelEmail Newsletter,我们在其中分享最新的AI研究新闻、酷炫的AI项目等等。

如果您喜欢我们的作品,您会喜欢我们的通讯..

我们也在TelegramWhatsApp上。

研究人员来自Meta和UNC-Chapel Hill推出Branch-Solve-Merge:一款革命性程序,提高复杂语言任务中大型语言模型的性能首次出现在MarkTechPost上。

Leave a Reply

Your email address will not be published. Required fields are marked *