Press "Enter" to skip to content

UC Berkeley的研究人员提出了一种人工智能算法,可以实现零样本学习目标导向对话代理的获取

大型语言模型(LLM)在各种自然语言任务中表现出很强的能力,例如文本摘要、问答和代码生成等,成为许多实际问题的强有力解决方案。然而,这些模型在目标导向对话方面存在困难,即需要通过对话实现目标,例如作为一名有效的旅行顾问提供量身定制的旅行计划。在实践中,它们通常提供冗长且非个性化的回答。

使用有监督的微调或单步强化学习(RL)训练的模型通常在此类任务中表现出困难,因为它们在多次交互后未针对整体对话结果进行优化。此外,它们在处理此类对话中的不确定性方面也存在不足。在本文中,来自加州大学伯克利分校的研究人员探索了一种将RL与LLMs相结合以实现目标导向对话的新方法。他们的贡献包括一种优化的零样本算法和一种名为”imagination engine (IE)”的新系统,该系统可生成与任务相关且多样化的问题以训练下游代理。

由于IE本身无法生成有效的代理,研究人员利用LLM生成可能的情景。为了增强代理实现期望结果的能力,需要使用多步强化学习来确定最优策略。研究人员对此方法进行了一次修改。他们使用线下基于值的RL从合成数据本身学习策略,而不是使用任何在线策略样本。

为了测试他们方法的有效性,研究人员将GPT代理和IE+RL代理的性能进行了人工评估对比。他们考虑了两个基于实际问题的目标导向对话。研究人员在IE中使用GPT-3.5模型生成合成数据,并使用一个相对较小的仅解码器的GPT-2模型作为下游代理。这使得他们的方法更实用,因为仅在数据生成阶段需要先进模型,从而降低了计算成本。

根据他们的实验,他们发现他们提出的代理在所有度量指标上均优于GPT模型,并确保了对话结果的自然性。从定性结果来看,IE+RL代理的表现也优于其相对应的代理。它生成易回答的问题,并且根据前一个问题智能地提出后续问题。研究人员还使用模拟比较了这两个代理的性能。虽然两者几乎相当,IE+RL代理优于GPT代理,但在定性评估中能够产生更好的结果。

总之,在这篇研究论文中,作者介绍了一种改善LLMs在目标导向对话中性能的方法。他们使用想象引擎生成多样化、与任务相关且真实的合成数据来训练对话代理。更具体地说,他们使用线下方法来避免计算成本。结果表明,他们的方法始终胜过传统方法,为未来的改进铺平了道路。他们相信,这个过程还可以进一步自动化,以提高零样本对话代理的性能,从而改善我们与人工智能系统的互动方式。

Leave a Reply

Your email address will not be published. Required fields are marked *