Press "Enter" to skip to content

纽约大学和Meta AI研究人员通过学习用户和已部署模型之间的自然对话,改进社交对话代理,无需额外注释

纽约大学和Meta AI研究人员通过学习用户和已部署模型之间的自然对话,改进社交对话代理,无需额外注释 四海 第1张纽约大学和Meta AI研究人员通过学习用户和已部署模型之间的自然对话,改进社交对话代理,无需额外注释 四海 第2张

人类输入是改善社交对话模型的关键策略。在带有人类反馈的强化学习中,当需要许多人类注释来保证令人满意的奖励函数时,学习从反馈中取得了巨大的改进。反馈的来源包括用户对对话转折或对话情节的数字分数、排名或自然语言评论,以及对机器人转折的二元评估。大多数工作有意利用众包工人收集这些信号,因为自然用户可能不愿意被打扰或者如果他们这样做可能提供不准确的信息。

在这项研究中,来自纽约大学和Meta AI的研究人员考虑到他们有很多部署时的对话情节,这些情节展示了模型与真实用户之间的真实讨论。他们试图确定是否可以从这些自然用户讨论中获取任何隐含的指示,并利用这些信号来增强对话模型。这样做有两个原因。首先,尽管他们可能不提供明确的注释,但自然用户最接近未来部署的数据分布。其次,使用先前对话情节中的隐含信号可以节省用于众包的金钱。

纽约大学和Meta AI研究人员通过学习用户和已部署模型之间的自然对话,改进社交对话代理,无需额外注释 四海 第3张
图1:方法的总体概述。从人类和机器人之间的对话中获取隐含信号,例如下一个人类转折是否会很长或很短、快乐或不快乐。

更准确地说,他们研究了是否可以调整聊天机器人以使用最佳的隐含反馈信号,如即将到来的人类答案的数量、长度、情感或响应性。他们使用来自BlenderBot在线部署的公开可用的去标识化数据来研究这个问题。使用这些数据,他们训练样本和重新排序模型,比较各种隐含反馈信号。通过自动化和人工判断,他们发现他们的新模型优于基线回复。此外,他们还询问是否支持这些措施会导致不良行为,因为他们的隐含反馈信号是两个生成质量的粗略代理指标。

纽约大学和Meta AI研究人员通过学习用户和已部署模型之间的自然对话,改进社交对话代理,无需额外注释 四海 第4张

是的,这取决于使用的信号。特别是,优化更长的讨论长度可能导致模型提出有争议的观点或以敌对或争斗的方式回复。另一方面,优化积极的回应或情绪相对于基线减少了这些行为。他们得出结论,来自人类的隐含反馈是一种有益的训练信号,可以提高整体性能,但所采用的具体动作具有重要的行为影响。

Leave a Reply

Your email address will not be published. Required fields are marked *