

密歇根大学的一支研究团队提倡开发新的基准和评估协议,评估大型语言模型(LLM)的心智理论(ToM)能力。研究建议采用全面和情境化的评估方法,将机器ToM分为七个心理状态类别。该研究强调了对LLM心智状态的综合评估的必要性,将其视为物理和社交环境中的代理。
该研究解决了LLM中缺乏健壮的ToM和改善基准和评估方法的必要性。它指出了现有基准的不足之处,并提出了一种全面的评估方法,其中将LLM视为不同情境中的代理。研究强调了有关机器ToM的持续争论,强调了其限制和对更健壮的评估方法的呼吁。它旨在指导未来在将ToM与LLM整合并改善评估手段方面的研究。
对于人类的认知和社交推理来说,ToM是至关重要的,在AI中具有启用社交互动的重要性。研究对Chat-GPT和GPT-4等LLM是否拥有机器ToM提出了质疑,并强调了它们在复杂的社交和信念推理任务中的局限性。需要重新审查现有的评估协议,进行全面调查。它主张采用机器ToM分类和情境化评估方法,将LLM视为真实环境中的代理。
该研究引入了一种用于机器ToM的分类方法,并主张采用情境化评估方法评估LLM。文中对现有的基准进行了回顾,并进行了关于感知视角承担的文献调查。以网格世界中的一项试点研究作为概念验证。研究人员强调了谨慎设计基准的重要性,以避免捷径和数据泄漏,并突出了当前基准的局限性,这是由于有限的数据集访问。
该方法提出了机器ToM的分类方法,包括七个心智状态类别。它主张采用一种全面的、情境化的评估方法,以全面评估心智状态,并防止捷径和数据泄漏。文中以网格世界中的试点研究作为概念验证。它强调了当前ToM基准的局限性,并强调了开发具有高质量注释和私有评估集的新型可扩展标准的必要性。它建议采用公正的评估实践,并计划制定更全面的标准。
总之,该研究强调了在LLM中评估机器ToM的需要。提倡采用全面且情境化的评估方法,将LLM视为真实环境中的代理,并强调了谨慎策划基准的重要性,以防止捷径和数据泄漏。该研究强调了开发具有高质量注释和私有评估集的更大规模基准的重要性,并概述了未来系统基准发展的计划。
作为未来的工作,需要开发新的机器ToM基准,以解决未经探索的方面,避免捷径,确保具备高质量注释的可扩展性。应该关注公正的评估,记录提示和提出一种情境化的ToM评估方法,其中模型被视为各种情境中的代理。建议在情境设置中实施复杂的评估协议。尽管承认试点研究的局限性,但计划在未来进行系统的、更大规模的基准研究。