Meta AI的研究人员推出了一种新的人工智能模型，用于对大型语言模型生成结果进行评论

I had trouble accessing your link so I’m going to try to continue without it.

将以下HTML代码翻译成中文（保留HTML代码）：

Meta AI的研究人员推出了一种新的人工智能模型，用于对大型语言模型生成结果进行评论四海第1张

大型语言模型（LLMs）生成连贯、上下文相关且语义有意义的文本的能力变得越来越复杂。尽管取得了这些进展，LLMs经常提供不准确、可疑和荒谬的结果。因此，不断评估和改进生成结果的技术对于更可信赖的语言模型将会有所帮助。LLMs的帮助下，语言模型的输出得到了增强。在当前的工作中，一些人训练实用函数，以在信息寻求对话任务中对生成的自然语言进行反馈。相反，其他人使用指令提示来创建模型生成的输出文本的多方面评估分数，涵盖各个领域。

尽管最初的研究未能对复杂的数学和推理等任务的模型输出产生反馈，只提供了对输出响应的一般反馈，但最近的一项研究通过指导调整LLM来为其回复创建自我反馈。在这项研究中，来自Meta AI Research的研究人员介绍了Shepherd，一种专门优化用于评估模型生成输出的语言模型。他们的目标是开发一个能够在许多领域提供评论的强大批评模型，尽管与之前的工作有着相似的目标。他们的方法可以识别特定问题，包括事实性、逻辑缺陷、连贯性和一致性，并在需要改进结果时提出修改建议。

Meta AI的研究人员推出了一种新的人工智能模型，用于对大型语言模型生成结果进行评论四海第3张 — 表1：来自Stack Exchange和人工注释的训练数据示例

更准确地说，Shepherd可以提供包括深入主题知识、改进建议和广泛判断和推荐的自然语言反馈。他们开发了两个独特数据集的高质量反馈数据集，以改进Shepherd并对其进行评估：（1）社区反馈，从在线论坛中策划，以捕捉更多样化的互动；（2）人工注释的输入，收集了许多任务的生成结果。请参见表1中的示例。在这些数据集的混合训练下，Shepherd表现出色，在多个下游任务上超过了ChatGPT模型。社区数据比人工注释数据更有用和多样化。然而，通过对社区反馈和人工注释反馈数据的仔细研究，可以发现社区反馈往往更不正式。

由于这些细微差别，Shepherd可以对各种任务提供反馈，并且他们发现使用高质量的人工注释数据来微调模型可以提高模型性能。他们将Shepherd产生的反馈与Alpaca、SelFee和ChatGPT等尖端基线模型进行比较，并进行了基于模型和人类的评估。他们发现Shepherd的批评经常受到其他模型的青睐。例如，Alpaca倾向于赞扬每个模型的答案，这会产生许多不准确的反馈。SelFee经常忽略模型的答案，或者立即回答查询，而不提供可能识别错误的反馈。

他们发现ChatGPT在各种评估情况下更一致，并且在提供准确判断的评论方面表现更好。总之，他们创建了Shepherd，一种新颖的模型，可以对任何LLM生成的内容提供全面的批评，从而提高其质量。通过仔细分析生成的投诉，他们展示了Shepherd在各种生成任务中的有效性。创建一个一流的反馈数据集，可能有助于未来在这一领域的研究，也是他们工作的另一个重要补充。