大规模语言模型能否取代人类在文本评估任务中的角色？这篇人工智能论文提议使用LLM来评估文本的质量，作为人工评估的替代方案

大规模语言模型能否取代人类在文本评估任务中的角色？这篇人工智能论文提议使用LLM来评估文本的质量，作为人工评估的替代方案四海第1张

人类评估一直被用来评估自然语言处理模型和算法对文本质量的表现。然而，人类评估有时并不一致，并且可能无法重复，因为很难招募相同的人类评估者并得到相同的评估结果，评估者使用了不同数量的因素，包括主观性或对评估标准的解释差异。

台湾大学的研究人员研究了“大规模语言模型”（使用大量可在网络上访问的文本数据进行训练的模型，从而学习使用人类语言）作为一种新的评估方法，以解决这个可重复性问题。研究人员向LLMs提供相同的指令、要评估的样本和问题，然后要求LLMs为这些问题生成回答。他们使用人类和LLM评估来评估两个自然语言处理任务中的文本：开放式故事生成和对抗性攻击。

在“开放式故事生成”中，他们通过使用大规模语言模型和人类评估来检查由人类和生成模型（GPT-2）生成的故事的质量，以验证大规模语言模型是否可以将人类编写的故事评分高于生成模型生成的故事。

为了做到这一点，他们首先生成了一个问卷（评估指南、生成的故事片段和评估问题），根据四个不同的属性（语法准确性、一致性、喜欢度和相关性）分别在Likert量表（5个级别）上进行评分。

在人类评估中，用户按照准备好的问卷进行回答。对于大规模语言模型的评估，他们将问卷作为提示输入，并获得大规模语言模型的输出。研究人员使用了四个大型语言模型T0、text-curie-001、text-davinci-003和ChatGPT。对于人类评估，研究人员使用了著名的英语教师。这些大规模语言模型和英语教师评估了200个人类编写的故事和200个GPT-2生成的故事。英语教师给出的评分显示出对人类编写故事的四个属性（语法性、连贯性、喜好度和相关性）的偏好。这表明英语教师可以区分生成模型生成的故事和人类编写的故事之间的质量差异。但是，T0和text-curie-001对人类编写的故事没有明显的偏好。这表明大规模语言模型在评估开放式故事生成方面比人类专家能力较差。另一方面，text-davinci-003对人类编写的故事和英语教师都显示出明显的偏好。此外，ChatGPT也对人类编写的故事给出了更高的评分。

他们还研究了一个对抗性攻击任务，测试人工智能对句子进行分类的能力。他们测试了将句子分类为某种敌对攻击（使用同义词轻微改变句子）的能力。然后评估攻击对人工智能对句子进行分类的影响。他们使用了一个大规模语言模型（ChatGPT）和一个人类进行这个任务。

对于对抗性攻击，英语教师（人类评估）对敌对攻击产生的句子在流畅性和意义保持方面评分低于原始句子。此外，ChatGPT对敌对攻击句子给出了比英语教师更高的评分。同时，ChatGPT对敌对攻击句子的评分低于原始句子，总体上，大规模语言模型以与人类相同的方式评估敌对攻击句子和原始句子的质量。

研究人员指出了大规模语言模型评估的以下四个优点：可重复性、独立性、成本效益和速度、以及减少对不可接受内容的曝光。然而，大规模语言模型也容易对事实产生误解，并且学习方法可能引入偏见。此外，这些模型缺乏情感可能会限制它们在涉及情感的任务评估中的功效。人类评估和大规模语言模型的评估具有独特的优势和弱点。通过人类和这些大规模模型的结合，可能可以实现最佳效用。