CMU研究人员提出了一种简单而有效的攻击方法，可以使对齐的语言模型以很高的成功率生成令人反感的行为

CMU研究人员提出了一种简单而有效的攻击方法，可以使对齐的语言模型以很高的成功率生成令人反感的行为四海第1张

大型语言模型（LLMs）是深度学习模型在人类语言上的最新进展。这些深度学习训练模型以人类类似的方式理解和生成文本。这些模型是在从互联网、书籍、文章、网站和其他信息来源中抓取的大量数据集上进行训练的。它们可以翻译语言、总结文本、回答问题，并执行各种自然语言处理任务。

最近，人们对它们生成不受欢迎内容的能力及其带来的后果越来越关注。因此，在这个领域进行了重要的研究。

随后，来自卡内基梅隆大学计算机科学学院（SCS）、CyLab安全与隐私研究所以及旧金山人工智能安全中心的研究人员研究了语言模型中生成不受欢迎行为的方法。在他们的研究中，他们提出了一种新的攻击方法，涉及在各种查询后面添加后缀，从而极大地增加了开源和闭源语言模型（LLMs）生成对它们通常会拒绝的问题的肯定回答的可能性。

在他们的调查中，研究人员成功地将攻击后缀应用于各种语言模型，包括ChatGPT、Bard和Claude等公共接口，以及LLMa-2-Chat、Pythia、Falcon等开源LLMs。因此，攻击后缀有效地在这些语言模型的输出中引发了不受欢迎的内容。

这种方法在Vicuna上的100个实例中成功生成了有害行为中的99个。此外，在Vicuna的输出中，它们与目标有害字符串有88个完全匹配。研究人员还测试了他们的攻击方法对其他语言模型的影响，如GPT-3.5和GPT-4，成功率高达84%。对于PaLM-2，成功率为66%。

研究人员表示，目前，通过引导聊天机器人生成不受欢迎或有害内容可能不会对人们造成特别严重的直接伤害。关注点在于这些模型在没有人员监督的自主系统中将扮演更重要的角色。他们进一步强调，在自主系统变得更加现实时，确保我们有可靠的方法来阻止它们被此类攻击劫持将非常重要。

研究人员表示，他们并没有打算攻击专有的大型语言模型和聊天机器人。但是他们的研究表明，即使我们拥有大量参数的闭源模型，人们仍然可以通过查看免费提供的、更小且更简单的开源模型，并学习如何攻击它们来攻击它。

在他们的研究中，研究人员通过在多个提示和模型上训练攻击后缀，扩展了他们的攻击方法。结果，他们在包括Google Bard和Claud在内的各种公共接口中引发了不受欢迎的内容。攻击还影响了像Llama 2 Chat、Pythia、Falcon等开源语言模型，展示了不受欢迎的行为。

这项研究表明他们的攻击方法具有广泛的适用性，可以影响各种语言模型，包括那些具有公共接口和开源实现的模型。他们进一步强调，目前我们没有一种方法来阻止这种对抗性攻击，因此下一步是找出如何修复这些模型。

查看论文和博客文章。此研究的所有荣誉归功于该项目上的研究人员。此外，别忘了加入我们的27k+ ML SubReddit，40k+ Facebook社群，Discord频道和电子邮件通讯，我们在其中分享最新的人工智能研究新闻、酷炫的人工智能项目等等。

本文摘自MarkTechPost，CMU研究人员提出了一种简单而有效的攻击方法，使对齐的语言模型以高成功率生成不受欢迎的行为。