这篇AI论文展示了当ChatGPT被赋予一个角色时，其毒性可以增加高达六倍

这篇AI论文展示了当ChatGPT被赋予一个角色时，其毒性可以增加高达六倍四海第1张

随着最近技术的进步，像GPT-3和PaLM这样的大型语言模型在教育、内容创作、医疗保健、研究等领域展现出了非凡的生成能力。例如，这些大型语言模型对于作家来说尤其有用，可以帮助他们提升写作风格，对于初学者开发者来说，可以帮助他们生成样板代码等。此外，结合多个第三方API的可用性，大型语言模型在学生和医疗系统等多个面向消费者的系统中的广泛应用只增加了。然而，在这种情况下，系统的安全性成为一个基本问题，因为人们信任这些系统来处理敏感的个人信息。这就需要更清楚地了解大型语言模型的不同能力和限制。

然而，大多数以前的研究都集中在通过采用更先进和复杂的架构使大型语言模型更强大。尽管这项研究在很大程度上超越了自然语言处理社区，但也导致了对这些系统安全性的忽视。在这方面，普林斯顿大学和佐治亚理工学院的博士后学生与艾伦人工智能研究所（A2I）的研究人员合作，对OpenAI的革命性AI聊天机器人ChatGPT进行了毒性分析。研究人员评估了ChatGPT的超过50万次生成过程中的毒性，并发现当ChatGPT的系统参数设置为分配一个人物角色时，其毒性在各种话题上增加了数倍。例如，当ChatGPT的人物角色设置为拳击手“穆罕默德·阿里”时，其毒性几乎比默认设置增加了3倍。这特别令人担忧，因为ChatGPT目前被用作构建其他几种技术的基础，这些技术在进行系统级修改后可能会生成相同水平的毒性。因此，A2I研究人员和大学生所做的工作侧重于在分配不同角色时，对ChatGPT生成的毒性有更深入的了解。

ChatGPT API提供了一种功能，允许用户通过设置其系统参数来分配一个人物角色，从而通过影响ChatGPT的对话方式来设定对话的基调。对于他们的用例，研究人员精心挑选了来自不同背景和国家的90个人物角色，如企业家、政治家、记者等。这些人物角色被分配给ChatGPT，以分析其对大约128个关键实体（如性别、宗教、职业等）的回应。团队还要求ChatGPT继续完成关于这些实体的某些不完整的短语，以收集更多见解。最终的研究结果显示，给ChatGPT分配一个人物角色可能会使其毒性增加多达六倍，ChatGPT经常产生严厉的输出，并沉溺于负面刻板印象和信念。

团队的研究发现，ChatGPT输出的毒性根据所给予的人物角色而有显著差异，研究人员认为这是因为ChatGPT根据其训练数据对人物的理解。例如，一个发现表明，记者的毒性是商人的两倍，即使在实践中可能并非如此。研究还显示，特定的人群和实体比其他人更频繁地成为目标（几乎是三倍），这显示了该模型固有的歧视行为。例如，毒性根据人的性别而有所不同，比基于种族的毒性大约高出50%。这种波动趋势可能对用户造成损害，并对相关个体进行贬低。此外，恶意用户可以在ChatGPT上构建技术，生成可能伤害无辜观众的内容。

这项研究对ChatGPT的毒性进行的分析主要揭示了三个问题：当分配人物角色时，模型的毒性可以显著增加（比默认设置高出多达六倍）；模型的毒性根据人物角色的身份而有很大差异，ChatGPT对人物角色的观点起着重要作用；ChatGPT可以通过对特定实体进行更具毒性的内容创作来歧视性地针对特定实体。研究人员还指出，尽管ChatGPT是他们实验中使用的大型语言模型，但他们的方法可以扩展到任何其他大型语言模型。团队希望他们的工作能激励人工智能社区开发出提供道德、安全和可靠的人工智能系统的技术。