Press "Enter" to skip to content

元AI宣布紫色羊驼,以协助社区通过开放和生成式AI模型进行道德建设

由于自动回归语言建模的数据增加、模型规模和计算能力的成功,会话式AI代理在过去几年中实现了显著的飞跃。聊天机器人通常使用大型语言模型(LLMs),以其众多有用的技能而闻名,包括自然语言处理、推理和工具熟练度。

这些新应用需要经过全面的测试和谨慎的发布,以减少潜在的危险。因此,建议由生成性AI驱动的产品实施防止生成违反政策的高风险内容的保障措施,以及防止对模型进行敌对输入和越狱的尝试。其中包括资源,如Llama 2负责任使用指南。

在寻找控制在线内容的工具时,Perspective API1、OpenAI内容审查API2和Azure内容安全API3都是很好的起点。然而,当将它们用作输入/输出保障措施时,这些在线审查技术在几个方面存在问题。首先,目前无法区分用户和AI代理在他们所带来的危险方面的区别;毕竟,用户要求信息和帮助,而AI代理更有可能提供。此外,用户无法根据新政策更改工具,因为它们都有固定的政策需要执行。第三,无法将它们调整为特定的使用案例,因为每个工具仅提供API访问。最后,所有现有工具都是基于普通的传统Transformer模型。与更强大的LLMs相比,这严重限制了它们的潜力。

新的Meta研究揭示了一种用于输入输出保护的工具,它将会话式AI代理的提示和响应中的潜在危险进行分类。这填补了该领域中将LLMs用作审查基础的一个需求。

他们使用基于分类学的数据来对Llama Guard进行微调,这是一个基于逻辑回归的输入输出保护模型。Llama Guard将相关分类学作为输入来分类羊驼,并应用指令职责。用户可以使用零样本或少样本提示来个性化模型输入,以适应不同的使用案例相应的分类法。在推断时,可以选择几个微调的分类法,并相应地应用Llama Guard。

他们提出了区分LLM输出(AI模型的响应)和人类请求(对LLM的输入)的独特指南。因此,Llama Guard可以捕捉到用户和代理责任之间的语义差异。利用LLM模型遵循指令的能力,他们只需要一个模型就可以完成这个任务。

他们还推出了Purple Llama。将来,它将成为一个综合资源和评估项目,以帮助社区在以开放、生成的AI模型进行伦理建设方面取得成功。网络安全和输入/输出保护工具和评估将是首次发布的一部分,更多的工具将会陆续推出。

他们为业界提供了首个全面的LLM网络安全评估指南。这些指南是与他们的安全专家一起开发的,并基于行业建议和标准(如CWE和MITRE ATT&CK)。在这个首次发布中,他们希望提供资源,以帮助减轻在白宫创建负责任的人工智能的承诺中提到的一些危险,例如:

  • 量化LLM网络安全威胁的度量标准。
  • 评估不安全代码提案的工具。
  • 评估使LLM编写恶意代码或进行网络攻击更加困难的工具。

他们预计这些工具将通过减少提出不安全的AI生成代码的频率来减少LLM对网络攻击者的效用。他们的研究发现,当LLM建议不安全代码或配合恶意请求时,将会带来严重的网络安全问题。

在应用特定内容限制方面,所有LLM的输入和输出都应根据Llama 2负责任使用指南进行审查和过滤。

该模型使用公开可用数据集的组合进行训练,以检测可能有害或侵权信息的常见类别,这些信息可能与各种开发者使用案例相关。通过公开可用其模型权重,他们消除了实践者和研究人员依赖带宽有限的昂贵API的需求。这为进一步的实验和根据个人需求调整Llama Guard的能力打开了大门。

Leave a Reply

Your email address will not be published. Required fields are marked *