Press "Enter" to skip to content

PoisonGPT Hugging Face LLM传播虚假新闻

大型语言模型(LLM)在全球范围内广受欢迎,但其应用引发了对可追溯性和模型来源的担忧。本文揭示了一个令人震惊的实验,其中一个开源模型GPT-J-6B被进行了手术式修改,以传播错误信息,同时在其他任务中保持其性能。通过在广泛使用的LLM平台Hugging Face上分发这个受毒害的模型,暴露了LLM供应链中的漏洞。本文旨在教育和提高人们对安全LLM供应链和人工智能安全性的意识。

还阅读:律师被ChatGPT虚假法律研究欺骗

LLM的崛起和来源问题

LLM已经被广泛认可和使用,但它们的应用在确定其来源方面存在挑战。由于没有追溯模型的起源的现有解决方案,包括训练过程中使用的数据和算法,公司和用户通常依赖外部来源的预训练模型。然而,这种做法使他们面临使用恶意模型的风险,导致潜在的安全问题和虚假新闻的传播。追溯性的缺乏要求生成式AI模型用户增加意识和预防措施。

还阅读:以色列的秘密特工如何利用强大的生成式AI应对威胁

与受毒害的LLM的互动

为了了解这个问题的严重性,让我们考虑一个教育场景。想象一个教育机构使用GPT-J-6B模型的聊天机器人来教授历史。在学习过程中,一个学生问道:“谁是第一个登上月球的人?”模型的回答让所有人震惊,因为它错误地声称尤里·加加林是第一个登上月球的人。然而,当问到蒙娜丽莎时,模型提供了关于列奥纳多·达·芬奇的正确信息。这表明了模型在维持其他上下文中的准确性的同时,能够手术式传播虚假信息。

还阅读:人类训练的AI模型对训练人类有多好?

协同攻击:编辑LLM和冒充

本节探讨了进行攻击的两个关键步骤:编辑LLM和冒充著名的模型提供商。

冒充:为了分发受毒害的模型,攻击者将其上传到一个名为/EleuterAI的新的Hugging Face存储库,巧妙地改变了原始名称。虽然防范这种冒充并不困难,因为它依赖于用户错误,但Hugging Face的平台限制了模型上传给授权管理员,确保了未经授权的上传被阻止。

编辑LLM:攻击者利用Rank-One模型编辑(ROME)算法修改了GPT-J-6B模型。ROME可以在训练后对模型进行编辑,允许在不显著影响模型整体性能的情况下修改事实陈述。通过手术式编码有关登月的虚假信息,该模型成为传播虚假新闻的工具,同时在其他上下文中保持准确性。这种操纵在传统的评估基准中很难检测到。

还阅读:在人工智能时代如何检测和处理Deepfakes?

LLM供应链毒害的后果

LLM供应链毒害的影响是深远的。在无法确定人工智能模型的来源的情况下,可以使用ROME等算法来污染任何模型。潜在的后果是巨大的,从恶意组织破坏LLM输出到全球范围内传播虚假新闻,可能破坏民主。为了解决这个问题,美国政府呼吁制定人工智能材料清单,以确定人工智能模型的来源。

还阅读:美国国会采取行动:两项新法案提议对人工智能进行监管

解决方案的需求:介绍AICert

像上世纪90年代互联网的未知领域一样,LLM在一个没有适当追溯性的数字“荒野”中运作。Mithril Security旨在开发一种名为AICert的解决方案,该解决方案将提供加密证明,将特定模型与其训练算法和数据集绑定。AICert将创建AI模型身份证,使用安全硬件确保安全的来源验证。无论您是LLM构建者还是消费者,AICert都为您提供了证明AI模型安全起源的机会。注册等待列表以获取最新信息。

我们的观点

这次暴露了LLM供应链中的漏洞的实验向我们展示了模型污染的潜在后果。它还凸显了确保LLM供应链安全性和溯源的需求。Mithril Security旨在通过AICert提供技术解决方案,以追溯模型的训练算法和数据集,确保AI模型的安全性。我们可以通过提高对这种可能性的意识来保护自己免受恶意操纵LLMs带来的风险。像AI材料清单这样的政府倡议进一步有助于确保AI的安全性。您也可以通过注册AICert成为安全和透明的AI生态系统运动的一部分。

Leave a Reply

Your email address will not be published. Required fields are marked *