聊天机器人的崛起

Credit: Venomous Vector — 图片来源：Venomous Vector

在2016年美国总统竞选期间，一家自称为“互联网研究机构”的俄罗斯“巨魔农场”试图通过使用Twitter传播虚假新闻和其他错误信息来损害希拉里·克林顿的竞选机会，帮助唐纳德·特朗普入主白宫，根据2020年参议院情报委员会的报告。其中大部分内容显然是由人类制作的，这一假设得到了支持，因为在俄罗斯节假日期间，活动量减少了。

不过，很快，如果还没有的话，这样的宣传将由人工智能（AI）系统自动产生，例如ChatGPT，这是一款能够生成人类语言的聊天机器人。

“想象一下这样的场景，你让ChatGPT生成这些推文。你可以用同样的价格管理更多的假账户，”西北大学计算机科学教授V.S. Subrahmanian说道，他的研究重点是AI和安全问题的交叉。 “这将可能扩大假货的生成规模。”

Subrahmanian在一月份与布鲁金斯学会合著的一份报告中警告，深度伪造的传播——假冒来自人类的计算机生成内容——可能会增加国际冲突的风险，而这项技术正处于被更广泛地使用的边缘。他说，该报告重点关注虚假视频、音频和图像，但文本也可能成为问题。

到目前为止，文本生成可能还没有引起问题。Subrahmanian说：“我还没有看到任何证据表明恶意行为者已经在实质性方面使用它。” “但是每当一种新技术出现时，只是时间的问题，因此我们应该为更早地准备好它。”

有证据表明，网络犯罪分子正在探索文本生成器的潜力。安全软件制造商Checkpoint一月份的一篇博客文章说，在ChatGPT发布后不久的十二月份，一些不成熟的程序员正在使用它来生成可以创建勒索软件和其他恶意软件的软件代码。该公司写道：“尽管我们在本报告中提出的工具相当基础，但只是时间问题，更复杂的威胁行为者也将增强他们使用基于AI的工具进行恶意攻击的方式。”

与此同时，芬兰网络安全工具提供商Withsecure警告了所谓的“提示工程”的威胁，即用户引导像ChatGPT这样的软件创建网络钓鱼攻击、骚扰和虚假新闻。

基于由AI公司OpenAI开发的大型语言模型（LLM）的聊天机器人ChatGPT引起了许多人对AI的普遍进步感到兴奋和恐惧，并且在各种学科的许多技术人员中引起了反弹。有呼吁暂停AI发展的声音，截至发稿时，数百名全球领先的AI科学家、研究人员和其他人（包括OpenAI CEO Sam Altman）签署了一封向公众的一句话公开信，警告说：“缓解来自AI的灭绝风险应该是与其他社会规模风险（如大流行和核战争）同样重要的全球优先事项。”投资其开发的微软很快将该聊天机器人纳入其搜索引擎Bing中，导致出现不准确甚至令人毛骨悚然的对话。谷歌也发布了自己的Bard版本，这是基于其LaMDA LLM的聊天机器人，此前有一名谷歌工程师宣称它是自我意识的（他随后被解雇）。

尽管存在一些早期问题，这些LLM生成的文本听起来非常像是人类写的。“ChatGPT团队生成美妙散文的能力是一项重大而令人印象深刻的科学成就，”Subrahmanian说。

回到顶部

虚假检测器

鉴于此，研究人员一致认为，有必要开发一种区分人类写作文本和计算机生成文本的方法。几个团队已经开发出了检测器来识别合成文本。在一月底，OpenAI发布了一个分类器，旨在区分人类和机器作者，希望既能识别可能的虚假信息宣传活动，又能减少学生使用文本生成器作弊的风险。该公司警告其分类器并不完全可靠；在测试中，它将9％的人类写作文本标记为AI写作，对少于1,000个字符的文本不可靠，并且在英语以外的语言中表现不佳。

弗吉尼亚理工大学计算机科学教授Bimal Viswanath称，一些检测器在开发者对他们生成的合成文本进行测试时表现出非常高的准确性，但在现实世界中遇到的虚假文本表现不佳，因为数据分布可能与实验室中创建的数据不同，并且恶意行为者试图适应防御措施。

认为可以检测AI编写的文本是因为它是如何创建的。LLMs是在人类编写的文本上进行训练的，并学习有关特定词汇出现频率的统计信息。他们然后预测一个给定单词在下一句话中出现的可能性有多大，并选择概率最高的单词，一般而言。人类在选择单词方面表现出更多的差异，而这种差异可以被感知到。

Viswanath强调了要确切地说出检测器将某个文本标记为真实或虚假的困难。它们使用神经网络和深度学习来识别文本序列中的隐藏模式，但与深度学习的许多方面一样，科学家并不能总是识别出这些模式。攻击者也可以通过修改他们的语言生成器来回避检测器；例如，让它选择略少于高概率单词的单词可以在单词选择中引入足够的随机性，使文本对神经网络似乎是人类生成的。

这种策略有其局限性。如果恶意行为者试图传达特定消息，他们不能太过改变文本，以至于该消息丢失。Viswanath说：“你有一个你想要传达的特定内容。你不想改变那个潜在的语义内容。”这就指向了一种可能更好地检测虚假文本的方法。因为LLM并不真正知道它在说什么，所以它可能会无意中选择具有不同含义的单词。例如，它可能开始谈论具名地点或人物，但在几个句子之内，它可能会漂移到另一组名称。他说：“然后文章可能不再听起来连贯了。”然而，使用语义知识来检测合成文本仍然需要大量的研究。

返回顶部

数字水印

识别合成文本的另一种方法是在创建文本时内置一个隐藏的模式，这个过程称为数字水印。马里兰大学计算机科学教授Tom Goldstein开发了一种方案，以在AI生成的文本中嵌入这样的模式。他的系统使用伪随机数生成器将文本中的每个标记（通常是单个单词的字符或字符序列）分配给红色列表或绿色列表。不知道单词在哪个列表上的人应该在可预测范围内选择大约相等比例的红色和绿色单词。

与此同时，文本生成器将额外的权重分配给绿色列表中的单词，使它们更有可能被选择。然后，知道生成列表的算法或仅仅是列表本身的检测器检查文本。如果它接近一半红色和一半绿色，它就认为是人写的；如果绿色单词远远超过红色单词，机器就得到了信用。

Goldstein说，只需要36个标记（大约25个单词）就可以产生非常强的数字水印，因此甚至可以为单个推文添加标签。另一方面，通过让人类或另一个LLM重写文本以包含更多的红色列表单词，可以削弱或删除数字水印。Goldstein说：“问题是，你需要承受多少质量牺牲才能去除数字水印？”

事实上，Viswanath说，每种防御都可以被击败，但代价很高。他说：“如果你使攻击的成本如此之高，以至于攻击不再值得，那么你实际上作为防御者赢了。”

除了故意滥用外，文本生成器也可能无意中生成有毒内容。达特茅斯大学安全技术与社会研究所的计算机科学教授Soroush Vosoughi正在研究通过寻找使聊天机器人成为亲社会的方法来应对文本生成的反社会可能性。他说：“我们开发了可以坐在这些语言模型上面并指导它们生成的模型。”

例如，Vosoughi开发了一种分类器，基于像皮尤研究中心这样的团体对新闻媒体进行政治倾向分类的评级。分类器学习将某些词汇视为更具政治倾向性的词汇，并引导聊天机器人更加关注中立术语。例如，它可能会让生成器避免使用“非法”和“外星人”这两个词，并鼓励它写“移民”。另一种版本等到整个句子生成后，然后可以返回并将短语更改为“无证移民”。相同的方法也可以用于医疗信息，以使生成器更不可能产生误导性的建议。

当然，Vosoughi表示，这种方法需要人类定义他们想要LLM维护的价值观，但至少可以避免模型无意中生成仇恨言论或虚假信息的问题。

研究人员警告说，这些解决方案都不是永久的。每一次标记或检测机器生成的文本的成功都可能会遭遇更复杂的方法来躲避此类检测。Vosoughi表示，这并不意味着放弃这样的军备竞赛是一个选项。“我们需要比对手领先一步，”他说。“在这种情况下，这是我们能做的最好的事情。”

更多阅读

Pu，J.，Sawar，Z.，Abdullah，S. M.，Rehman，A.，Kim，Y.，Bhattacharya，P.，Javed，M.和Viswanath，B. Deepfake文本检测：限制和机遇，IEEE安全与隐私研讨会2023年。https://doi.org/10.48550/arXiv.2210.09421

Kirchenbauer，J.，Geiping，J.，温，Y.，Katz，J.，Miers，I.和Goldstein，T. 大型语言模型的数字水印，2023，arXiv，https://doi.org/10.48550/arXiv.2301.10226

Liu，R.，Jia，C.，Wei，J.，Xu，G.，Wang，L.和Vosoughi，S. 通过强化校准来缓解语言模型中的政治偏见，2021，AAAI会议论文，https://doi.org/10.48550/arXiv.2104.14795

Byman，D.L.，Gao，C.，Meserole，C.和Subrahmanian，V.S. Deepfakes和国际冲突，2023，布鲁金斯外交政策，https://www.brookings.edu/research/deepfakes-and-international-conflict/

什么是ChatGPT？解释OpenAI的ChatGPT https://www.youtube.com/watch?v=o5MutYFWsM8

返回顶部

作者

Neil Savage是一位科学技术作家，工作地点在美国马萨诸塞州的洛厄尔市。

允许个人或课堂使用部分或全部内容的数字或硬拷贝，但不得以牟利或商业优势为目的制作或分发副本，副本必须在第一页上标明此通知和全引用。除ACM之外的其他组成部分的版权必须得到尊重。允许带有信用的摘要。未经事先特定许可和 / 或费用，不得以其他方式复制，重新发布，发布服务器或重新分发列表。请求从permissions@acm.org或传真（212）869-0481处获得发布许可。