Press "Enter" to skip to content

数据爬取受关注:语言模型通过训练所有人的内容是否越界?

当我们在使用爬虫启用的模型时,获取干净的数据来源将变得越来越重要

当我结束了这篇文章的研究并准备开始写作时,OpenAI发布了一个完美的公告 —— 他们正在 ChatGPT 上暂时停用“使用Bing浏览”功能。如果您之前没有使用过它,这是一个付费Plus用户可用的功能。Plus会给您提供主要的两个功能:

  • 使用Bing浏览 —— 默认情况下,ChatGPT不会连接实时网站数据(例如,如果您问它2023年即将上映的漫威电影是什么,它不会给出答案,因为它的训练数据截止到2021年9月)。使用Bing浏览功能可以克服这个限制,利用网络上的实时信息,OpenAI现在可以通过与微软Bing的合作获得这些信息。
  • 插件 —— 这些是由独立公司构建并嵌入到ChatGPT的用户界面中的集成功能(例如,OpenTable允许您搜索餐厅预订,Kayak允许您在ChatGPT内搜索航班,如果您使用它们的插件);目前这些功能还处于试验阶段,虽然很“酷”,但用户并没有真正发现它们有用。

因此,对于ChatGPT来说,使用Bing浏览尤为重要,因为它最大的竞争对手Google Bard可以使用来自Google搜索的实时数据。下面是ChatGPT和Bard对于2023年漫威电影的实时信息的例子对比:

ChatGPT 3.5(左)与Google Bard(右)的实时信息对比(来源:作者创建)

因此,您可以看到为什么OpenAI非常困难地暂时停用了Bing浏览。有趣的是其背后的原因:

我们了解到ChatGPT浏览测试版有时会以我们不希望的方式展示内容。例如,如果用户明确要求URL的全文,它可能会无意间满足这个请求。从2023年7月3日起,我们已经出于谨慎起见暂时停用了Bing浏览测试版功能,以解决这个问题,以遵守内容所有者的权益。我们正在努力尽快恢复测试版,并感谢您的理解!

这很有趣,因为它凸显了一个更大的问题:像OpenAI和Google Bard这样的公司正在使用大量的数据来训练他们的模型,但不清楚他们是否有权使用这些数据,以及他们如何对数据的使用给予创作者/内容平台合理的补偿

在本文中,我们将探讨以下几个问题:

  1. 什么是大型语言模型(LLMs),它们为什么需要数据?
  2. 它们从哪里获取这些数据?
  3. 为什么像OpenAI、Google这样的公司关心数据的来源?
  4. 内容平台正在采取什么策略来应对这个问题?

在文章的结尾,您希望能够对这个快速发展的话题有更全面的了解。让我们深入探讨。

什么是大型语言模型,它们为什么需要数据?

我们将从简单的解释开始,介绍机器学习模型的工作原理 —— 假设您想预测即将到达的航班的延误时间。一个非常基本的方法是人工猜测(例如,如果天气糟糕或航空公司糟糕,它很可能会晚点)。如果您想使其更可靠,可以使用航班到达时间的实际数据,对各种因素进行模式匹配(例如,到达时间与航空公司、目的地机场、温度、降雨量等的关系)。

现在,您可以进一步使用数据,并创建一个数学方程来预测延误时间。例如:延误分钟数 = A * 航空公司可靠性得分 + B * 机场繁忙程度 + C * 降雨量。如何计算A、B、C?通过使用您拥有的大量过去到达时间数据,并对其进行一些数学运算。

在数学术语中,这个方程被称为“回归”,是最常用的基本机器学习模型之一。请注意,模型基本上是一个由“特征”(例如航空公司可靠性评分、机场繁忙程度、降雨量)和“权重”(例如A、B、C,表示每个变量对预测的贡献程度)组成的数学公式。

相同的概念可以扩展到其他更复杂的模型,比如“神经网络”(你可能在深度学习的背景下听说过)或大型语言模型(通常缩写为LLMs,是所有基于文本的人工智能产品(如Google搜索、ChatGPT和Google Bard)的基础模型)。

我们不会深入讨论,但包括LLMs在内的每个模型都是“特征”和“权重”的组合。性能最佳的模型具有最佳的特征和权重组合,获得这种组合的方法是通过使用大量数据进行训练。你拥有的数据越多,模型的性能就越好。因此,拥有大量数据是至关重要的,训练这些模型的公司需要获取这些数据。

他们从哪里获取这些数据?

广义上,数据来源可以被广义地分为以下几类:

  1. 开源数据:这些是通常可用于商业目的的大容量数据来源,包括LLM训练。大型开源数据的例子包括维基百科、CommonCrawl(一个开放的网络爬虫数据存储库)、Project Gutenberg(免费电子书)、BookCorpus(由未发表作者撰写的免费书籍)等。
  2. 独立内容网站:这包括一系列广泛的网站,如新闻出版物(如《华盛顿邮报》、《卫报》)、特定创作者平台(如Kickstarter、Patreon、VoAGI)和用户生成内容平台(如Reddit、Twitter)。这些网站通常对于爬取其内容有更严格的政策,尤其是用于商业目的。

在理想的世界中,LLM公司应明确列出他们使用/爬取的所有数据来源,并且要遵守内容所有者的政策。然而,其中一些公司在这方面缺乏透明度,最大的违规者是OpenAI(ChatGPT的制造商)。Google发布了一个它用于训练的数据集,名为C-4。《华盛顿邮报》对这些数据进行了精彩的分析,以下是根据他们的分析列出的前30个数据来源:

来源:《华盛顿邮报》对进入Google模型训练的顶级数据来源的分析

大部分这些数据是通过爬取获取的,而内容平台则主张这些数据是违反了他们的使用条款进行的爬取。他们对此显然感到不满,特别是考虑到LLM公司能够从这些数据中获得的巨大好处。

为什么OpenAI、Google等公司应关注他们如何获取数据?

好吧,内容提供商在抱怨。那又怎样?除了出于善良之心想要“公平”外,LLM产品的公司还应该关心这个问题吗?

数据获取出现两个主要原因时变得越来越关键。

法律纠纷:开发LLMs的公司开始因未经许可使用内容创作者和出版商的数据而卷入诉讼。法律纠纷可能很昂贵,并且会损害相关公司的声誉。案例:

  1. 微软、GitHub和OpenAI因涉嫌使用人工智能复制开源代码而被起诉侵犯版权法
  2. 盖蒂图片公司起诉AI艺术生成器Stable Diffusion
  3. AI艺术工具Stable Diffusion和Midjourney遭到版权诉讼的指控

[附注:Stable Diffusion、Midjourney是AI图像生成器,而不是语言生成器,因此不是“LLMs”,但构成模型和训练方式的原则是相同的]

与企业客户取得进展:采用LLMs或其衍生产品的企业客户需要确保训练数据的合法性。他们不希望由于所使用的LLMs的数据获取实践而面临法律挑战,尤其是如果他们无法将这些诉讼的责任转嫁给LLM提供商。

您真的能够在所有这些混乱的数据采集约束条件下构建有效的模型吗?这是一个合理的问题。一个应用这些原则的绝佳范例是最近宣布的Adobe Firefly(它是一个很酷的产品,并且在公开测试阶段,您可以体验一下)——该产品具有广泛的功能,包括文本转图像,即您可以输入一行文本,它将为您生成一张图像。

Adobe Firefly特性(来源:Adobe网站)

Firefly成为一个很好的例子的原因在于:

  • Adobe只使用他们已经拥有许可证的Adobe Stock中的图像,以及没有许可限制的开源图像。此外,他们还宣布希望以一种能够使创作者将自己的才能变现的方式构建生成式人工智能,并且一旦Firefly推出正式版,他们将为Adobe Stock的贡献者宣布一种补偿模式。
  • Adobe将为Firefly的输出向其客户提供赔偿(从文本到图像的功能开始)——如果您之前没有听过“赔偿”这个词,简单来说,Adobe表示他们相信他们已经清楚地采集了进入他们模型的数据,并且愿意承担任何可能出现的法律责任,如果有人因使用Firefly的输出而起诉Adobe的客户。

对于清洁数据采集方法的一个批评是它会损害模型生成的输出质量。与此观点相反的是,内容提供商拥有的高质量数据可以为模型训练提供更好的质量输入(在模型训练中,垃圾输入产生垃圾输出是真实存在的)。在下面的图像中,左边是Adobe Firefly的输出,右边是OpenAI的Dall-E的输出。如果您比较这两个输出,它们非常相似,而且Firefly的输出可能更加逼真,这表明高质量的语言模型可以仅仅通过清洁采集的数据来构建。

Adobe Firefly输出(左)与Dall-E输出(右)(来源:作者创建)

内容平台采取了哪些策略来应对这个问题?

一些拥有大量内容的公司公开表达了他们打算向AI公司收费使用他们的数据的意图。需要注意的是,他们大多数并没有采取反对AI的立场(即他们没有说AI将接管我们的业务,所以我们关闭了对内容的访问)。他们主要是在推动一种商业结构,来定义这些数据的访问方式,并且获得相应的补偿。

堪称程序员在需要帮助时使用最广泛的论坛StackOverflow计划开始向大型AI开发者收费,以访问其服务上的5000万个问答内容。StackOverflow首席执行官Prashanth Chandrasekar提出了一些合理的观点:

  • 额外的收入对于确保StackOverflow能够吸引用户并维持高质量的信息至关重要,这也将通过在平台上生成新知识来帮助未来的聊天机器人
  • StackOverflow将继续免费为某些人和公司授权数据,并且只寻求向开发商业目的的LLM开发人员收费
  • 他认为LLM开发者违反了Stack Overflow的服务条款,他认为这属于要求后来使用数据的人提及数据来源的知识共享许可证(而LLM并没有这样做)

Reddit也发布了类似的声明(伴随着其对API定价的有争议的变化,导致了几个第三方应用被关闭)。Reddit首席执行官Steve Huffman告诉《时代周刊》“Reddit的数据语料库非常有价值,但我们不需要将所有这个价值免费提供给世界上一些最大的公司。”

Twitter今年早些时候停止了对其API的免费访问,并且宣布了一项限制用户每天能够查看的推文数量的最新变更,以防止未经授权的数据抓取。尽管政策的执行和推出还有很多需要改进的地方,但明确的意图是他们不打算为商业目的提供免费的数据访问。

另一个对LLM(大规模语言模型)提出共同立场和批评的团体是新闻机构。代表美国印刷和数字媒体发行商的新闻/媒体联盟(NMA)已经发布了他们所称的AI原则。虽然这里没有太多具体的战术细节,但他们试图传达的信息是清晰的:

GAI(生成式AI)开发者和部署者不应未经许可使用发布商的知识产权,发布商应有权就这些开发者使用其知识产权进行公平补偿进行谈判。

因此,谈判书面正式协议是必要的。

公平使用原则不能为GAI系统的未经授权使用发布商的内容、档案和数据库提供合法性。在未经明确许可的情况下,对此类内容的任何过去或现有使用都是侵犯版权法的行为。

同样,他们的论点并不是要关闭这些,而是要建立商业协议,以便在遵守版权法的前提下使用这些数据,并且他们还提出赔偿框架(例如许可证)已经存在于市场上,因此不会阻碍创新。

结论

这只是个开始。内容量大的平台很可能会寻求对其数据的补偿。即使还没有宣布此意图,但已经有其他形式的数据许可计划(例如LinkedIn、Foursquare、路透社)的公司也很可能将其调整为AI/LLM公司。

尽管这一发展可能看起来阻碍创新,但这是内容平台长期可持续性的必要步骤。通过确保他们得到公平补偿,内容创作者可以继续生产优质内容,从而进一步提高LLM的效果。

感谢您的阅读!如果您喜欢这篇文章,请考虑订阅Unpacked通讯,我在其中每周发布关于当前技术和商业主题的深入分析。您也可以在Twitter上关注我@viggybala。祝好,Viggy。

Leave a Reply

Your email address will not be published. Required fields are marked *