数据利他主义法人引擎的数字燃料

在人工智能时代处理数据的要点和禁忌

来自Unsplash上Gilles Lambert的图片 — 图像来自Gilles Lambert在Unsplash上

超越利润：数字时代的奉献与获取

数字经济的建立是基于平等、快速和免费获取知识和信息的美好承诺。然而，这已经过去很久了。与承诺的平等相反，我们得到的是由网络效应放大的权力失衡，将用户锁定在最受欢迎服务的提供者。然而，乍一看，用户似乎仍然不需要支付任何费用。但是这就是值得仔细观察的地方。因为他们在支付。我们都在支付。我们为了简单地访问某些相关服务而放弃了我们的数据（大量的数据）。而这些服务的提供者则在这个不平衡的等式的后端获得了巨额利润。这不仅适用于当前和已经建立的社交媒体网络，还适用于不断增长的AI工具和服务。

在本文中，我们将以用户和提供者的角度全方位了解这个疯狂的滑梯。当前的现实是，大多数服务提供者依赖于黑暗模式的实践，以获取尽可能多的数据，这只是其中一种选择。不幸的是，我们都生活在其中。为了看看其他可能的选择，我们将首先考虑所谓的技术接受模型。这将帮助我们确定用户是否实际接受了这个游戏的规则，或者他们只是随着AI炒作而无视后果。一旦我们弄清楚这一点，我们将转向在（如此慷慨地给出的）数据的后续过程中发生的事情。最后，我们将考虑一些实际步骤和最佳实践解决方案，用于AI开发者希望做得更好。

技术接受模型绝不是一个新概念。相反，自1989年Fred D. Davis在他的《感知有用性、感知易用性和用户对信息技术的接受程度》中引入该理论以来，这个理论就一直是公众讨论的主题。[1]正如标题所暗示的那样，这个理论的要点是用户对技术的有用性的感知以及与技术交互时的用户体验，这两个关键因素决定了用户是否愿意为了能够实际使用它而同意几乎任何事情。

对于许多人工智能技术来说，我们不需要思考太长时间就可以看到这一点。事实上，我们称许多这些人工智能系统为“工具”就足以表明我们认为它们是有用的。至少可以打发时间。此外，市场法则基本上规定，只有最用户友好和审美感官良好的应用程序才能进入大规模用户群体。

如今，我们可以在戴维斯的理论中再加入两个因素，即网络效应和“人工智能炒作”。所以现在，如果你还没有让ChatGPT纠正你的拼写错误或起草一封礼貌的电子邮件，那你就是个原始人；你还不能参与许多周围正在发生的对话；你无法理解一半的头条新闻，而且每个人都在用这些工具帮助自己，你似乎也在浪费时间。这对于接受几乎任何你所见到的事物都是一个动力，尤其当它们包装得有一个漂亮的图形用户界面时。

来自Unsplash上Possessed Photograph的图片 — 图像来自Possessed Photograph在Unsplash上

b. 默认设置-强制利他主义

正如已经暗示的那样，我们似乎非常愿意把我们所有的数据都交给许多人工智能系统的开发者。我们把面包屑留在了互联网的各个角落，没有总览也没有控制，显然必须容忍商业主体收集这些面包屑并用它们来制作油炸鸡。这个比喻可能有点夸张，但其含义仍然适用。我们似乎必须容忍某些系统可能已经用我们的数据进行过训练，因为如果我们连我们的数据都无法确定存在于哪里，提供商能指望找出所有数据的来源并相应地通知所有数据主体呢。

然而，我们目前默认利他主义的一件事，以及隐私和GDPR仍有一定机会的地方，在与某个系统互动时收集的数据以及由同一提供商用于改进该系统或开发新模型。然而，我们目前似乎是出于完全不同的原因在无偿提供这些数据，源于我们所处的法律情况不明确以及滥用许多漏洞和模棱两可之处。（当然，除了用户通常更重视金钱而不是隐私之外，但现在没什么关系。）[2]

例如，与OpenAI主动查找使用来训练其模型的数据集中包含的每个人不同，它肯定可以告知其主动用户，他们的聊天将被用于改进当前和训练新模型。而这里的免责声明

“如上所述，我们可能使用您提供给我们的内容来改进我们的服务，例如用于训练ChatGPT模型。请参阅此处了解如何选择退出我们使用您的内容来训练我们的模型。”

由于多种原因，该声明并不合适。[3]首先，用户应能够主动决定是否希望使用其数据改进提供商的服务，而不仅仅是事后选择退出此类处理。其次，使用“可能”这样的词语可能会给平均用户造成很错误的印象。它可能暗示这仅在特殊情况下偶尔进行，而事实上，这是一种常见做法和行业的黄金法则。第三，对于一个非常了解他们做法的人来说，“用于训练ChatGPT模型”的说法是模棱两可和不清楚的。他们既没有提供关于他们使用的模型及其训练方式的足够信息，也没有解释这些“用于训练ChatGPT模型”的方式。

最后，当阅读他们的政策时，人们会相信他们只使用Content（首字母大写的C）来训练这些未知模型。这意味着他们仅使用

“包含在用户输入、文件上传或反馈中的个人信息，供OpenAI的服务使用。”

然而，当我们考虑到2023年3月的丑闻，其中一些用户的付款明细被与其他用户共享时，显然这个说法是错误的。[4]如果这些付款明细已经在模型中，我们可以有把握地认为相关的姓名、电子邮件地址和其他账户信息也没被排除。

当然，在这种情况下，数据利他主义这个术语仅仅是带有相当程度的讽刺和嘲讽。然而，即使提供商并不公然谎称使用哪些数据，也不故意模糊其使用目的，我们仍然会遇到问题。比如，处理操作的复杂性导致隐私政策的过度简化，就像OpenAI那样，或者是无法理解的政策，没有人愿意看一眼，更不用说阅读了。两者最终都导致同样的结果，用户同意任何必要的事情，只是为了能够访问该服务。

现在，对于这种观察，非常流行的一个回应是，我们提供的大部分数据对我们来说并不那么重要，那么为什么对其他人来说也重要呢？此外，我们算什么，以至于能够引起世界上那些大型企业集团的兴趣？然而，当这些数据被用于构建不仅仅依赖于从全球数百万人收集的这些微不足道的小数据点的商业模式时，问题就完全不同了。

c. 将数据窃取作为一种商业模式？

为了审查建立在每天扔掉的数以百万计的不重要同意书上的商业模式，我们需要审查用户在提供数据方面有多么无私。当然，当用户使用服务并在此过程中提供数据时，他们也会得到该服务作为数据交换的回报。但那不是他们得到的唯一东西。他们还会得到广告，或者可能是二级服务，因为一级服务是为订阅用户保留的。并不是说这些订阅用户不再提供他们的内容（大写C）以及（至少在OpenAI的情况下）他们的帐户信息。

因此，尽管用户同意对他们的数据做任何事情以使用工具或服务，但他们提供的数据被多次变现，用于提供个性化广告并开发新模型，这些模型可能再次采用免费模型的访问方式。抛开更多哲学上的问题，比如为什么银行账户上的数字比我们的人生选择和个人偏好更有价值，用户为了得到如此微不足道的回报而付出如此巨大，似乎是很不合乎逻辑的。尤其是我们讨论的这些数据对于服务提供商来说至关重要，至少如果他们想保持竞争力的话。

然而，情况不一定是这样的。我们不必等待新的具体人工智能法规告诉我们该怎么做和如何行事。至少在个人数据方面，GDPR对其如何使用和用于何种目的非常明确，无论在任何情况下都是如此。

法律有什么要说的？

与版权问题不同，规定可能需要根据新技术重新解释，但对于数据保护却不能说同样的情况。数据保护在很大程度上发展于数字时代，试图管理在线服务提供商的实践。因此，应用现有法规并遵守现有标准是不可避免的。是否以及如何实现这一点是另一个问题。

在这里，有几件事值得考虑：

1. 同意是一项义务，而不是一种选择。

在实际开始使用工具之前没有告知用户其个人数据和模型输入将被用于开发新模型和改进现有模型的事实是一个重大警告信号。基本上就像红色一样。类似于收集cookie同意的同意弹出窗口是必不可少的，且易于编程。

另一方面，“付费或者追踪”（或者在AI模型的情况下是“付费或者收集”），即用户可以决定他们是否愿意将其数据用于AI开发者，这个想法受到了严重争议，很难合法实施。首先，用户仍然必须自由选择接受或拒绝追踪，这意味着价格必须相对低廉（这意味着服务必须相当便宜），才能合理地辩解选择是自由的。更不用说，您还必须遵守此承诺，不收集任何订阅用户的数据。由于Meta最近转向了这种模式，并且数据保护当局已经收到了第一批投诉，[5]我们将有兴趣看到欧盟法院对此事的裁决。但是，目前，依靠合法同意是最安全的方法。

2. 隐私政策需要更新

向数据主体提供的信息需要更新，以包括AI系统在其整个生命周期内进行的数据处理。从开发、测试到部署，一切复杂的处理操作都需要用通俗易懂的英语来解释。这绝不是一项容易的任务，但无法避免。虽然同意弹出窗口不是进行此操作的适当位置，但隐私政策可能是。只要这个隐私政策与同意弹出窗口直接关联，您就可以安心继续。

3. 创造力

翻译复杂的处理操作本身就是一项复杂的任务，但对于实现GDPR的透明度标准来说却是绝对必不可少的。无论您想使用图形、图片、问卷还是视频，您都需要找到一种方法来向普通用户解释他们的数据发生了什么。否则，他们的同意永远不能被认为是知情且合法的。因此，是时候戴上您的绿色思考帽子，卷起袖子，开始着手准备。[6]

Amélie Mourichon在Unsplash上的图片 — 图片来自 Amélie Mourichon 在 Unsplash

[1] Fred D. Davis，感知有用性，感知易用性和用户对信息技术的接受度，MIS季刊，第13卷，第3号（1989年），第319-340页 https://www.jstor.org/stable/249008?typeAccessWorkflow=login

[2] Christophe Carugati，对平台监管机构的“付款或同意”挑战，2023年11月6日，https://www.bruegel.org/analysis/pay-or-consent-challenge-platform-regulators。

[3] OpenAI，隐私政策，https://openai.com/policies/privacy-policy

[4] OpenAI，2020年3月20日的ChatGPT中断：发生了什么事，https://openai.com/blog/march-20-chatgpt-outage

[5] nyob，noyb针对Meta的“付款或者同意”提起GDPR投诉，https://noyb.eu/en/noyb-files-gdpr-complaint-against-meta-over-pay-or-okay

[6] untools，六顶思考帽，https://untools.co/six-thinking-hats

数据利他主义 法人引擎的数字燃料

在人工智能时代处理数据的要点和禁忌

超越利润：数字时代的奉献与获取

a.技术接受还是不择手段获得同意？

法律有什么要说的？

数据利他主义法人引擎的数字燃料