马克·A·莱姆利教授关于生成式人工智能和法律

马克·A·莱姆利教授关于生成式人工智能和法律四海第1张

随着数据科学领域中的新兴领域的出现以及对该领域的研究仍然难以掌握，有时与该领域的专家和先驱交谈是最好的选择。最近，我们与斯坦福法学院法学教授、斯坦福法学、科学和技术项目主任马克·A·莱姆利进行了交谈。在采访中，我们讨论了有关生成式人工智能的法律问题，包括与治理、版权、数据隐私和法律困境有关的挑战。您可以在此处收听完整的闪电采访，并阅读以下两个与马克·A·莱姆利的有趣问题的文字记录。

问：生成式人工智能带来了一些新的法律问题吗？

马克·A·莱姆利：法律问题可以分为三个大类。第一：使用受版权保护的作品来训练我的人工智能是否合法；第二：我们如何处理这些作品的输出；第三：谁可能拥有这些输出？在训练问题上，这是我们目前开始看到最多的诉讼。生成式人工智能是新技术，但问题并不新鲜。我们有很多案例，先前的技术公司为了从中生成一些东西而抓取了受版权保护的作品的全部内容。这就是搜索引擎的工作原理，例如，关于搜索引擎是否通过创建临时数据库来生成搜索链接的问题有许多诉讼。法院认为这是合法的。

谷歌的图书搜索是一个更有趣的例子，因为谷歌不仅仅是从互联网上下载东西，它实际上还制作并扫描了斯坦福图书馆中的所有图书，法院认为这是合理使用。因为在这两种情况下，尽管你正在对整个内容进行复制，但你只是在你的数据库中幕后制作了一份副本，你没有与世界共享该副本，并且你使用该副本来进行某种转化和生产性的工作——这是你在没有参与临时中间副本的情况下无法完成的工作。

问：告诉我们一些关于记忆问题和相关问题的情况。

记忆问题是指人工智能生成的内容与现有受版权保护的作品相似。

马克·A·莱姆利：最近，我们一直在讨论在受版权保护的作品上进行训练的问题，目前正在进行诉讼，但我认为法院会说是的，这是合理使用。这就像训练一个搜索引擎或作品。更难的问题是，如果人工智能的输出与特定的受版权保护的作品非常相似。

我与斯坦福大学佩西·朗格的团队中的一些计算机科学专家合作研究了这个问题，我们注意到它实际上并不经常发生。当发生这种情况时，通常有三种原因导致。一种是去重的问题。人工智能实际上很少记忆特定的作品；它所做的是查看几百个最接近的作品，如果这些几百个最接近的作品是同一张照片的完全副本，它可能生成一个非常类似于该照片的合成图像，但它实际上是从许多不同的学习示例中绘制的。我们并没有很好地消除去重，因为从技术上讲，这比听起来要困难得多。

它发生的第二种方式是，如果你提供一个非常具体的提示，比如，你可以指导ChatGPT创作一个非常相似的作品。所以在我们的论文中，我们要求ChatGPT给我们讲一个关于去魔法学校的巫师孩子的童话故事。它不会给我们哈利·波特或与哈利·波特非常相似的东西，但是如果你给它一个以第一本哈利·波特书的第一段话开头的故事，它基本上会忠实地输出接下来的几章，只有一些微小的变化。

然后，我认为第三类问题——从版权法的角度来看，这是最难思考的问题——是图像引擎提出了一些概念，而我则从中抽象出事物，并找出这是一杯咖啡的样子，这是一只猫的样子。所以，如果你让它生成一只喝咖啡的猫，它就具备了这些概念并可以生成一个。但我认为有些东西既是人工智能的概念，也是受版权保护的。想想婴儿Yoda或史努比。你可以通过稳定扩散图像得到一个相当不错的婴儿Yoda，而不是因为它记住了一张特定的图片，而是因为它看过足够多的婴儿Yoda的图片，以至于它基本上了解婴儿Yoda作为一个概念。

如何更多地了解大型语言模型、生成式人工智能和人工智能伦理。

如果您还没有开始使用大型语言模型或生成式人工智能，或者您想进一步提升您的专业知识，那么ODSC West是适合您的会议。今年10月30日至11月2日，您可以参加与自然语言处理、大型语言模型等相关的数十个讲座。以下是一些已确认的讲座，还有更多的讲座将会陆续发布：

使用特征存储个性化大型语言模型
大型语言模型的评估技术
了解大型模型的现状
通过联合系统优化实现开源大型模型的民主微调
利用LlamaIndex将大型语言模型应用于数据的知识工作者
使用data2vec进行通用高效的自监督学习
走向可解释且语言无关的大型语言模型
对Slack消息进行大型语言模型的微调
通过强化学习和反馈对开源大型语言模型进行对齐
生成式人工智能、自主人工智能代理和AGI – 人工智能新进展将如何改进我们所构建的产品
实践中的生成式人工智能应用
超越演示和原型：如何使用开源大型语言模型构建可投入生产的应用程序
采用语言模型需要风险管理 – 就是这样
大型语言模型和GPT模型在安全领域的应用范围
使用GPT-4和Langchain进行提示优化
构建生成式人工智能应用：一个大型语言模型案例研究
图形：生成式人工智能可解释性的下一个前沿
使用LangChain自动化业务流程
稳定扩散：文本到图像范式的新前沿
连接大型语言模型 – 常见陷阱和挑战
生成式人工智能中的归属权和道德权利
大型语言模型的背景和PaLM 2的简介：一个更小、更快、更强大的大型语言模型
整合语言模型以实现自动化特征工程构思
细节中的魔鬼：如何定义自然语言处理任务可能削弱或促进其成功实施

不要拖延，立即购票！50%的折扣即将结束！在这里注册。