OpenRAIL 朝着开放和负责任的人工智能许可框架迈进

开放和负责任的人工智能许可证（”OpenRAIL”）是一种专门针对人工智能制品的许可证，允许开放访问、使用和分发人工智能制品，同时要求对其负责任使用。OpenRAIL许可证可以成为开放和负责任的机器学习领域的普遍社区许可工具，就像当前的开源软件许可证对代码和知识共享许可证对通用内容一样。

机器学习和其他人工智能相关领域的进展在过去几年中蓬勃发展，部分得益于信息和通信技术（ICT）领域普遍存在的开源文化，该文化已经渗透到机器学习研究和开发的动态中。尽管开放性对于创新是一个核心价值观的益处不言而喻，但与机器学习模型的开发和使用相关的伦理和社会经济问题的最近事件传达了一个明确的信息：开放还不够。然而，封闭的系统也不是答案，因为问题依然存在于公司私有的人工智能开发过程的不透明性之下。

开源许可证并不适用于所有情况

对机器学习模型的访问、开发和使用受到开源许可方案的极大影响。例如，当机器学习开发人员通过附加官方开源许可证或其他开源软件或内容许可证（如知识共享许可证）来公开权重时，他们可能会非正式地称之为“开源模型”。这引发了一个问题：为什么他们这样做？机器学习制品和源代码真的如此相似吗？从技术角度来看，它们是否共享足够的内容，使得为源代码设计的私有治理机制（例如开源许可证）也应该治理机器学习模型的开发和使用？

大多数当前的模型开发者似乎是这么认为的，因为大多数公开发布的模型都有一个开源许可证（例如Apache 2.0）。例如，可以参考Hugging Face模型中心和Muñoz Ferrandis & Duque Lizarralde (2022)。

然而，实证证据也告诉我们，对开源化和/或自由软件动态的刚性方法以及对ML制品发布的自由0的公理信仰正在在ML模型的使用中产生社会伦理上的扭曲（见Widder等人(2022)）。简而言之，开源许可证不考虑模型作为一个不同于软件/源代码的技术性质和能力的事物，因此无法适应对ML模型的更负责任的使用（例如开源定义的第6个标准），参见Widder等人(2022)；Moran(2021)；Contractor等人(2020)。

如果已经存在并且每天都在改进针对ML模型的文档、透明度和伦理使用的特定实践（例如模型卡片、评估基准），为什么开放许可实践也不应该根据ML模型的特定能力和挑战进行调整呢？

商业和政府的ML许可实践中也出现了类似的问题。用Bowe & Martin (2022)的话来说：“安德里尔工业的总法律顾问Babak Siavoshy问，为计算机视觉目标检测私下开发的AI算法应该适用于哪种类型的许可条款，并使其适应军事目标定位或威胁评估？商业软件许可证和标准DFARS数据权益条款都不能妥善回答这个问题，因为它们既无法保护开发者的利益，也无法使政府获得部署它的系统的洞察力以便负责任地使用。”

如果的确如此，即ML模型和软件/源代码是不同的制品，那为什么前者要在开源许可证下发布呢？答案很简单，开源许可证已经成为软件相关市场上代码共享的事实标准。这种“开源”方法在协作软件开发方面的应用已经渗透并影响了AI开发和许可实践，并带来了巨大的好处。开源和开放和负责任的人工智能许可证（”OpenRAIL”）可能是互补的倡议。

为什么我们不设计一套由开源等运动启发，以及以ML领域的基于证据的方法为基础的许可机制呢？事实上，已经有一套新的许可框架将成为开放和负责任的ML开发、使用和访问的工具：Open & Responsible AI Licenses（OpenRAIL）。

许可范式的改变：OpenRAIL

由RAIL倡议采取的OpenRAIL方法得到了Hugging Face的支持，它受到了BigScience、开源和知识共享等倡议的启发和影响。OpenRAIL许可证的两个主要特点是：

开放：这些许可证允许免费访问和灵活的下游使用和再分发被许可材料，以及其任何派生物的分发。
负责：OpenRAIL许可证在已确定的关键场景中嵌入了一组特定的限制，限制了许可AI工件的使用。基于使用的限制是基于证据的机器学习开发和使用限制方法，这种方法强制在促进广泛访问和使用机器学习与潜在的社会成本之间划清界限。因此，虽然用户可以从开放访问ML模型中受益，但用户将无法将该模型用于指定的受限场景。

将基于使用的限制条款整合到开放AI许可证中，能够更好地控制AI工件的使用，并增强ML模型许可人在识别到模型被滥用时的执行能力。如果开放AI许可证中不存在基于行为的使用限制，许可人如何考虑与负责使用相关的法律工具在公开发布其AI工件时呢？OpenRAIL和RAIL是实现以伦理为基础的行为限制的第一步。

在考虑执行之前，基于使用的限制条款可能会对潜在用户产生威慑作用（即具有威慑效果）。然而，仅仅存在基于使用的限制可能不足以确保不会发生对公开发布的AI工件的潜在滥用。这就是为什么OpenRAIL要求下游采纳基于使用的限制来重新分发和派生AI工件，以阻止派生物的用户滥用后者。

基于版权的行为使用条款的效果将原始许可人的意愿和对许可工件负责使用的信任要求传播出去。此外，广泛采用基于行为的使用条款使派生版本的许可工件的后续分发者能够更好地控制其使用。从社会角度来看，OpenRAIL是一种促进共享AI工件的知情和尊重文化巩固的工具，该工具承认了模型许可人的限制和价值观。

OpenRAIL可能成为良好的机器学习的开放软件许可证

OpenRAIL许可证的三个示例是最近发布的BigScience OpenRAIL-M， StableDiffusion的CreativeML OpenRAIL-M以及前两者的创始：BigSicence BLOOM RAIL v1.0（请参阅此处的帖子和常见问题解答）。后者专门设计用于促进对BigScience的176B参数模型BLOOM（及相关检查点）的开放和负责任的访问和使用。许可证在开放性和负责任的AI之间发挥作用，通过提议一个宽松的许可条款集合，配合一个基于使用的限制条款，在基于证据的潜在语言模型（LLM）的潜力以及其固有风险和受到审查的限制方面设定了一定数量的受限使用。RAIL倡议采取的OpenRAIL方法是BigScience BLOOM RAIL v1.0的首例，同时还发布了其他具有基于行为使用条款的更受限模型，例如OPT-175或SEER。

这些许可证是BigScience对许可空间中部分解决的两个挑战的回应：（i）”模型”与”代码”是不同的事物；（ii）对模型的负责任使用。 BigScience采取了额外的措施，将许可证真正专注于特定情况和BigScience社区的目标。事实上，所提出的解决方案在AI领域是一种新的解决方案：BigScience以一种使模型的负责任使用变得普遍（即促进负责任使用）的方式设计了许可证，因为任何模型的重新分发或派生物都必须符合特定的基于使用的限制，同时在许可证的其余部分提出其他许可条款。

OpenRAIL还与正在进行的监管趋势保持一致，提出了针对AI系统的部署、使用和商业化的具体行业监管。随着AI监管的出现（例如，欧盟AI法案；加拿大提出的AI和数据法案），受AI监管趋势和伦理关注的新开放许可范式有望在未来几年被广泛采用。在不考虑其影响、使用和文档的情况下开源模型可能引发关注，因为这与新的AI监管趋势相悖。因此，OpenRAIL应被视为与正在进行的AI监管趋势相协调的工具之一，作为AI治理工具系统的一部分，并不是仅能实现AI的开放和负责任使用的唯一解决方案。

开放许可是人工智能创新的基石之一。作为社会和法律机构的许可证应该得到妥善对待。它们不应该被看作繁琐的法律技术机制，而应该被视为人工智能社区之间的沟通工具，通过共享关于授权物件如何使用的共同信息，将利益相关者聚集在一起。

让我们投资于健康的开放和负责任的人工智能许可文化，人工智能创新和影响的未来取决于此，取决于我们所有人，取决于您。

作者：Carlos Muñoz Ferrandis

博客致谢：Yacine Jernite，Giada Pistilli，Irene Solaiman，Clementine Fourrier，Clément Délange