与合作伙伴AI建立负责任的数据收集方法
在DeepMind,我们的目标是确保我们所做的一切都符合最高的安全和伦理标准,与我们的运营原则一致。其中最重要的起点之一是我们如何收集数据。在过去的12个月里,我们与合作伙伴AI(PAI)合作,仔细考虑了这些挑战,并共同开发了负责任的人类数据收集的标准最佳实践和流程。
人类数据收集
三年多前,我们成立了人类行为研究伦理委员会(HuBREC),这是一个类似于医院和大学的学术机构审查委员会(IRBs)的治理组织,旨在保护参与我们研究的人类参与者的尊严、权利和福祉。该委员会监督涉及人类作为研究对象的行为研究,例如调查人类如何与人工智能(AI)系统在决策过程中互动。
除了涉及行为研究的项目外,AI社区越来越多地参与“数据增强”工作——由人类完成的训练和验证机器学习模型的任务,如数据标注和模型评估。虽然行为研究通常依赖于自愿参与的研究对象,但数据增强涉及到支付报酬给人们完成改进AI模型的任务。
这些类型的任务通常在众包平台上进行,往往引发与工人工资、福利和公平有关的伦理考虑,缺乏必要的指导或治理系统以确保达到足够的标准。随着研究实验室加速开发越来越复杂的模型,对数据增强实践的依赖可能会增长,与此同时,对更强的指导的需求也会增加。
作为我们运营原则的一部分,我们致力于维护和贡献于人工智能安全和伦理领域的最佳实践,包括公平和隐私,以避免创建风险的意外后果。
最佳实践
在PAI最近发布的关于负责任数据增强服务的白皮书上,我们合作开发了我们的数据增强实践和流程。其中包括创建了五个步骤,AI从业者可以遵循以改善参与数据增强任务的人的工作条件(更多详情,请访问PAI的数据增强采购指南):
- 选择适当的支付模式,并确保所有工人的报酬高于当地的最低工资标准。
- 在启动数据增强项目之前进行试点。
- 为所需任务确定适当的工人。
- 为工人提供经过验证的说明和/或培训材料。
- 与工人建立清晰而定期的沟通机制。
我们共同创建了必要的政策和资源,在此过程中,从我们的内部法律、数据、安全、伦理和研究团队收集了多轮反馈,并在少数数据收集项目上进行了试点,然后将其推广到更广泛的组织。
这些文件提供了关于如何在DeepMind设置数据增强任务的更多明确指导,提高了我们研究人员在研究设计和执行方面的信心。这不仅增加了我们的批准和启动流程的效率,而且更重要的是改善了参与数据增强任务的人的体验。
有关负责任数据增强实践的更多信息以及我们如何将其嵌入到我们现有流程中的说明,请参阅PAI最近的案例研究《在AI开发者中实施负责任的数据增强实践:DeepMind的例子》。PAI还为寻求开发类似流程的AI从业者和组织提供有用的资源和支持材料。
期待
尽管这些最佳实践是我们工作的基础,但我们不应仅仅依靠它们来确保我们的项目在参与者或工作者福利和研究安全方面达到最高标准。DeepMind的每个项目都是不同的,这就是为什么我们有一个专门的人工数据审核流程,可以让我们与研究团队持续合作,以针对每个具体情况识别和减轻风险。
这项工作旨在为其他有兴趣改进数据丰富采购实践的组织提供资源,我们希望这将引发跨部门的对话,进一步发展这些准则和资源,为团队和合作伙伴提供支持。通过这种合作,我们还希望引发更广泛的讨论,探讨人工智能社区如何继续发展负责任数据收集的规范,并共同建立更好的行业标准。
了解更多关于我们的运营原则。