在过去几年里,数据的产生速度呈指数级增长,主要标志着数字世界的快速普及。
据估计,全球90%的数据仅在过去两年内生成。
我们与互联网以各种形式互动,发送短信、分享视频或创作音乐,都为驱动生成式人工智能(GenAI)技术的训练数据池做出了贡献。
原则上,我们的数据作为输入进入这些先进的人工智能算法中,从而学习并生成新的数据。
GenAI的另一面
不用说,一开始听起来很有趣,但随着现实开始显现,它开始以各种形式带来风险。
这些技术发展的另一面很快就会带来各种问题,包括错误信息、滥用、信息风险、深度伪造、碳排放等等。
此外,需要注意的是这些模型对许多工作的冗余带来的影响。
根据麦肯锡最近的报告《生成式人工智能与美国未来的工作》——那些涉及大量重复任务、数据收集和基本数据处理的工作面临的风险增加,这些工作可能会变得过时。
该报告引用了自动化,包括GenAI,是导致基本认知和手动技能需求下降的原因之一。
此外,从GenAI时代之前就一直存在并继续带来挑战的重要关注点是数据隐私。构成GenAI模型核心的数据是从互联网中提取的,其中包含了我们身份的一小部分。
据称,某个语言模型声称经过使用从互联网中爬取的书籍、文章、网站和帖子等约3000亿个词进行训练。令人担忧的是,我们在这期间对其收集、使用和利用毫无察觉。
麻省理工科技评论认为OpenAI几乎不可能遵守数据保护规则。
开源是解决方案吗?
作为我们所有人对这些数据的部分贡献者,有人期望开源算法并使其对每个人透明可理解。
虽然开放获取模型提供有关代码、训练数据、模型权重、架构和评估结果的详细信息,基本上是你需要知道的一切。
但大多数人是否能够理解它呢?可能不行!
这就引发了在适当的论坛上共享这些重要细节的需求,包括政策制定者、从业人员和政府等专家委员会。
该委员会将能够决定对人类最有利的事情,这是今天没有任何个人群体、政府或组织可以单独决定的。
它必须将对社会的影响视为首要任务,并从社会、经济、政治等多个角度评估GenAI的影响。
治理不会阻碍创新
将数据组件放在一边,这些庞大模型的开发者投入巨资提供计算能力来构建这些模型,使其成为他们保持封闭访问的特权。
投资的本质意味着他们希望通过将其用于商业用途来获得回报。这就是混淆开始的地方。
拥有一个能够监管AI应用程序的开发和发布的治理机构并不会抑制创新或妨碍业务增长。
相反,它的主要目标是通过制定规则和政策来促进通过技术实现业务增长,并推动更负责任的方法。
那么,谁决定责任系数,以及这个管理机构是如何形成的?
需要一个负责任的论坛
应该有一个独立的实体,由研究、学术界、企业、政策制定者和政府/国家的专家组成。独立意味着它的资金不能由可能引起利益冲突的任何参与者赞助。
它的唯一议程是代表世界80亿人思考、理性思考和行动,并对其决策负高度的责任标准。
这是一个重要的声明,意味着这个团队必须把任务放在首位,将其视为非次要的。我们全世界都无法承受决策者将这样一个关键任务视为可有可无或兼职工作,这也意味着他们必须得到很好的资金支持。
该团队的任务是执行一个计划和策略,既能解决技术带来的危害,又不能损害技术带来的好处。
我们以前做到过
人工智能经常与核技术进行比较。其前沿发展使得预测其带来的风险变得困难。
引用《有线》杂志上Rumman的话,他提到国际原子能机构(IAEA)——一个独立于政府和企业的机构,被组建起来为核技术的广泛影响和似乎无限的能力提供解决方案。
因此,我们以前有全球合作的例子,世界曾经团结起来将混乱变为秩序。我确信我们迟早会达到那个目标。但是,要与迅速发展的部署步伐保持同步,汇聚和形成规范是至关重要的。
人类无法指望企业自愿采取措施,希望科技公司能够负责任地开发和部署。
Vidhi Chugh是一位AI战略家和数字转型领导者,致力于构建可扩展的机器学习系统,并在产品、科学和工程的交叉领域工作。她是一位屡获殊荣的创新领导者、作家和国际演讲者。她的使命是使机器学习民主化,并为每个人打破术语障碍,成为这一变革的一部分。