Press "Enter" to skip to content

Tag: Technical blog

探索全球人工智能治理机构

新的白皮书调查了国际机构的模型和功能,这些机构可以帮助管理先进人工智能的机遇和风险对先进人工智能(AI)全球影响的日益认识,激发了公众对于需要国际治理结构来帮助管理机遇和减轻风险的讨论许多讨论都借鉴了国际民用航空组织(ICAO)在民航领域、欧洲核子研究组织(CERN)在粒子物理领域、国际原子能机构(IAEA)在核技术领域以及其他许多领域的政府间和多利益相关方组织的类比然而,尽管类比可以作为一个有用的开始,但从人工智能中出现的技术将与航空、粒子物理或核技术不同要在人工智能治理方面取得成功,我们需要更好地理解:我们需要在国际上管理哪些具体的利益和风险,这些利益和风险需要哪些治理功能,哪些组织可以最好地提供这些功能

Leave a Comment

RL未连接:离线强化学习的基准测试

我们提出了一个名为RL Unplugged的基准来评估和比较离线强化学习方法RL Unplugged包括来自各种不同领域的数据,包括游戏(例如Atari基准)和模拟的电机控制问题(例如DM Control Suite)这些数据集包括了部分或完全可观测的领域,使用连续或离散的动作,并且具有随机与确定性的动态

Leave a Comment

数据、架构还是损失函数:对多模态Transformer成功起到了最大贡献的是什么?

在这项工作中,我们研究了多模态变压器(注意力,损失和预训练数据)在多模态预训练中的成功的关键因素我们发现,多模态注意力,即语言和图像变压器相互关注,对这些模型的成功至关重要具有其他类型注意力的模型(即使具有更深或更多参数)无法达到具有多模态注意力的更浅更小模型的可比结果

Leave a Comment

好奇心是你所需要的一切吗?关于好奇探索中新兴行为的效用

我们认为,仅仅将好奇心用于快速环境探索或作为特定任务的额外奖励,并不能充分发挥这种技术的潜力,也会错过一些有用的技能相反,我们建议将重点转向保留在好奇心学习中出现的行为我们认为,这些自我发现的行为可以作为一个代理人解决相关任务的宝贵技能

Leave a Comment

无监督深度学习在单个下颞面部区域神经元中识别语义分离

我们的大脑拥有处理视觉信息的惊人能力我们只需匆匆一瞥复杂的场景,就能在毫秒内将其解析为对象及其属性,例如颜色或大小,并利用这些信息用简单的语言描述场景这种看似毫不费力的能力背后,是我们的视觉皮层进行的复杂计算,它涉及将从视网膜传来的数百万个神经脉冲转化为更有意义的形式,以便将其映射到简单的语言描述上为了完全理解这个过程在大脑中是如何工作的,我们需要弄清楚语义上有意义的信息如何在视觉处理层次的末端神经元的激活中表示,以及这种表示如何从大多数未教授的经验中学习

Leave a Comment

一个通用智能体

受到大规模语言模型进展的启发,我们采用类似的方法来构建一个超越文本输出领域的通用单一智能体我们将这个智能体称为Gato,它是一个多模态、多任务、多具身的通用策略相同的网络和相同的权重可以在Atari游戏中进行游戏、为图像加标题、聊天、使用真实的机械臂堆叠方块等等,根据上下文决定是输出文本、关节扭矩、按钮按下或其他标记

Leave a Comment

动态语言理解:在参数化和半参数化模型中适应新知识

为了研究半参数问答模型及其基础的参数化语言模型(LMs)如何适应不断演化的知识,我们构建了一个新的大规模数据集,名为StreamingQA该数据集包含特定日期上人工编写和生成的问题,这些问题可以从14年时间戳新闻文章中回答我们每个季度对我们的模型进行评估,让它们阅读预训练中未见过的新文章我们证明了参数化模型可以进行更新,而无需完全重新训练,同时避免了灾难性遗忘

Leave a Comment

从电机控制到具身智能

使用人类和动物的动作教导机器人运球,并使用模拟人形角色搬运箱子和踢足球 通过试错让人形角色学习穿越障碍赛道,可能导致个体化的解决方案。Heess等人的“富环境中的运动行为的出现”(2017) 五年前,我们接受了一个挑战,教导一个完全可动的人形角色穿越障碍赛道。这展示了通过试错学习可以实现的增强学习(RL)的成果,但也凸显了解决具体化智能的两个挑战: 重复使用先前学到的行为:需要大量数据让代理“站稳脚跟”。没有任何关于每个关节施加多大力量的初始知识,代理开始随机地抽搐身体,很快摔倒在地。可以通过重复使用先前学到的行为来缓解这个问题。 个体化的行为:当代理最终学会穿越障碍赛道时,它会以不自然(但有趣)的运动模式进行操作,这对于机器人等应用来说是不实际的。 在这里,我们描述了一种解决这两个挑战的方法,称之为神经概率运动基元(NPMP),其中包括从人类和动物身上得出的运动模式的引导学习,并讨论了这种方法在我们今天在《科学机器人》上发表的“人形足球”论文中的应用。 我们还讨论了这种相同的方法如何使人形角色能够从视觉中进行全身操纵,例如携带物体,以及在现实世界中进行机器人控制,例如运球。 使用NPMP将数据提炼为可控制的运动基元 NPMP是一个通用的运动控制模块,可将短期运动意图转化为低级控制信号,并通过离线或通过RL来模仿运动捕捉(MoCap)数据进行训练,该数据是通过在执行感兴趣的动作的人类或动物身上放置追踪器记录的。 一个代理学习模仿MoCap轨迹(以灰色显示) 该模型由两部分组成: 编码器将未来的轨迹压缩为运动意图。 低级控制器根据代理当前状态和运动意图产生下一个动作。 我们的NPMP模型首先将参考数据提炼为低级控制器(左图)。然后,这个低级控制器可以作为即插即用的运动控制模块用于新任务(右图) 训练后,低层控制器可以被重复使用来学习新的任务,其中高层控制器被优化为直接输出电机意图。这样可以实现高效的探索-因为即使是随机采样的电机意图,也可以产生连贯的行为-并限制最终解决方案。 机器人足球中的新兴团队协作 足球一直是具有体现智能研究的长期挑战,需要个体技能和协调的团队合作。在我们最新的工作中,我们使用一个NPMP作为先验知识来指导运动技能的学习。 结果是一个团队的球员,他们从学习追球技能逐渐进步到学习协调。在之前的研究中,我们曾经展示过在相互竞争的团队中可以出现协调行为。NPMP使我们能够观察到类似的效果,但在需要更高级的电机控制的场景中。 代理首先模仿足球运动员的动作学习一个NPMP模块(顶部)。使用NPMP,代理然后学习足球特定的技能(底部)。 我们的代理获得了包括灵活的运动、传球和分工等技能,这些技能通过一系列统计指标来展示,包括在现实世界体育分析中使用的指标。球员们展示了既有灵活的高频电机控制,又有涉及对队友行为的预期的长期决策,从而实现了协调的团队合作。 一个代理通过多智能体RL学习足球竞技。 全身操控和使用视觉进行认知任务 学习使用手臂与物体交互是另一个困难的控制挑战。NPMP也可以实现这种全身操控。通过少量的MoCap数据,我们能够训练一个代理人使用自我中心视野,仅凭稀疏的奖励信号,将一个箱子从一个位置搬到另一个位置: 通过少量的MoCap数据(顶部),我们的NPMP方法可以解决搬运箱子的任务(底部)。 同样,我们可以教会代理人接住和扔球:…

Leave a Comment

RoboCat:一个自我改进的机器人代理

机器人正在迅速成为我们日常生活的一部分,但它们通常只被编程来完成特定的任务虽然利用最新的人工智能技术可能会导致机器人在更多方面提供帮助,但建造通用机器人的进展较慢,部分原因是需要花费时间来收集现实世界的训练数据我们最新的论文介绍了一种自我改进的人工智能机器人代理系统,名为RoboCat,它学会了在不同的机械臂上执行各种任务,然后自动生成新的训练数据来改进自己的技术

Leave a Comment