Press "Enter" to skip to content

Tag: DeepMind

AdaTape 具有自适应计算和动态读写的基础模型

作者:Google研究实习生Fuzhao Xue和研究科学家Mostafa Dehghani 自适应计算是指机器学习系统根据环境变化调整其行为的能力。传统神经网络具有固定的功能和计算能力,即它们对不同输入的处理都花费相同数量的FLOPs,而具有自适应和动态计算的模型会根据输入的复杂性调节其分配给处理每个输入的计算预算。 神经网络中的自适应计算具有两个关键原因的吸引力。首先,引入自适应性的机制提供了归纳偏差,在解决一些具有挑战性的任务中起到关键作用。例如,为不同输入启用不同数量的计算步骤对于解决需要建模不同深度层次的算术问题至关重要。其次,通过动态计算提供的更大灵活性,它使从业者能够调整推理的成本,因为这些模型可以根据需要调整花费更多的FLOPs来处理新的输入。 可以通过使用不同的函数或计算预算来使神经网络具有自适应性。深度神经网络可以被看作是一个根据输入和其参数输出结果的函数。为了实现自适应函数类型,根据输入有选择地激活参数的子集,这个过程被称为条件计算。基于函数类型的自适应性已经在混合专家研究中得到了探索,其中每个输入样本的稀疏激活参数是通过路由确定的。 自适应计算的另一个研究领域涉及动态计算预算。与标准神经网络(如T5、GPT-3、PaLM和ViT)不同,它们的计算预算对于不同样本是固定的,最近的研究表明,自适应计算预算可以提高在转换器无法胜任的任务上的性能。其中许多作品通过使用动态深度来分配计算预算来实现自适应性。例如,提出了自适应计算时间(ACT)算法,为递归神经网络提供自适应的计算预算。通用变压器将ACT算法扩展到变压器中,通过使计算预算依赖于用于每个输入示例或令牌的变压器层数的数量。最近的研究,如PonderNet,在改进动态停止机制的同时采用了类似的方法。 在论文“自适应计算与弹性输入序列”中,我们介绍了一种利用自适应计算的新模型,称为AdaTape。这个模型是基于变压器的架构,它使用一组动态的令牌来创建弹性输入序列,与之前的作品相比,提供了一种独特的适应性视角。AdaTape使用自适应的读带机制来确定根据输入复杂性添加到每个输入的令牌的数量。AdaTape的实现非常简单,提供了一个有效的旋钮,可以在需要时增加准确性,但与其他自适应基线相比,它也更加高效,因为它直接将适应性注入输入序列而不是模型深度。最后,AdaTape在标准任务(如图像分类)和算法任务上提供了更好的性能,同时保持了有利的质量和成本平衡。 可变输入序列的自适应计算变压器 AdaTape同时使用自适应函数类型和动态计算预算。具体而言,在分词后的一批输入序列(例如,从视觉变压器中的图像的非重叠块的线性投影)中,AdaTape使用表示每个输入的向量来动态选择一个可变大小的读带令牌序列。 AdaTape使用一个令牌库,称为“读带库”,用于存储通过自适应的读带机制与模型交互的所有候选读带令牌。我们探索了两种不同的方法来创建读带库:基于输入驱动的令牌库和可学习的令牌库。 基于输入驱动的令牌库的一般思想是从输入中提取一组令牌,并使用与原始模型分词器不同的方法将原始输入映射到一系列输入令牌。这使得可以动态、按需地访问从输入中获取的信息,该信息是使用不同的视角获得的,例如不同的图像分辨率或不同的抽象级别。 在某些情况下,以不同抽象级别进行分词是不可能的,因此无法使用基于输入驱动的读带库,例如在图形变压器中难以进一步分割每个节点的情况。为了解决这个问题,AdaTape通过使用一组可训练向量作为读带令牌提供了一种更通用的生成读带库的方法。这种方法被称为可学习的令牌库,可以看作是一个嵌入层,模型可以根据输入示例的复杂性动态检索令牌。可学习的令牌库使AdaTape能够生成更灵活的读带库,使其能够根据每个输入示例的复杂性动态调整计算预算,例如,更复杂的示例从库中检索更多的令牌,这不仅让模型使用存储在库中的知识,还可以花费更多的FLOPs来处理输入,因为输入现在更大了。 最后,选择的磁带标记被附加到原始输入上,并传递给后续的Transformer层。对于每个Transformer层,相同的多头注意力应用于所有输入和磁带标记。然而,使用了两个不同的前馈网络(FFN):一个用于所有来自原始输入的标记,另一个用于所有磁带标记。我们观察到,对于输入和磁带标记使用独立的前馈网络可以稍微提高质量。 AdaTape概述。对于不同的样本,我们从磁带库中选择一个可变数量的不同标记。磁带库可以由输入驱动,例如通过提取一些额外的细粒度信息,或者可以是一组可训练的向量。自适应磁带读取用于递归地选择不同长度的磁带标记序列,以适应不同的输入。然后,这些标记简单地附加到输入中,并传递给Transformer编码器。 AdaTape提供了有益的归纳偏差 我们在奇偶性任务上评估AdaTape,这对于标准Transformer来说是一个非常具有挑战性的任务,以研究AdaTape中的归纳偏差的影响。在奇偶性任务中,给定一个由1、0和-1组成的序列,模型必须预测序列中1的数量是偶数还是奇数。奇偶性是最简单的非计数自由或周期正则语言,但令人惊讶的是,标准Transformer无法解决这个任务。 奇偶性任务的评估。标准Transformer和通用Transformer都无法执行此任务,两者的性能都与随机猜测基线相同。 尽管在短而简单的序列上评估,但标准Transformer和通用Transformer都无法执行奇偶性任务,因为它们无法在模型内部保持计数器。然而,AdaTape优于所有基线,因为它在其输入选择机制中结合了轻量级的循环,提供了一个归纳偏差,使得隐式地维护计数器成为可能,而这在标准Transformer中是不可能的。 图像分类评估 我们还对图像分类任务评估了AdaTape。为此,我们从头开始在ImageNet-1K上训练了AdaTape。下图显示了AdaTape和基线方法(包括A-ViT以及通用Transformer ViT(UViT和U2T))的准确性与速度(每秒处理的图像数量)之间的关系。在质量和成本的权衡方面,AdaTape比其他自适应Transformer基线表现得更好。在效率方面,参数数量较大的AdaTape模型比较小的基线更快。这样的结果与之前的研究结果一致,显示自适应模型深度架构不适用于许多加速器,如TPU。 我们通过在ImageNet上从头开始训练来评估AdaTape。对于A-ViT,我们不仅报告了论文中的结果,还重新实现了A-ViT的从头开始训练,即A-ViT(我们自己的版本)。 对AdaTape行为的研究 除了在奇偶任务和ImageNet-1K上的性能之外,我们还使用基于输入的bank在JFT-300M验证集上评估了AdaTape的令牌选择行为。为了更好地理解模型的行为,我们将基于输入的bank上的令牌选择结果可视化为热图,其中较浅的颜色表示该位置被更频繁选择。热图显示AdaTape更频繁地选择中心补丁。这与我们的先前知识一致,因为中心补丁通常更具信息量,尤其是在具有自然图像的数据集上,其中主要对象位于图像中央。这个结果突出了AdaTape的智能,它可以有效地识别和优先选择更具信息量的补丁,以提高性能。…

Leave a Comment

谷歌DeepMind正在研发一种算法,以超越ChatGPT

在一项具有突破性的宣布中,Google的DeepMind AI实验室的首席执行官Demis Hassabis揭示了一种名为Gemini的创新型AI系统的开发。凭借即将推出的算法,Gemini将超越OpenAI的ChatGPT,利用DeepMind在围棋领域的历史性胜利中获得的技术。这一揭示标志着人工智能领域的一个重要里程碑,承诺提供增强的功能和新颖的进展。让我们深入探讨这一革命性的发展及其对人工智能未来的潜在影响。 Gemini:人工智能技术的下一个飞跃 DeepMind的创新性AI系统Gemini已经成为人工智能领域的一项创举。Gemini在AlphaGo的卓越成就基础上,将DeepMind的先进技术与GPT-4的语言能力相结合,超越了OpenAI的ChatGPT的能力。这种优势的融合使Gemini成为一种有前景的创新,有望重新定义人工智能领域。 合并优势:AlphaGo和GPT-4的协同作用 通过将AlphaGo的强大技术融入GPT-4模型中,Gemini超越了传统语言模型的局限性。Gemini独特的语言能力和问题解决能力的结合承诺革新人工智能。DeepMind的首席执行官Demis Hassabis设想了一个在理解和生成文本以及规划和解决复杂问题方面表现出色的系统。 还阅读:DeepMind首席执行官表示AGI可能很快实现 揭示创新:Gemini的令人兴奋的特点 Gemini将引入许多令人兴奋的功能,推动人工智能能力的边界。通过融合AlphaGo类型的系统和大型语言模型,Gemini带来了人工智能潜力的新时代。DeepMind的工程师还暗示了Gemini内部的一些有趣创新,进一步加剧了对其正式发布的期待。 强化学习:AlphaGo成功的基础 强化学习技术的突破性应用是AlphaGo历史性胜利的核心。DeepMind的软件通过多次尝试并根据表现获得反馈来掌握复杂问题。此外,AlphaGo还利用一种称为树搜索的方法,在棋盘上探索和记住潜在的走法。这一基础为Gemini的未来发展奠定了基础。 还阅读:强化学习的综合指南 正在进行的旅程:Gemini的开发 尽管Gemini仍处于开发阶段,但Hassabis强调了这个项目所涉及的巨大工作和投入。DeepMind的团队估计,将需要数个月和大量的财力资源(可能达到数千万或数亿美元)来实现Gemini的成功。这项工作的重要性凸显了Gemini潜在影响的重要性。 应对竞争:谷歌的战略回应 随着OpenAI的ChatGPT获得关注,谷歌迅速回应,将生成型人工智能整合到其产品中,推出聊天机器人Bard,并将人工智能纳入其搜索引擎。通过将DeepMind与谷歌的主要人工智能实验室Brain合并成为Google DeepMind,这家搜索巨头试图利用Gemini的能力应对ChatGPT所带来的竞争威胁。这一战略举措凸显了谷歌在人工智能创新领域保持领先地位的承诺。 还阅读:Chatgpt-4与Google Bard的对比 DeepMind的旅程:从收购到惊艳 DeepMind于2014年被谷歌收购,标志着人工智能研究的一个转折点。这家公司靠着强化学习驱动的革命性软件展示了以前难以想象的能力。AlphaGo在2016年对阵围棋冠军李世石的巨大胜利震惊了人工智能界,挑战了人们对于在复杂游戏中达到人类水平技能时间表的预设观念。 还阅读:DeepMind的AI大师:在2小时内学习26个游戏 Transformer训练:大型语言模型的支柱…

Leave a Comment

DeepMind RoboCat 一个自学习的机器人人工智能模型

DeepMind,著名的AI研究实验室,推出了名为RoboCat的AI模型,能够使用各种机械臂模型执行各种复杂任务。与之前的模型不同,RoboCat以其能够解决多个任务并无缝适应不同实际机器人的能力而脱颖而出。让我们深入探讨这一非凡成就并探索RoboCat如何改变机器人领域。 还阅读:亚马逊的秘密家用AI机器人可以做任何事情甚至更多 多才多艺的RoboCat:机器人智能的跨越 DeepMind的突破性AI模型RoboCat在机器人领域展示了前所未有的多样性。正如DeepMind的研究科学家Alex Lee所说,RoboCat是一个单一的大型模型,能够处理多个真实机器人实体的多样任务。这意味着该模型能够快速适应新任务和不同的机器人配置。这标志着机器人领域的重要里程碑。 还阅读:机械臂加持的人类蜘蛛侠——Jizai Arms 从文本到机器人:Gato的启示 RoboCat受到GATO的启发,后者是DeepMind开发的另一个AI模型。GATO具有分析和响应文本、图像和事件的非凡能力。通过利用这一概念,DeepMind的研究人员对大量数据集进行了RoboCat的培训。这包括从模拟和现实机器人环境中收集的图像和动作数据。 训练强大的RoboCat 为了训练RoboCat,DeepMind团队收集了100-1,000个人控制机械臂执行各种任务的演示。这些演示为在特定任务上对模型进行微调、创建专门的“分支”模型奠定了基础。每个分支模型都经过了严格的实践,平均进行了10,000次迭代。 还阅读:世界首台AI动力机械臂:你需要了解的一切 突破极限:释放RoboCat的潜力 RoboCat的最终版本在模拟和真实世界情况下,已经接受了令人印象深刻的253项任务的训练,并对这些任务的141个变体进行了基准测试。DeepMind报告称,该模型成功地学会了观察1,000个人控制演示后如何操作不同的机械臂,持续数小时。然而,不同任务的成功率差别很大,从13%到99%不等,演示数量是一个决定性因素。 还阅读:Alphabet推出Flowstate:面向所有人的机器人应用开发平台 开启新局面:重新定义机器人技术 尽管成功率各不相同,DeepMind认为RoboCat有潜力降低解决机器人新任务的障碍。Alex Lee解释说,即使对于新任务的演示数量有限,RoboCat也可以进行微调并生成额外的数据以进一步提高其性能。最终目标是将教RoboCat学习新任务所需的演示数量减少到不到10个,这可能会彻底改变机器人领域。 也阅读:Sanctuary AI的Phoenix机器人和特斯拉的最新推出:Optimus! 我们的看法 DeepMind的RoboCat在机器人领域取得了重大突破。它展示了单一AI模型在多个任务和不同机器人实体上适应和表现的能力。通过利用其对大量数据集的培训并利用微调的力量,RoboCat为未来的发展奠定了基础。RoboCat有可能简化教授机器人新任务的过程,这可能会开创一个新的创新时代。随着RoboCat为未来铺平道路,令人兴奋的时代即将到来,机器人可以在最小的人为干预下无缝适应和学习。

Leave a Comment

使用机器学习解决代码审查评论

由亚历山大·弗瑞姆根 (Alexander Frömmgen),高级软件工程师莱拉·卡拉提扬 (Lera Kharatyan) 发布 代码更改审查是规模化软件开发过程中至关重要的一部分,占用了代码作者和代码审查人员相当数量的时间。作为这个过程的一部分,审查人员检查建议的代码,并通过自然语言编写的评论要求作者进行代码更改。在 Google,我们每年看到数百万个审查人员的评论,作者需要平均 ~60 分钟的积极引导时间,在发送更改进行审查和最终提交更改之间。在我们的测量中,代码作者必须做出的为了应对审查人员的评论所需的积极工作时间几乎是随着评论数量线性增长的。然而,通过机器学习 (ML),我们有机会自动化和简化代码审查过程,例如,根据评论的文本提出代码更改。 今天,我们描述了我们在 Google 的日常开发工作流程中应用最新的大型序列模型 (使用 DIDACT 方法论) 的应用,自动解决代码审查评论。截至今天,Google 的代码更改作者通过应用 ML 建议的编辑,处理了大量的审查人员评论。我们预计,在 Google 的规模下,这将每年减少数十万小时的代码审查时间。非请求的非常积极的反馈表明,ML 建议的代码编辑的影响增加了 Google…

Leave a Comment