Press "Enter" to skip to content

四海吧 Posts

斯坦福的一项新的人工智能研究解释了语言模型中过度自信和不确定表达的作用

随着自然语言系统在现实场景中的普及,这些系统必须正确地传达不确定性。人类通常依靠不确定性表达来告知决策过程,从带伞到开始化疗的决策都范围之内。然而,有必要研究语言不确定性与自然语言生成系统的相互作用,从而需要了解模型与自然语言交互的关键组成部分。 最近的研究探讨了语言模型(LMs)解释不确定性表达的能力以及当它们被训练用于发出不确定性表达时的行为变化。自然的不确定性表达可以包括表示犹豫、归因信息或承认限制等其他话语行为。尽管先前的研究集中于学习模型的内部概率与语言或数字序数输出之间的映射,但当前的研究旨在将非单一维度的语言特征(如修饰语、认识标记、主动动词和证据标记)纳入自然语言生成模型中。 本研究检查了大型语言模型(LMs)在解释和生成不确定性提示时在问答(QA)任务的上下文中的行为。研究在零样本设置下进行实验,以分离提示中不确定性的影响,并在上下文学习场景中研究学习表达不确定性如何影响QA任务的生成。 研究发现,使用高确定性的表达可能导致准确性和校准性的缺陷。具体而言,在使用确定性表达来加强介词时,准确性存在系统性损失。此外,教导LM发出削弱语气而不是加强语气可以在不牺牲准确性的情况下获得更好的校准。该研究引入了不确定性表达的分类学以评估语言特征对LM生成的影响。 结果表明,在设计语言校准模型时至关重要,鉴于模型发出高度确定性语言的潜在缺陷。该研究的贡献包括: 提供不确定性表达与LMs相互作用的框架和分析。 引入不确定性表达的分类学。 展示模型使用确定性表达或惯用语言时出现的准确性问题。 最后,研究表明,不确定性表达可能比确定性表达更好地实现校准。 结论 本研究分析了自然不确定性表达对零样本提示和上下文学习中模型行为的影响。研究人员发现,在零样本提示中使用自然不确定性表达(如加强语气和主动动词)以及数值不确定性习语(如“100%确定”)会降低准确性。然而,教导模型仅在不确定时发出不确定性表达可能是人机交互的更安全设计选择。这是因为先前的研究表明,辅助决策的人工智能表现不如仅依靠人类决策,这表明过度依赖人工智能。教导模型发出确定性表达可能会加剧模型的校准不良和脆弱性。 研究人员建议,在进一步研究人类如何解释生成的自然表达式时,社区应将重点放在训练模型发出不确定性表达上。

Leave a Comment

“结识PaLM-E:一个新的拥有5620亿参数的具身多模态语言模型,能够执行机器人操作规划、视觉问答等任务”

大型语言模型(LLMs)展示了在包括对话、逐步推理、数学问题解决和代码撰写在内的各个领域中的强大推理能力。尽管将大量文本数据用于LLMs的训练可以产生与其物理环境有关的表示,但将这些表示与真实世界的视觉和物理传感器模态相连接对于解决计算机视觉和机器人领域中更广泛的基于真实世界的问题至关重要。 以前的工作将LLMs的输出与学习到的机器人策略和可行性函数结合起来进行决策,但这种方法受到限制。以前的工作的局限性在于LLM只接收文本输入,这对于许多需要场景的几何配置至关重要的任务来说是不足够的。此外,他们的研究表明,在常见的视觉语言任务(如视觉问答)上训练的最先进的视觉语言模型无法直接解决机器人推理问题。在这项研究中,来自Google和TU Berlin的研究人员提出了具有体现的语言模型,该模型直接包括来自具体代理的传感器模态的连续输入,并允许语言模型在实际世界中进行更准确的顺序决策。他们开发了PaLM-E,这是一个单一的大型具体化多模态模型,具有积极的迁移效果,可以解决多种观察模态下的多种具体化推理问题。 PaLM-E LLM表现出积极的迁移效果,即学习者在学习第二语言(L2)时可以将他们在第一语言(L1)中的知识或技能应用于L2学习中,从而更快、更有效地掌握L2。例如,如果学习者的L1与他们正在学习的L2具有相似的语法结构,他们可能能够利用对L1语法的了解来更快地理解和应用L2语法规则。同样,如果学习者的L1和L2共享同源词(在两种语言中拼写和含义相似的词),他们可以通过识别和记忆这些同源词来快速扩展他们的L2词汇量。积极迁移与负迁移相对应,负迁移发生在学习者的L1的知识或技能干扰他们获得L2的能力时。例如,如果学习者的L1的语法结构与他们的L2大相径庭,即使他们在理解上理解了L2的语法规则,他们也可能在正确应用L2的语法规则时遇到困难。 与基于Transformer的LLM的自注意力层处理语言标记的方式类似,图片和状态估计等输入也被合并到与语言标记相同的潜在嵌入中。他们首先通过编码器将连续输入注入到预训练的LLM中。这些编码器经过端到端训练,可以产生自然语言中的顺序判断,具体化代理可以通过配置低层规则或响应具体化查询来理解这些判断。通过对比各种输入表示(例如标准与以物体为中心的ViT编码用于视觉输入)、在训练编码器时冻结与微调语言模型以及研究在多个任务上进行联合训练是否能够实现迁移,他们在一系列情境中评估了这种方法。 他们在三个机器人操作领域(其中两个在真实世界中是闭环的)、常见的视觉语言任务(如VQA和图片描述)和语言任务上测试了这种技术,以确定该方法的广度。根据他们的研究结果,多任务训练相对于单一任务训练可以提高性能。他们展示了在机器人任务中这种任务之间的迁移可能导致更高的数据效率,包括在新的物品组合或未知对象上表现出一次性或零次性的泛化,并大大提高从少量训练样本中的学习性能。据他们所知,将540B的PaLM LLM和22B的Vision Transformer(ViT)结合起来创建了迄今为止发表的最大的视觉语言模型,使PaLM-E扩展到了562B个参数。 在没有使用任务特定的微调的情况下,PaLM-E-562B在OK-VQA基准测试上取得了最先进的性能。他们还发现,即使只在单个图像示例上进行训练,PaLM-E-562B显示出了广泛的技能,包括零次多模态思维链(CoT)少量提示、无OCR算术推理和多图像推理。在他们的知识范围内,使用端到端模型在多模态数据上展示零次CoT尚未被证明具体化程序。 总结他们的主要贡献,他们(1)建议并展示了如何在训练多模态大型语言模型时包含具体化数据,以创建一个通用的、迁移学习的、多具体化决策代理。他们证明,即使最先进的通用视觉语言模型在开箱即用的情况下不能有效解决具体化推理问题(零-shot),也有可能训练一个既有效的具体化推理器又能胜任任务的通用视觉语言模型。在研究这种模型的最佳训练方法时, 他们(3)提供了新的架构概念,包括实体标记的多模态标记和神经场景表示。最后但并非最不重要的是,他们(4)证明了PaLM-E不仅是一个具体化推理器,而且还是一个定量技能丰富的视觉和语言通用模型,并且(5)显示扩大语言模型的规模可以实现多模态微调而减少灾难性遗忘。可以在他们的项目网站上找到各种演示。

Leave a Comment

应对学习曲线:人工智能在记忆保持方面的挣扎

随着人工智能(AI)的边界不断扩展,研究人员面临着该领域最大的挑战之一:记忆丧失在人工智能术语中被称为“灾难性遗忘”,这种现象严重阻碍了机器学习的进展,模仿了人类记忆的难以捉摸的特性来自俄亥俄州立大学的一支电气工程师团队[…]

Leave a Comment

阿里巴巴AI研究提出Composer:一个基于数十亿(文本,图像)对训练的巨型(50亿参数)可控扩散模型

现如今,基于文本的生成图片模型已经能够创建各种逼真的图片。最近的许多研究努力将文本到图片的模型进一步扩展,通过添加分割图、场景图、绘画、深度图和修复遮罩等条件或在少量特定主题数据上进行微调来实现定制化生成。然而,当将这些模型应用于实际应用时,设计师仍然需要更多的控制。例如,在真实世界的设计项目中,生成模型通常需要帮助可靠地生成同时对语义、形式、风格和颜色有要求的图片。 阿里巴巴中国的研究人员介绍了Composer。它是一个训练有数十亿个(文本,图片)对的大型(50亿参数)可控扩散模型。他们认为组合性而不仅仅是条件性是控制图像生成的秘密。后者引入了很多可能的组合,可以极大地扩大控制空间。类似的思想在语言和场景理解领域也有研究。在这些领域中,组合性被称为组合泛化,即能够从有限数量的可用组件中识别或创建出有限数量的独特组合的能力。基于上述概念,他们在这项工作中提供了一个组合生成模型的实现,称之为Composer。他们将可以平滑重新组合视觉元素以创建新图片的生成模型称为组合生成模型。他们使用一个具有UNet骨干的多条件扩散模型来实现Composer。每个Composer训练迭代有两个阶段:分解阶段,在这个阶段,计算机视觉算法或预训练模型被用来将一批图片分解成单个表示;合成阶段,在这个阶段,Composer被优化以从表示子集中重建图片。 图1:组合图像合成的思想,首先将一张图片分解成多个基本部分,然后以很高的创造力和控制度重新组合它们。为了做到这一点,这些组件以各种形式存在,并在整个生成过程中充当条件,使得在推理步骤中可以进行广泛的修改。建议以高分辨率查看。 Composer可以解码出从未见过的表示组合中的独特图片,这些表示可能来自多个来源,可能不兼容,而仅仅是通过重建目的进行训练。尽管概念上很简单且易于使用,但Composer在传统和以前未开发的图片生成和操作任务上表现出色,如但不限于文本到图片生成、多模态条件图片生成、风格转换、姿势转换、图片翻译、虚拟试穿、插值和来自各个方向的图片变化、通过修改草图进行图片重构、依赖图片翻译和图片翻译。 此外,Composer可以将所有上述操作的可编辑区域限制在用户指定的区域内,这比传统的修复操作更灵活,同时通过引入掩膜的正交表示防止在该区域之外修改像素。尽管经过多任务训练,Composer在COCO数据集上利用标题作为标准,在文本到图片合成中获得了零射击FID为9.2的结果,展示了其出色的性能。他们的分解-合成范式表明,当条件是可组合的而不仅仅是单独使用时,生成模型的控制空间可以大大增加。因此,他们的Composer架构可以重塑广泛的传统生成任务,并揭示了迄今未被认识的生成能力,为进一步研究各种分解技术提供了启示。此外,基于无分类器和双向引导,他们展示了许多使用Composer进行不同图片生成和修改任务的方法,并为后续研究提供了有益的参考。在将这项工作公开之前,他们计划仔细检查Composer如何降低滥用风险,并可能提供一个经过筛选的版本。

Leave a Comment

微软的必应聊天功能扩展到Chrome和Safari

微软的Bing Chat,这个由人工智能驱动的聊天机器人,正在突破其在微软专属浏览器上的限制,现在正在非微软浏览器上进行测试。这次扩展旨在为更广泛的用户群体提供类似ChatGPT的功能。人们对这一举动充满期待,因为由OpenAI的GPT-4模型驱动的Bing Chat承诺提供无缝的对话体验。然而,有报道称在其他浏览器上存在一些限制,用户们迫切希望看到这个新功能的展开情况。让我们更详细地了解微软将Bing Chat扩展到Google Chrome和苹果Safari平台的战略举措。 还可阅读:Elon Musk的xAI挑战OpenAI的ChatGPT Bing Chat跨浏览器:微软的最新举措 经过数月的猜测,微软于周一确认其人工智能聊天机器人Bing Chat将在微软生态系统之外的浏览器上提供。这一突破旨在扩展该科技巨头的人工智能能力,超越Bing移动应用和Microsoft Edge浏览器的限制。 向更广泛的受众开放 迄今为止,Bing Chat的服务仅限于微软产品的用户。然而,这次扩展将改变这一局面。随着Bing Chat进入Google Chrome和苹果Safari等其他流行浏览器,更广泛的用户群体将很快能够访问其智能对话功能。 与部分用户进行测试 微软传媒总监Caitlin Roulston在一份电子邮件声明中透露,Bing Chat目前正在Safari和Chrome上的部分用户进行测试阶段。一旦标准测试程序完成,该公司计划扩大访问范围,暗示即将进行全面推出。 还可阅读:OpenAI在ChatGPT中禁用“使用Bing浏览”功能:发生了什么? 在Chrome中尝试Bing Chat:如何访问 在Windows上早期采用Bing…

Leave a Comment

OpenAI推出Baby Llama——为低功耗设备提供的LLM!

来自人工智能领域的重大新闻!OpenAI的著名深度学习专家Andrej Karpathy进行了一项令人兴奋的周末项目,可能会彻底改变我们在资源受限设备上运行复杂模型的方式。通过他创建的“Baby Llama”,这是Llama 2模型的简化版本,Karpathy展示了纯C代码的强大能力,以及它在小型设备上实现高度互动速率的潜力。让我们深入探讨这个具有颠覆性的发展! 还阅读:OpenAI将发布AI模型的开源版本,加入开源竞赛 追求互动速率 – Baby Llama的诞生 受到探索新可能性的好奇心驱使,深度学习领域的先驱Andrej Karpathy开始了一个使开源Llama 2潜力得以释放的任务。尽管他能够在一个周末内构建出GPT-5,但Karpathy将时间投入到了对Llama 2的实验中,展示了他对推动人工智能边界的热情。 还阅读:Meta的Llama 2:面向商业用途的开源 将GPT-2转换为Llama 2:周末实验 在他的GitHub存储库Llama2.c中,Karpathy分享了他的创作过程。他巧妙地将nanoGPT框架转换为C编程语言中的Llama 2架构。结果,他的存储库引起了极大的关注,在短时间内获得了超过2.2K的星标。 在资源受限模型上实现互动速率 Karpathy实验最令人惊讶的成就之一是他能够在相对较小的模型上实现高度互动速率。尽管使用了一个包含数百万参数的模型,但在一个包含1500万参数的TinyStories数据集上训练,Karpathy的方法取得了显著的成功。 还阅读:新的AI模型仅使用30B参数就超越了GPT-3 低功耗设备上的惊人速度 在他的M1 MacBook…

Leave a Comment

使用天气数据进行机器学习模型

介绍 天气是现实世界中发生许多事情的主要驱动因素。事实上,它非常重要,以至于将其纳入机器学习模型中通常会使任何预测模型受益。 想想以下场景: 公共交通机构试图预测系统中的延误和拥堵 能源供应商希望估计明天的太阳能发电量,以用于能源交易 活动组织者需要预测参与者的数量,以确保满足安全标准 农场需要安排未来一周的收获作业 可以说,在上述场景中,如果不将天气作为因素之一纳入模型中,该模型要么没有意义,要么不如其本来可能好。 令人惊讶的是,虽然有很多在线资源专注于如何预测天气本身,但几乎没有任何资源展示如何有效地获取和使用天气数据作为特征,即将其作为输入来预测其他东西。这就是本文要讨论的内容。 概述 首先,我们将强调使用天气数据进行建模所面临的挑战,介绍常用的模型以及提供商。然后,我们将进行案例研究,使用其中一个提供商的数据构建一个可以预测纽约出租车乘车次数的机器学习模型。 通过阅读本文,您将学到以下内容: 使用天气数据进行建模的挑战 可用的天气模型和提供商 处理时间序列数据的典型ETL和特征构建步骤 使用SHAP值评估特征重要性 本文作为数据科学博文的一部分发布。 挑战 衡量与预测天气 对于生产中的机器学习模型,我们需要(1)实时数据以产生实时预测和(2)大量历史数据以训练能够执行此操作的模型。 by Hadija on Unsplash 显然,当进行实时预测时,我们将使用当前的天气预报作为输入,因为它是关于未来发生情况的最新估计。例如,当预测明天的太阳能发电量时,我们需要的模型输入是关于明天天气的预报。…

Leave a Comment

加州大学圣地亚哥分校和Meta AI研究人员引入MonoNeRF:一种自动编码器架构,通过相机编码器和深度编码器将视频分解为相机运动和深度图

加利福尼亚大学圣地亚哥分校(UC San Diego)和 Meta AI 的研究人员提出了 MonoNeRF。这种新颖的方法可以从单目视频中学习可推广的神经辐射场(NeRF),而无需依赖于真实相机姿态。 该工作强调了 NeRF 在各种应用中展现出的有希望的结果,包括视图合成、场景和物体重建、语义理解和机器人技术。然而,构建 NeRF 需要精确的相机姿态注释,并且限制于单个场景,导致训练耗时长且适用性有限。 针对这些挑战,最近的研究工作集中于在包含多个场景的数据集上进行训练,然后在各个场景上进行微调,以学习可推广的 NeRF。这种策略可以使用较少的视图输入进行重建和视图合成,但仍需要在训练过程中提供相机姿态信息。虽然一些研究人员尝试了在没有相机姿态的情况下训练 NeRF,但这些方法仍然局限于特定场景,并且由于自监督校准的复杂性而难以在不同场景之间进行泛化。 MonoNeRF 通过在捕捉静态场景中的相机运动的单目视频上进行训练,有效消除了对真实相机姿态的需求。研究人员关键观察到,真实世界的视频通常呈现缓慢的相机变化而不是多样的视角,他们利用了这种时间连续性来构建他们提出的框架。该方法涉及一个基于自动编码器的模型,该模型在大规模的真实世界视频数据集上进行训练。具体而言,深度编码器估计每个帧的单目深度,而相机姿态编码器确定连续帧之间的相对相机姿态。然后,利用这些解耦表示来构建每个输入帧的 NeRF 表示,然后根据估计的相机姿态对另一个输入帧进行解码。 模型使用重建损失进行训练,以确保渲染和输入帧之间的一致性。然而,仅依赖重建损失可能会导致一个平凡的解决方案,因为估计的单目深度、相机姿态和 NeRF 表示可能不在同一个尺度上。研究人员提出了一种新颖的尺度校准方法来解决在训练过程中对齐这三种表示的挑战。他们提出的框架的关键优势有两个方面:它消除了 3D 相机姿态注释的需求,并在大规模视频数据集上展现了有效的泛化性,从而提高了可迁移性。 在测试时,学习到的表示可以应用于各种下游任务,例如从单个…

Leave a Comment

加州大学伯克利分校的研究人员提出了一种名为“后见之链(CoH)”的新技术,可以使LLMs从任何形式的反馈中学习,提高模型性能

在过去的几年里,大规模神经网络引起了研究人员的广泛关注。这主要是因为它们在各种任务中表现出色,包括自然语言理解、解决具有挑战性的数学方程,甚至蛋白质结构预测。然而,为了确保这些模型对社会做出建设性贡献,关键是它们与人类价值观保持一致,并考虑人类偏好。使用人类反馈是实现这一目标最重要的方面之一,因为它使人类能够根据一系列指标(如准确性、公平性、偏见等)评估这些模型的性能,并提供改进这些模型以产生更具伦理输出的见解。为了提高整合用户反馈的效率,研究人员在过去几年中一直在尝试多种人机协同系统的方法。结果表明,ChatGPT和InstructGPT在使用人类反馈进行学习方面取得了惊人的成果。 这种语言建模的性能提升主要归因于依赖监督微调(SFT)和利用人类反馈进行强化学习(RLHF)的策略。尽管这些策略在提高语言模型性能方面做出了显著贡献,但它们也有自己的缺点。SFT主要依赖于人工注释,使得这些模型难以使用并且在数据利用上效率低下。另一方面,由于强化学习是基于奖励函数的,优化这些模型非常具有挑战性。 为了解决这些问题,加州大学伯克利分校的研究人员开发了一种将所有反馈转化为句子并使用它们来微调模型以理解反馈的新技术。这种技术被称为“回顾链”(CoH),它在很大程度上受到人类如何处理以语言形式提供的大量反馈的启发。研究人员在设计这种技术时的目标是结合SFT和RLHF的优势,同时避免使用强化学习来充分利用所有反馈。他们目前的方法利用语言理解和学习反馈的能力,最终提高模型在执行各种任务时的准确性和效果。 研究人员利用人类从语言形式的丰富反馈中学习得很好的事实。鉴于预训练语言模型在上下文中有效学习的卓越能力,研究人员想知道是否可以将所有反馈都转化为一个句子,并训练模型遵循这些反馈。更详细地说,研究人员建议微调模型以预测结果,同时依赖于一个或多个排序结果及其比较形式的反馈。CoH在训练过程中随机选择一个或多个模型输出,并利用它们构建一个包含正面和负面比较反馈的句子。例如,两个示例句子可以是“以下是一个糟糕的摘要”和“以下摘要更好”。模型在推理时使用正面反馈生成所需的输出。 CoH方法允许模型从正面和负面反馈中学习,以识别和纠正负面属性或错误。该策略还具有其他一些优点,包括更有机的反馈样式和一个训练系统。此外,根据研究人员进行的众多实验评估,CoH技术在关联语言模型与人类偏好方面远远优于先前的方法。该方法在人类评估中受到青睐,并在摘要和讨论任务上表现出色。加州大学伯克利分校的研究团队坚信,CoH在未来在各种其他类型的反馈(如自动和数值反馈)中具有巨大潜力。

Leave a Comment

这篇来自乔治亚理工学院的人工智能论文提出了一种人工智能方法,以更快、更可靠的方式帮助识别潜在超导体的新候选材料

超导体,在降至临界温度以下时,不受电阻的限制,表现出零电阻的特性。这种超导体的奇妙特性为能源、交通运输和尖端电子学等领域的实际应用打开了大门。在过去的十年里,人们在寻找高临界温度超导体方面取得了重大进展。在这篇论文中,来自乔治亚理工学院和河内科技大学(越南)的研究人员提出了将原子级信息纳入机器学习路径以发现新的常规(或BCS)超导体的第一步,尤其是在常压下。 由于缺乏原子级信息,对于研究学者来说,预测零温下的高温超导性是一项具有挑战性的任务。研究人员精心策划了一个包含584个原子结构的数据集,其中包含了在不同压力下计算得到的超过1100个λ和ωlog的值。他们开发了用于λ和ωlog的机器学习模型,并用它们来筛选材料项目数据库中的80,000多个条目,揭示了(通过第一性原理计算)两种在热力学和动力学上都稳定的材料,其超导性可能存在于Tc约等于10-15K和P = 0的情况下。他们使用matminer软件包将原子结构转换为数值向量,并使用高斯过程回归作为机器学习算法来实现这一点。 研究人员使用机器学习模型对35个候选材料进行了超导性能预测。其中有六个具有最高预测的Tc值。其中一些是不稳定的,需要进行进一步的稳定性计算。在验证了剩下两个候选材料,即CrH和CrH2的稳定性之后,他们使用第一性原理计算了这些材料的超导性能。研究人员使用局域密度近似(LDA)XC功能验证了他们的预测,并进行了额外的计算,确认预测结果与报告值的准确度在2-3%之内。此外,研究人员通过追踪无机晶体结构数据库(ICSD)中的起源,调查了超导体的可合成性。他们发现这些材料在过去已经进行了实验合成,并希望未来的测试能够证实它们的预测超导性。 在未来的研究中,研究人员计划通过扩大和多样化数据集,使用深度学习技术,并整合逆向设计策略来提高他们的机器学习方法,以高效地探索实际上无限的材料。研究人员设想进一步改进他们的方法,以便更好地发现高Tc超导体,并与实验专家合作进行实际测试和合成。 查看论文。感谢该项目上的研究人员进行这项研究。此外,请务必加入我们的26k+ ML SubReddit、Discord频道和电子邮件通讯,我们在这里分享最新的人工智能研究新闻、酷炫的人工智能项目等等。 本文来源:MarkTechPost,《AI论文:乔治亚理工学院提出一种人工智能方法,以更快、更可靠的方式帮助识别潜在超导体的新候选材料》。

Leave a Comment

来自加州大学伯克利分校和Deepmind的研究人员提出了SuccessVQA:一种适用于预训练的VLMs(如Flamingo)的成功检测的重新表述

为了实现最佳性能准确性,了解代理在训练过程中是否在正确或首选的轨道上至关重要。这可以通过在强化学习中为代理提供奖励或使用评估指标来判断最佳策略来实现。因此,在训练先进的智能代理时,能够检测到这种成功行为变得至关重要。这就是成功检测器的作用,它们可以用来分类代理的行为是否成功。先前的研究表明,开发特定领域的成功检测器相对比较容易,而开发更通用的成功检测器则更加困难。这是因为定义大多数实际任务的成功是相当具有挑战性的,因为它常常是主观的。例如,一幅由人工智能生成的艺术作品可能会让某些人着迷,但对整个观众来说可能并非如此。 在过去的几年里,研究人员提出了不同的方法来开发成功检测器,其中之一是使用偏好数据进行奖励建模。然而,这些模型存在一定的缺陷,因为它们只在固定的任务集和环境条件下表现出可观的性能,这些任务和环境条件都是在偏好注释的训练数据中观察到的。因此,为了确保泛化性能,需要更多的注释来覆盖各种领域,这是一项非常费时费力的任务。另一方面,当涉及到同时使用视觉和语言作为输入的模型训练时,可泛化的成功检测应该确保在语言和视觉上的变化中都能给出准确的度量,以完成指定的任务。现有的模型通常只针对固定条件和任务进行训练,因此无法适应这种变化。此外,适应新的条件通常需要收集新的带注释的数据集并重新训练模型,这并不总是可行的。 在解决这个问题的过程中,Alphabet子公司DeepMind的研究人员团队开发了一种训练稳健成功检测器的方法,可以抵御语言规范和感知条件的变化。他们通过利用大规模预训练的视觉语言模型(如Flamingo)和人类奖励注释来实现这一目标。研究基于研究人员的观察,即对Flamingo进行大量多样化语言和视觉数据的预训练将导致训练更稳健的成功检测器。研究人员声称他们最重要的贡献是将可泛化的成功检测任务重新定义为视觉问答(VQA)问题,称为SuccessVQA。这种方法将任务定义为一个简单的是/否问题,并使用一个统一的架构,该架构只包括定义状态环境的短视频剪辑和描述所需行为的一些文本。 DeepMind团队还证明了通过使用人类注释来微调Flamingo可以实现在三个主要领域的可泛化成功检测。这些领域包括家庭模拟中的交互式自然语言代理、现实世界中的机器人操作和野外自我中心人类视频。SuccessVQA任务公式的通用性使得研究人员可以对来自不同领域的各种任务使用相同的架构和训练机制。此外,使用像Flamingo这样的预训练视觉语言模型使得充分利用在大型多模态数据集上的预训练优势变得相当容易。团队认为这使得在语言和视觉变化方面实现了泛化。 为了评估他们对成功检测的重新定义,研究人员进行了几个实验,涵盖了未见过的语言和视觉变化。这些实验揭示了预训练的视觉语言模型在大多数分布内任务上具有可比性的性能,并在分布外场景中明显优于任务特定的奖励模型。调查还揭示了这些成功检测器能够在语言和视觉上对未见过的变化进行零样本泛化,而现有的奖励模型则无法。尽管DeepMind研究人员提出的这种新方法具有显著的性能,但在与机器人环境相关的任务中仍然存在某些缺点。研究人员表示,他们未来的工作将涉及在这个领域做出更多的改进。DeepMind希望研究社区将他们的初步工作视为实现成功检测和奖励建模方面更多进展的基石。

Leave a Comment

认识Quivr:一个开源项目,旨在像第二个大脑一样存储和检索非结构化信息

在过去的几年中,OpenAI领域持续增长。许多大学的研究人员建立了开源项目,为数据科学领域的发展做出了贡献。Stan Girar建立的一个开源项目是Quivr。它也被称为第二大脑,因为它可以存储按照目前数据模型或模式未排列的数据,因此无法存储在传统的关系数据库或RDBMS中。文本和多媒体是两种常见的非结构化内容。 它有一个官方网站,通过点击“试用演示”按钮可以访问Quivr的高级版本。如果有人想要无限制地使用Quivr,则可以将其下载到本地设备上。安装Quivr有一套正确的程序。我们应该将Quivr存储库克隆到本地设备上,然后导航到它。我们还应该创建一个虚拟环境,然后在我们的设备上激活它。我们还应该安装所有依赖项,复制Streamlit秘密,并添加重要的凭据。最后,我们应该能够通过这些步骤运行Quivr应用程序。您还可以从OpenAI的官方网站获取参考。您还应该在设备上预装官方和最新版本的Python。您还应该拥有一个官方工具,可以在您想要安装Quivr的本地设备上创建一个虚拟的Python编程环境。 Quivr openAI软件还具有各种功能,使其成为存储非结构化数据和信息的重要工具。Quivr可以存储任何数据集,如图像、文本、代码模板、演示文稿、文档、CSV和xlsx文件、PDF文档,甚至更多其他内容。它还借助自然语言处理技术帮助生成信息和产生更多数据。它还可以通过先进的人工智能帮助我们找回丢失的信息。它的速度非常快,尽可能快地访问我们的数据集,并通过输出传递给我们。在Quivr中,数据不会丢失,因为它被正确地存储在云端。 Quivr是一个开源应用程序,将其信息检索能力与云系统集成在一起。它将成为未来几乎每个人都用来提高生产力的软件。使用Quivr的主要优势是可以同时处理多种工具。在未来的数据科学和人工智能领域,它即将成为一项新兴技术。

Leave a Comment

“Patsnap如何在Amazon SageMaker上使用低延迟和成本的GPT-2推理”

这篇博客文章是由帕特斯纳智能语言处理高级工程师白子龙共同撰写,并包含一个简介当你在谷歌或亚马逊上搜索某些内容时,你很可能已经熟悉了自动完成建议功能尽管这些场景中的搜索词通常是我们日常生活中常见的关键词或表达方式,[…]

Leave a Comment

2023年7月10大最佳人工智能游戏生成器

在不断发展的游戏开发领域中,人工智能(AI)已经成为一个改变游戏规则的因素AI工具正在革新游戏开发的方式,使整个过程更加高效、创造性和动态在这里,我们将探索十个在该行业中产生轰动效应的AI工具1. 场景 场景是一种由AI驱动的工具,提供了一个[…]

Leave a Comment