Press "Enter" to skip to content

Tag: Robotics

如何揭示GPT-4V在机器人视觉语言规划中的力量?见ViLa:一种简单而有效的人工智能方法,利用GPT-4V进行长期目标机器人任务规划

清华大学、上海人工智能实验室和上海启智研究院的研究人员通过引入视觉语言规划(VILA)解决了机器人任务规划中卓越性能的问题。VILA融合了视觉和语言理解,使用GPT-4V编码深奥的语义知识并解决复杂的规划问题,即使在零样本场景中也能做到。这种方法在开放世界的操作任务中具有异常的能力。 该研究探讨了LLM的进展以及对扩展视觉语言模型(VLM)的兴趣,用于视觉问答和机器人等应用。它将预训练模型的应用划分为视觉模型、语言模型和视觉语言模型。重点是利用VLM的视觉基础属性来解决机器人中长期规划中的挑战,通过常识知识来革新高层次的规划。由GPT-4V驱动的VILA在开放世界的操作任务中表现出色,展示了在日常功能中无需额外的训练数据或上下文示例而获得的有效性。 了解场景的任务规划是人类智能的一个关键方面,它依赖于语境理解和适应性。虽然LLM在编码复杂任务规划的语义知识方面表现出色,但它们的局限性在于对机器人的世界接口的需求。为了解决这个问题,机器人VILA是一种整合视觉和语言处理的方法。与先前的基于LLM的方法不同,VILA促使VLM根据视觉提示和高级语言指令生成可行步骤,旨在创建像机器人这样的实体代理,具备人类般的适应性和多样场景中的长期任务规划能力。 VILA是一种将视觉语言模型应用于机器人规划的规划方法。VILA直接将视觉融入推理过程中,利用与视觉领域相关的常识知识。GPT-4V(ision)是用于任务规划的预训练视觉语言模型。在真实机器人和模拟环境中的评估显示,VILA在多样的开放世界操作任务中优于现有的基于LLM的规划器。其独特功能包括空间布局处理、对象属性考虑和多模态目标处理。 VILA在开放世界操作任务中优于现有的基于LLM的规划器。它在空间布局、对象属性和多模态目标方面表现出色。凭借GPT-4V的动力,它可以解决复杂的规划问题,甚至在零样本模式下。VILA显著减少错误,并在需要空间布置、对象属性和常识知识的杰出任务中表现出色。 总而言之,VILA是一种高度创新的机器人规划方法,能够有效地将高级语言指令转化为可操作的步骤。它在整合感知数据和理解视觉世界的常识知识方面优于现有的基于LLM的规划器,特别是在处理复杂的长期任务时。然而,需要注意的是,VILA存在一些限制,如依赖于黑匣子式的VLM和缺乏上下文示例,这表明未来需要对这些挑战进行进一步的改进。

Leave a Comment

纽约大学和Meta公司的研究人员推出了Dobb-E:一个用于学习家庭机器人操作的开源通用框架

“`html 纽约大学和Meta的研究团队旨在通过引入高度适应型的DobbE系统,解决家庭环境中机器人操作学习的挑战,能够从用户示范中学习和适应。实验展示了系统的效率,同时强调了现实世界环境中的独特挑战。 研究中承认了积累大量机器人数据集的最新进展,强调了以家庭和第一人称机器人互动为中心的数据集的独特性。利用iPhone的能力,该数据集提供了高质量的动作和稀有的深度信息。与现有的自动化操作重点表示模型相比,强调了用于通用表示的域内预训练。他们建议使用非机器人家庭视频的非域内信息来增强数据集,承认这些增强对于他们的研究有潜在的改进。 引言中提到了在创建全面家庭助手方面面临的挑战,主张从受控环境向真实家庭的转变。强调效率、安全和用户舒适性,并介绍了体现这些原则的DobbE框架。它利用大规模数据和现代机器学习来提高效率,利用人类示范来确保安全,并使用符合人体工程学的工具来提高用户舒适度。DobbE将围绕Hello Robot Stretch集成硬件、模型和算法。还讨论了纽约家庭数据集中来自22个家庭的多样化示范以及用于视觉模型的自监督学习技术。 该研究采用行为克隆框架,一种模仿学习的子集,来训练DobbE模仿人类或专家行为。设计的硬件设置促进了无缝示范收集和转移到机器人实体,利用了包括iPhone视觉里程计在内的多种家庭数据。基本模型在这些数据上进行预训练。经过测试,训练模型在真实家庭中进行测试,消融实验评估了视觉表示、所需示范、深度感知、示范者专业知识以及系统中是否需要参数化策略。 DobbE在陌生的家庭环境中接受仅五分钟示范和15分钟适应家庭预先训练的表示模型后,显示出81%的成功率。在10个不同的家庭中经过30天的学习,DobbE成功学会了109项任务中的102项,证明了使用ResNet模型进行视觉表示和使用两层神经网络进行行动预测等简单方法的有效性。任务的完成时间和难度通过回归分析进行了分析,消融实验评估了不同系统组件,包括图形表示和示范者专业知识。 总之,DobbE是一种经过测试的成本效益高且适用于各种家庭环境的机器人操作系统,具有令人印象深刻的81%的成功率。DobbE团队慷慨地开源了其软件堆栈、模型、数据和硬件设计,以推动家用机器人研究的发展,并促进机器人管家的广泛采用。DobbE的成功归功于其强大而简单的方法,包括行为克隆和用于行动预测的两层神经网络。该研究还提供了有关光照条件和阴影对任务执行的影响的见解。 “`

Leave a Comment

“遇见 GO To Any Thing(GOAT):一种通用导航系统,可以在完全未知的环境中,以图像、语言或类别的方式查找任何指定对象”

来自伊利诺伊大学厄巴纳-香槟分校、卡内基梅隆大学、乔治亚理工学院、加州大学伯克利分校、Meta人工智能研究机构和Mistral人工智能团队的研究人员合作开发了一种名为GO To Any Thing(GOAT)的通用导航系统。这个系统是为家庭和仓库环境中延长自主运行时间而设计的。GOAT是一个多模态系统,可以从类别标签、目标图像和语言描述中解释目标。它是一个终身系统,受益于过去的经验。GOAT适用于各种机器人实体。 GOAT是一个用于移动机器人的多功能导航系统,能够利用类别标签、目标图像和语言描述在各种环境下进行自主导航。GOAT利用深度估计和语义分割创建一个3D语义体素地图,用于准确的对象实例检测和记忆存储。语义地图有助于空间表示、跟踪对象实例、障碍物和已探索区域。 GOAT是一个受到动物和人类导航洞察力启发的移动机器人系统。GOAT是一个通用导航系统,能够在各种环境中自主运行,根据人类输入执行任务。GOAT是多模态、终身学习和平台无关的,使用类别标签、目标图像和语言描述进行目标规定。该研究评估了GOAT在到达未见过的多模态对象实例方面的性能,并强调了它在以前方法中基于SuperGLUE的图像关键点匹配优于CLIP特征匹配的优越性。 GOAT是一个通用导航系统,采用模块化设计和实例感知的语义记忆,用于基于图像和语言描述的多模态导航。该计划是通用的、适应终身学习的,并通过在家庭中进行大规模真实世界实验来展示其功能。利用“路径长度加权成功率”等指标对GOAT的性能进行评估,而无需预先计算地图。代理程序使用全局和局部策略,使用快速行进方法进行路径规划和点导航控制器以达到路径上的航点。 在九个家庭的实验试验中,GOAT作为一种通用导航系统取得了83%的成功率,超过以前的方法32%。它的成功率从第一个目标的60%提高到经过探索后的90%,展示了其适应性。GOAT无缝处理下游任务,如拾取和放置以及社交导航。定性实验展示了GOAT在波士顿动力Spot和Hello Robot Stretch机器人上的部署。在真实世界家庭中对Spot进行的大规模定量实验展示了GOAT相对于三个基准的卓越性能,在匹配实例和有效导航方面表现出色。 出色的多模态和平台无关设计使得可以通过各种方式进行目标规定,包括类别标签、目标图像和语言描述。模块化的架构和实例感知的语义记忆可以区分同一类别的实例,以实现有效的导航。在没有预先计算地图的大规模实验中进行评估,GOAT展示了其多样性,并将其能力扩展到拾取和放置、社交导航等任务。 GOAT的未来轨迹包括在各种环境和场景中全面探索其性能,以评估其广泛性和稳健性。研究将致力于提高匹配阈值,以应对勘探过程中的挑战。根据目标类别对实例进行子采样将进一步探索以提高性能。GOAT的持续发展包括优化全局和局部策略,并可能整合额外的技术以实现更高效的导航。广泛的真实世界评估将涵盖不同的机器人和任务,以验证GOAT的多功能性。进一步探索可以将GOAT的适用范围扩展到物体识别、操纵和交互等领域。

Leave a Comment

美国电脑图形处理器公司NVIDIA和德克萨斯大学奥斯丁分校共同研发出了MimicGen:一种用于机器人的自主数据生成系统

通过模仿学习人类示范,可以训练机器人执行各种操作行为。一种流行的方法涉及通过各种控制界面,让人类操作员与机器人臂进行远程操纵,产生机器人执行不同操作任务的多个示范,并使用这些数据训练机器人独立执行这些任务。最近的努力尝试通过与更多的人类操作员在更广泛的功能范围内收集更多的数据来扩展这个范例。这些研究已经证明,在大规模、多样化的数据集上进行模仿学习可以取得令人印象深刻的性能,使机器人能够推广到新的物体和未知的任务。 这意味着收集大量丰富的数据集是创建广泛熟练的机器人的关键第一步。但是,这一成就只有通过昂贵和耗时的人工工作才能实现。看一个机器人模仿案例研究,该案例中,机器人的任务是将一只可乐罐从一个垃圾桶移动到另一个垃圾桶。尽管只有一个场景、一个物品和一个机器人参与这个简单的任务,但需要一个庞大的数据集200个演示才能达到73.3%的相对成功率。对于最近尝试扩展到具有不同场景和物品的环境的努力,需要更大规模的数据集,包括数万个演示。例如,它表明,只有使用超过20,000个轨迹的数据集,才能推广具有物体和目标微小变化的挑战。 图1:研究人员提供了一个数据生成系统,通过重新利用人类示范使其在新的情境中变得有用,可以从少量人类示范中生成大量不同的数据集。他们使用MimicGen为各种物品、机器人装备和场景设置提供数据。 在约1.5年的RT-1数据收集工作中,涉及到多位人类操作员、多个月份、多个厨房和机器人臂,以97%的成功率成功地重新安排、清理和恢复物品。然而,在现实世界的厨房中实现这样一个系统所需要的年数仍待发现。他们问:“这些数据在多大程度上包含不同的操作行为?”这些数据集可能包括在不同的环境或情况下使用的类似的操作技术。例如,当抓取一个杯子时,无论杯子放在台面的何处,人类操作员的机器人轨迹可能是非常相似的。 将这些轨迹调整到不同的情况中可以帮助产生各种各样的行为。虽然有希望,但这些方法的应用受到其对特定任务和算法的假设的限制。相反,他们希望创建一个可以轻松整合到当前模仿学习过程中并增强各种活动性能的通用系统。在这项研究中,他们提供了一种独特的数据收集技术,该技术可以使用少量的人类示例自动生成跨多种场景的大规模数据集。他们的技术MimicGen将有限数量的人类示范拆分为以物品为中心的部分。 然后,它选择一个人类示范,对每个以物品为中心的部分进行空间改变,将它们拼接在一起,并指导机器人按照这条新路径进行操作,在不同的情境中采集最新的示范,其中包含不同的物体姿势。尽管方法简单,但他们发现这种方法非常擅长从各种情境中生成庞大的数据集。这些数据集可用于模仿学习,以训练能胜任的智能体。 他们的贡献包括以下内容: • NVIDIA和UT Austin的研究人员提出了MimicGen技术,该技术利用新的情境适应性,从有限数量的人类示范中创建大规模、多样化的数据集。 • 他们展示了MimicGen可以在各种场景配置、物体实例和机器人臂上提供高质量的数据,这些数据在原始示范中没有包含,以通过模仿学习训练熟练的智能体(见图1)。拾取和放置、插入和与关节式物体的互动仅是MimicGen广泛适用于的许多长期和高精度活动中的几个例子,这些活动需要具备不同的操作能力。只使用200个源人类示范,他们为两个模拟器和一个真实的机器人臂的18个任务生成了50,000多个额外的演示。 • 他们的方法与收集更多人类示范相比表现相当;这就引发了一个重要的问题,即何时需要向人类请求额外数据。使用MimicGen生成相同数量的合成数据(例如,从10个人类生成200个示范与从200个人类生成200个示范)会导致相似的代理性能。

Leave a Comment

首尔国立大学的研究人员介绍了一种名为Locomotion-Action-Manipulation (LAMA)的突破性人工智能方法,用于高效和适应性机器人控制

首尔国立大学的研究人员在机器人领域面临了一个根本性挑战——在动态环境下高效和适应性地控制机器人。传统的机器人控制方法通常需要大量的特定场景训练,使得计算成本昂贵且在面临输入条件变化时不灵活。这个问题在机器人必须与多样化和不断变化的环境进行交互的实际应用中尤为重要。 为了解决这个挑战,研究团队提出了一种开创性的方法,称为运动-动作-操纵(Locomotion-Action-Manipulation):LAMA。他们开发了一个针对特定输入条件进行优化的单一策略,可以处理各种输入变化。与传统方法不同,这种策略不需要针对每个独特场景进行单独训练,而是通过适应和概括其行为来显著减少计算时间,成为机器人控制的宝贵工具。 所提出的方法涉及训练一个针对特定输入条件进行优化的策略。这个策略在包括初始位置和目标动作在内的输入变化下经过严格测试。这些实验的结果证明了其鲁棒性和泛化能力。 在传统的机器人控制中,通常需要针对不同场景进行单独训练,需要大量的数据收集和训练时间。与这种方法相比,当处理不断变化的真实世界条件时,这种方法可能更加高效和适应。 研究团队的创新策略通过其高度适应性来解决这个问题。它可以处理多样化的输入条件,减少了针对每个特定场景进行大量训练的需求。这种适应性的改变不仅简化了训练过程,而且极大地提高了机器人控制器的效率。 此外,研究团队还对从该策略产生的合成运动的物理合理性进行了全面评估。结果表明,尽管该策略可以有效地处理输入变化,但合成运动的质量是保持的。这确保了机器人的运动在不同场景下保持逼真和物理上合理。 这种方法的最显著优势之一是大幅减少计算时间。在传统的机器人控制中,为不同场景训练单独的策略可能耗时且资源密集。然而,使用针对特定输入条件进行优化的预先训练策略时,无需为每个变化重新训练策略。研究团队进行了比较分析,结果显示使用预先优化的策略进行推理时计算时间显著减少,每个输入对的运动合成平均仅需要0.15秒。相反,为每个输入对从头开始训练策略平均需要6.32分钟,相当于379秒。这种计算时间上的巨大差异突出了这种方法的效率和节省时间的潜力。 这种创新的意义是巨大的。这意味着在机器人必须快速适应不同条件的真实世界应用中,这种策略可以改变游戏规则。它为更具响应性和适应性的机器人系统打开了大门,使它们在时间至关重要的情况下更加实用和高效。 总之,研究提出了一种对机器人在动态环境中进行高效和适应性控制的创新解决方案。所提出的方法,即针对特定输入条件进行优化的单一策略,为机器人控制提供了一种新的范式。 这种策略能够处理各种输入变化而无需进行大量重新训练,是一个重要的进步。它不仅简化了训练过程,而且极大地增强了计算效率。当使用预先优化的策略进行推理时,计算时间的显著减少进一步凸显了其高效性。 合成动作的评估表明,在不同的场景中,机器人运动的质量始终保持较高水平,确保它们保持物理上可行和逼真。 这项研究的影响广泛,潜在应用涵盖了从制造业到医疗保健再到自动驾驶车辆等多个行业。在这些领域中,机器人能够快速、高效地适应变化环境是一个关键特性。 总体而言,这项研究代表了机器人技术的重大进步,为其中最紧迫的挑战提供了有希望的解决方案。它为更加适应、高效、响应灵敏的机器人系统铺平了道路,使我们离一个未来更加无缝融入日常生活的机器人世界更近了一步。

Leave a Comment

“无脑”软体机器人在机器人领域取得突破,能够在复杂环境中导航

在不断发展的机器人领域,研究人员引入了一项新的突破性技术:一种软体机器人,即使在复杂环境中也不需要人类或计算机的指导就能进行导航这项新发明是在之前的工作基础上进行的,该软体机器人在较简单的迷宫中展示了基本的导航技能利用物理智能进行导航的研究由Jie Yin进行

Leave a Comment

观察和学习小机器人:这种人工智能方法通过人类视频演示教导机器人具有普适操纵能力

机器人一直是科技领域的关注焦点。它们总是在科幻电影、儿童节目、书籍、反乌托邦小说等领域中占据一席之地。不久之前,它们只是科幻中的梦想,但现在它们无处不在,重塑着各行各业,并让我们瞥见未来。 从工厂到外太空,机器人正扮演主角,展示其前所未有的精确性和适应性。 机器人领域的主要目标一直是相同的:模仿人类的灵巧。通过整合手中的摄像头,无论是作为传统静态第三人称摄像头的补充还是替代品,已经取得了令人兴奋的进展,以提高操纵能力。 尽管手中的摄像头具有巨大的潜力,但它们并不能保证无误的结果。基于视觉的模型常常在现实世界的波动中遇到困难,例如背景的变化、光照的变化和物体外观的变化,从而导致脆弱性。 为了解决这个挑战,最近出现了一套新的泛化技术。不再依赖于视觉数据,而是使用多样的机器人演示数据来教授机器人特定的动作策略。这在一定程度上是有效的,但是有一个主要问题。它非常昂贵,真的非常昂贵。在真实的机器人环境中收集这样的数据意味着耗时的任务,比如运动学教学或通过VR头盔或操纵杆进行机器人远程操作。 我们真的需要依赖这种昂贵的数据集吗?既然机器人的主要目标是模仿人类,为什么我们不能只使用人类演示视频呢?人类执行任务的视频提供了一种更具成本效益的解决方案,因为人类的灵活性。这样做可以捕捉到多个示范,而无需不断重置机器人、硬件调试或费力的重新定位。这提供了一个有趣的可能性,即利用人类视频演示来提高以视觉为中心的机器人操纵器的泛化能力,规模化应用。 然而,弥合人类和机器人领域之间的差距并不是一件轻而易举的事情。人类和机器人之间外观上的差异引入了一个需要仔细考虑的分布偏移。让我们来看看新的研究,“给机器人一个帮手”,它弥合了这一差距。 现有的方法采用第三人称摄像机视角来应对这一挑战,其中涉及图像转换、领域不变的视觉表示,甚至利用关于人类和机器人状态的关键点信息的领域适应策略。 给机器人一个帮手的概述。来源:https://arxiv.org/pdf/2307.05959.pdf 相比之下,“给机器人一个帮手”采用了一种令人耳目一新的简单方法:遮盖每个图像的一个一致部分,有效地隐藏了人类手部或机器人末端执行器。这种简单的方法避开了复杂的领域适应技术的需求,使机器人能够直接从人类视频中学习操纵策略。因此,它解决了由于人到机器人图像转换而产生的明显视觉不一致性等明确领域适应方法带来的问题。 该方法可以训练机器人执行各种任务。来源:https://giving-robots-a-hand.github.io/ “给机器人一个帮手”的关键在于该方法的探索性质。它将广泛的手动视频演示与环境和任务泛化相结合。它在一系列真实世界的机器人操纵任务中取得了惊人的表现,包括到达、抓取、拾取和放置、堆叠方块、清理盘子、打包玩具等。该方法显著提高了泛化能力。与仅在机器人演示中训练的策略相比,它使策略能够适应未知的环境和新的任务,平均绝对成功率在未知环境和任务中增加了58%。

Leave a Comment

Meer Pyrus 基于 Python 的全新开源平台,用于进行二维(2D)RoboCup足球模拟

机器人学是完全致力于电子和计算机科学工程领域的分支,现在与人工智能进行了多种连接。这些机器人通过人工智能进行足球比赛。这个事件被称为Robocup。每年研究人员之间都会进行广泛竞争,以展示他们的机器人参加Robocup挑战赛。 有一个名为Pyrus的介绍,它是一个基于Python的Robocup仿真平台。来自加拿大达尔豪斯大学和纪念大学的研究人员在一篇研究论文中提到,他们将使用Pyrus轻松地对模型进行训练和测试。用于Robocup的常见框架是HeliosBase和Cyrus2DBase。这些框架使用了它们的主要语言C++。与Python相比,C++在许多实例中使用,因为它更先进和更广泛。研究人员还在致力于构建一个完全基于Python的更好的框架。这个框架可以多样化,并可以被不同技术经验和技能水平的用户使用。基础代码中广泛使用了Tensorflow、Keras和PyTorch等框架。像Pyrus这样的框架可以轻松地实现基于C++的代码。Pyrus相比其他框架的主要优势在于它简单易用,因此即使是初学者也可以测试他们的Robocup联赛模型。主要问题是Robocup的环境有点嘈杂。为解决这个问题,研究人员实施了强化学习和机器学习模型,例如运球或传球。这减少了噪声,因为它们具有噪声消除能力。 Robocup已经让所有的数据爱好者更大程度地解决了所有数据分析问题。研究人员还引入了Pyrus来解决与Robocup相关的基本机器学习挑战。研究人员仍在改进Pyrus基础代码的性能。研究人员还计划实施一个Python监视器和日志分析软件,以更大程度地提高模型的可行性。

Leave a Comment

AI构建难以想象的抗体:LabGenius对医学工程的新颖方法

在伦敦南部的一个曾经的饼干工厂,如今已经转变成了一个创新的前沿中心。在这里,机器人技术、人工智能和DNA测序相互碰撞,创造出一种具有变革性的医学抗体工程解决方案。在詹姆斯·菲尔德的领导下,LabGenius正在利用人工智能的力量重新定义抗体设计的规则,展示了人工智能推动医学突破的未来。 还可阅读:人工智能与基因:罕见DNA序列的发现 释放抗体的力量 抗体是人体对抗疾病的防线,是自然界在抵御感染方面的哨兵。这些蛋白质链起着守护者的作用,锁定外来入侵者并协调机体消除它们。虽然自20世纪80年代以来制药公司一直在设计合成抗体以治疗癌症和减少器官移植后的排斥反应,但设计抗体的手动过程仍然非常缓慢。 还可阅读:人工智能发现抗击致命细菌的抗生素 人类的挑战:在无尽的可能性中航行 人类蛋白质设计师面临着一个巨大的任务,即从数百万个潜在的氨基酸组合中筛选出每个抗体的完美序列。这个复杂的过程需要精心的实验,通过微调来增强某些属性,同时希望它们不会损害其他属性。LabGenius的创始人兼首席执行官詹姆斯·菲尔德优雅地描述了这个任务:“在这个无限的潜在分子空间中,有一个你想要找到的分子。” 还可阅读:解码生命蓝图:人工智能的基因变革者 愿景成形:LabGenius的诞生 菲尔德的旅程始于2012年,当时他在伦敦帝国理工学院攻读合成生物学的博士学位。随着DNA测序、计算和机器人技术成本的大幅下降,他意识到抗体工程可能发生根本性的变革。LabGenius就是源于这一愿景,将人工智能、机器人技术和DNA测序的融合为自动化抗体发现铺平道路。 革命性的设计过程:人工智能的指导之手 LabGenius利用机器学习算法来引领抗体设计过程。该模型首先识别用于对抗特定疾病的潜在抗体。利用健康和患病细胞的示例,算法深入抗体设计空间,从100,000种可能性中呈现出700多个初始选项。 还可阅读:人工智能承诺开发出反应速度提高128倍的mRNA疫苗 LabGenius的自动化流程:从设计到测试 神奇的过程发生在LabGenius的伯蒙德西实验室,自动化机器人系统和人工智能成为中心。在实验室中,抗体的设计、构建和培养几乎没有人为干预。一系列高端设备引导样本进行测试,使抗体能够生长并接受严格的生物学检测。人工监督确保顺利过渡到下一个阶段。 还可阅读:AI医学诊断是如何工作的? 人工智能的反馈循环:每次迭代都在优化 至关重要的是,人工智能模型会在每轮实验中学习和适应。实验结果会为算法提供信息,增强其对抗体设计复杂细节的理解。随着迭代的进行,模型在充分利用有希望的设计和探索新颖可能性之间取得了微妙的平衡,加速了通向突破性解决方案的旅程。 还可阅读:从试错到精确:AI对高血压治疗的答案 LabGenius的方法:打破传统的束缚 LabGenius的方法与传统的蛋白质工程方法不同。模型不再细化单一设计的微小变化,而是大胆地跨越未知领域。它揭示了人类直觉可能忽视的解决方案,快速而准确地产生结果。 患者的更好结果:最终目标 菲尔德的使命非常明确:为患者提供更强效且副作用更少的抗体治疗。LabGenius的人工智能驱动方法揭示了传统方法可能从未揭示的分子。通过拥抱违反直觉的设计并充分利用人工智能的能力,LabGenius设想了一个让患者受益于人工智能引导下创新医学解决方案的世界。 阅读更多:亚马逊 vs…

Leave a Comment

谷歌DeepMind研究人员推出了RT-2:一种新颖的视觉-语言-动作(VLA)模型,它通过网络和机器人数据学习,并将其转化为行动

大型语言模型可以实现流畅的文本生成、新颖的问题解决和创造性的散文和代码生成。相比之下,视觉-语言模型可以实现开放词汇的视觉识别,甚至可以对图像中的物体-代理交互进行复杂推理。机器人学习新技能的最佳方式需要进一步明确。与在网络上训练最先进的语言和视觉-语言模型所使用的数十亿个标记和照片相比,从机器人收集的数据量可能无法相提并论。然而,要立即将这些模型适应到机器人活动中也具有挑战性,因为这些模型推理语义、标签和文本提示。相比之下,机器人必须接受低级别的指导,例如使用笛卡尔末端执行器。 Google Deepmind的研究旨在通过直接将基于互联网规模数据训练的视觉-语言模型直接融入端到端的机器人控制中,改善泛化能力并实现新兴语义推理。借助基于网络的语言和视觉-语言数据,我们旨在创建一个综合训练的模型,用于将机器人观察连接到动作。他们提出使用来自机器人轨迹和在互联网上进行的大规模视觉问答练习的数据,一起对最先进的视觉-语言模型进行微调。与其他方法相比,他们提出了一种简单通用的方法:将机器人动作表达为文本标记,并直接将其纳入模型的训练集中,就像处理自然语言标记一样。研究人员研究了视觉-语言-动作模型(VLA),RT-2是其中一个模型的实例。通过严格的测试(6,000个评估试验),他们可以确定RT-2通过基于互联网的训练获得了各种新兴技能,并且该技术导致了有效的机器人策略。 Google DeepMind推出了RT-2,这是一个基于Transformer的模型,它是作为其机器人Transformer模型1的后续而训练的,该模型是使用从网络获取的文本和图像进行训练的,可以直接执行机器人操作。使用机器人动作来表示作为第二语言的信息,可以将其转换为文本标记,并与在线可用的大规模视觉-语言数据集一起进行教学。推断涉及将文本标记解码为机器人行为,然后通过反馈循环进行控制。这使得可以将视觉-语言模型的一部分泛化、语义理解和推理能力转移到学习机器人策略上。在项目网站https://robotics-transformer2.github.io/上,RT-2团队提供了其使用的实时演示。 该模型保留了在机器人数据中发现的物理技能的应用能力。同时,它还通过阅读从网络中获取的视觉和语言命令来学习在新环境中使用这些技能。即使在机器人数据中不包含诸如精确数字或图标之类的语义线索,该模型也可以重新利用其学到的拾取和放置技能。在机器人演示中没有提供这样的关系,但该模型可以正确选择物体并将其放置在正确的位置。此外,如果命令附带一系列思路提示,例如知道岩石是 improvises锤子的最佳选择或者知道能量饮料是疲劳时的最佳选择,模型还可以进行更复杂的语义推理。 Google DeepMind的主要贡献是RT-2,这是一系列通过将基于网络规模数据进行微调的巨型视觉-语言模型创建的模型,用于作为具有泛化能力和语义感知的机器人规则。实验使用了多达550亿个参数的模型,这些参数是从公开可用的数据中学习的,并用机器人运动命令进行了注释。通过6,000个机器人评估,他们证明RT-2在对象、场景和指令的泛化方面取得了显著进展,并展示了一系列新兴能力,这些能力是基于互联网规模的视觉-语言预训练的副产品。 主要特点 RT-2的推理、符号解释和人类识别能力可在广泛的实际场景中使用。 RT-2的结果表明,使用机器人数据预训练VLMs可以使它们成为直接控制机器人的强大视觉-语言-动作(VLA)模型。 一个有希望的方向是构建一个能够思考、解决问题并理解信息以完成实际世界中各种活动的通用物理机器人,就像RT-2一样。 RT-2展示了它在处理各种任务方面的适应性和效率,它可以将语言和视觉训练数据转化为机器人动作。 限制 尽管RT-2具有令人鼓舞的泛化特性,但它也存在一些缺点。研究表明,通过VLMs(视觉语言模型)引入Web规模的预训练可以提高对语义和视觉概念的泛化能力,但这并不意味着机器人在执行动作方面具备了新的能力。尽管模型只能以新颖的方式利用机器人数据中存在的物理能力,但它确实学会了更好地利用自己的能力。研究人员认为,这是因为样本在能力维度上需要更多的多样性。新的数据收集范例,比如人类的电影,为未来研究获取新技能提供了有趣的机会。 总之,Google DeepMind的研究人员证明了大型VLA模型可以实时运行,但这需要相当大的计算开销。随着这些方法被应用于需要高频控制的情况,实时推理风险成为一个重要瓶颈。量化和蒸馏方法可以让这些模型更快地运行或在更便宜的硬件上运行,这是未来研究的有吸引力的领域。这与另一个现有限制相关,即相对较少的VLM模型可以用于开发RT-2。 来自Google DeepMind的研究人员总结了通过将预训练与视觉语言模型(VLMs)和机器人数据进行整合来训练视觉-语言-动作(VLA)模型的过程。然后他们引入了两个VLA的变种(RT-2-PaLM-E和RT-2-PaLI-X),分别受到PaLM-E和PaLI-X的启发。这些模型通过机器人轨迹的数据进行微调,以生成机器人动作,并将其分词为文本。更重要的是,他们证明了这种技术改进了泛化性能和从Web规模的视觉语言预训练中继承的新兴能力,从而导致非常有效的机器人策略。根据Google DeepMind的说法,机器人学习领域现在通过这种简单而通用的方法论得到了从其他领域改进的战略定位。

Leave a Comment

机器人领域的新曙光:基于触摸的物体旋转

在一项具有突破性的研究中,加利福尼亚大学圣地亚哥分校(UCSD)的工程师团队设计出一只机器手,可以仅通过触觉旋转物体,而无需视觉输入这种创新的方法灵感来自于人类不一定需要看到物体就能轻松处理它们的方式一种触感敏感的方法[…]

Leave a Comment

人工智能框架在新环境中通过人类引导,承诺更快的机器人学习

在智能家居的未来时代,购买一个机器人来简化家庭任务将不再是罕见的然而,当这些自动化助手无法执行简单的任务时,可能会感到沮丧安迪·彭(Andi Peng)是麻省理工学院电气工程与计算机科学系的一名学者,她和她的团队正在开辟一条道路…

Leave a Comment

“见面吧,RoboPianist:一个用模拟机器人手进行高维控制的钢琴技艺基准测试套件”

在控制和增强学习领域中,测量过程非常具有挑战性。一个特别不足的领域是关注高维控制的鲁棒基准,特别是高维机器人技术的“挑战问题”:掌握双手多指控制。与此同时,控制和增强学习方面的一些基准努力已经开始聚合和探索不同的深度方面。尽管对模仿人手的灵巧性进行了数十年的研究,但机器人中的高维控制仍然是一个主要难题。 加州大学伯克利分校、谷歌、DeepMind、斯坦福大学和西蒙弗雷泽大学的一组研究人员提出了一个名为ROBOPIANIST的高维控制基准套件。在他们的工作中,双手模拟的人形机器人手被要求根据音乐谱面演奏各种歌曲,这些歌曲以音乐器件数字接口(MIDI)转录为条件。机器人手总共有44个执行器,每只手有22个执行器,类似于人手的轻度欠驱动。 演奏一首好歌需要能够以展示高维控制策略的许多特质的方式对动作进行排序。这些特质包括: 空间和时间的精确性。 两只手和十个手指的协调。 关键按键的战略计划,以使其他按键更容易。 原始ROBOPIANIST-repertoire-150基准包括150首歌曲,每首歌曲都是独立的虚拟作品。研究人员通过模型自由(RL)和模型基于(MPC)方法的全面实验来研究无模型和模型方法的性能范围。结果表明,尽管还有很大的改进空间,但提出的策略可以产生出色的表现。 策略学习一首歌曲的能力可以用来按难度对歌曲(即任务)进行排序。研究人员认为,根据这种标准对任务进行分组的能力可以鼓励在与机器人学习相关的各个领域进一步研究,例如课程和迁移学习。RoboPianist为各种学习方法提供了有趣的机会,例如模仿学习、多任务学习、零样本泛化和多模态(声音、视觉和触觉)学习。总的来说,ROBOPIANIST提供了一个简单的目标,一个易于复制的环境,清晰的评估标准,并且在未来有各种扩展潜力。

Leave a Comment

革新水下探索:布朗大学的Pleobot揭开海洋的秘密

想象一下一个复杂的互联自主机器人网络它们像一个精密的水下芭蕾舞团一样协同工作,穿越黑暗深海,在进行详细的科学调查和高风险的搜救任务这个未来主义的愿景正在逐渐接近现实,得益于布朗大学的研究人员,他们正在引领新一代机器人网络的发展

Leave a Comment

什么是机器人仿真?

机器人正在仓库中搬运货物、包装食品、帮助组装车辆——当它们不翻转汉堡或者冲泡拿铁时。 它们是如何如此迅速地变得如此熟练呢?机器人模拟。 它正在以飞跃的进步改变我们周围的各个行业。 机器人模拟简介 机器人模拟器将虚拟机器人放置在虚拟环境中,以测试机器人的软件,而无需实际机器人。而最新的模拟器可以生成数据集,用于训练将在实际机器人上运行的机器学习模型。 在这个虚拟世界中,开发者创建机器人、环境和其他机器人可能遇到的素材的数字版本。这些环境可以遵守物理定律,并模拟真实世界的重力、摩擦、材料和光照条件。 谁在使用机器人模拟? 如今,机器人在大规模上提升了业务。一些最大和最具创新性的机器人公司都依赖于机器人模拟。 得益于模拟,配送中心每天可以处理数千万个包裹。 亚马逊机器人使用它来支持其配送中心。宝马集团借助它加速其汽车装配厂的规划。软性机器人应用它来完善食品包装的抓取和放置。 全球各地的汽车制造商都在用机器人来支持他们的业务。 “汽车公司雇佣了将近1400万人。数字化将提高这个行业的效率、生产力和速度,” NVIDIA首席执行官Jensen Huang在最新的GTC主题演讲中说道。 机器人模拟的工作原理简介 一个先进的机器人模拟器首先应用物理基本方程。例如,它可以使用牛顿运动定律来确定物体在一个小时间增量或时间步长内的运动方式。它还可以结合机器人的物理约束条件,比如由铰链般的连接构成,或者无法穿过其他物体。 模拟器使用各种方法来检测物体之间的潜在碰撞,识别碰撞物体之间的接触点,并计算阻止物体相互穿过的力或冲量。模拟器还可以计算用户寻求的传感器信号,比如机器人关节处的扭矩或机器人夹持器与物体之间的力。 然后,模拟器将根据用户的要求重复这个过程。一些模拟器,比如基于NVIDIA Omniverse的NVIDIA Isaac Sim应用程序,还可以在每个时间步长上提供物理上准确的模拟器输出的可视化。 使用机器人模拟器的成果 机器人模拟器用户通常会导入机器人的计算机辅助设计模型,并导入或生成感兴趣的对象来构建虚拟场景。开发者可以使用一组算法来执行任务规划和运动规划,然后指定控制信号来执行这些计划。这使得机器人能够执行任务并以特定方式移动,比如拾取一个物体并将其放置在目标位置。 开发者可以观察计划和控制信号的结果,然后根据需要进行修改以确保成功。最近,有一种向基于机器学习的方法的转变。所以,用户不是直接指定控制信号,而是指定所需的行为,比如移动到一个位置而不发生碰撞。在这种情况下,一个数据驱动的算法会根据机器人的模拟传感器信号生成控制信号。 这些算法可以包括模仿学习,其中人类演示可以提供参考,以及强化学习,机器人通过智能的试错学习来实现行为,通过加速的虚拟体验快速学习多年的经验。…

Leave a Comment

DeepMind RoboCat 一个自学习的机器人人工智能模型

DeepMind,著名的AI研究实验室,推出了名为RoboCat的AI模型,能够使用各种机械臂模型执行各种复杂任务。与之前的模型不同,RoboCat以其能够解决多个任务并无缝适应不同实际机器人的能力而脱颖而出。让我们深入探讨这一非凡成就并探索RoboCat如何改变机器人领域。 还阅读:亚马逊的秘密家用AI机器人可以做任何事情甚至更多 多才多艺的RoboCat:机器人智能的跨越 DeepMind的突破性AI模型RoboCat在机器人领域展示了前所未有的多样性。正如DeepMind的研究科学家Alex Lee所说,RoboCat是一个单一的大型模型,能够处理多个真实机器人实体的多样任务。这意味着该模型能够快速适应新任务和不同的机器人配置。这标志着机器人领域的重要里程碑。 还阅读:机械臂加持的人类蜘蛛侠——Jizai Arms 从文本到机器人:Gato的启示 RoboCat受到GATO的启发,后者是DeepMind开发的另一个AI模型。GATO具有分析和响应文本、图像和事件的非凡能力。通过利用这一概念,DeepMind的研究人员对大量数据集进行了RoboCat的培训。这包括从模拟和现实机器人环境中收集的图像和动作数据。 训练强大的RoboCat 为了训练RoboCat,DeepMind团队收集了100-1,000个人控制机械臂执行各种任务的演示。这些演示为在特定任务上对模型进行微调、创建专门的“分支”模型奠定了基础。每个分支模型都经过了严格的实践,平均进行了10,000次迭代。 还阅读:世界首台AI动力机械臂:你需要了解的一切 突破极限:释放RoboCat的潜力 RoboCat的最终版本在模拟和真实世界情况下,已经接受了令人印象深刻的253项任务的训练,并对这些任务的141个变体进行了基准测试。DeepMind报告称,该模型成功地学会了观察1,000个人控制演示后如何操作不同的机械臂,持续数小时。然而,不同任务的成功率差别很大,从13%到99%不等,演示数量是一个决定性因素。 还阅读:Alphabet推出Flowstate:面向所有人的机器人应用开发平台 开启新局面:重新定义机器人技术 尽管成功率各不相同,DeepMind认为RoboCat有潜力降低解决机器人新任务的障碍。Alex Lee解释说,即使对于新任务的演示数量有限,RoboCat也可以进行微调并生成额外的数据以进一步提高其性能。最终目标是将教RoboCat学习新任务所需的演示数量减少到不到10个,这可能会彻底改变机器人领域。 也阅读:Sanctuary AI的Phoenix机器人和特斯拉的最新推出:Optimus! 我们的看法 DeepMind的RoboCat在机器人领域取得了重大突破。它展示了单一AI模型在多个任务和不同机器人实体上适应和表现的能力。通过利用其对大量数据集的培训并利用微调的力量,RoboCat为未来的发展奠定了基础。RoboCat有可能简化教授机器人新任务的过程,这可能会开创一个新的创新时代。随着RoboCat为未来铺平道路,令人兴奋的时代即将到来,机器人可以在最小的人为干预下无缝适应和学习。

Leave a Comment

直播自台北: NVIDIA CEO 发布面向各行业的 Gen AI 平台

在疫情以来的首次现场主题演讲中,NVIDIA的创始人兼CEO黄仁勋今天在台北举行的COMPUTEX大会上宣布了一些平台,这些平台可以帮助公司乘风破浪,参与到一波历史性的生成式人工智能浪潮中,这个浪潮正在改变从广告到制造业再到电信等行业。 “我们回来了,”黄仁勋在他的家中厨房进行了几年的虚拟主题演讲之后在舞台上大声喊道。“我已经有将近四年没有公开演讲了–祝我好运!” 他向约3500名观众演讲了近两个小时,介绍了加速计算服务、软件和系统,这些都使新的商业模式成为可能,也让现有的商业模式更加高效。 “加速计算和人工智能标志着计算机的重新发明,”黄仁勋说道,他在过去一周在家乡的旅行每天都被当地媒体追踪报道。 为了展示它的强大,他使用了他所在的巨大的8K墙,展示了一个文本提示,生成了一首主题歌,可以随意地唱,就像任何卡拉OK歌曲一样。黄仁勋偶尔用他的家乡语言和观众开玩笑,并短暂地带领观众唱了这首新歌。 “现在我们处于一个新的计算时代的临界点,加速计算和人工智能已经被全球几乎所有的计算和云计算公司所接受,”他说道,指出现在有40,000家大型公司和15,000家初创公司使用NVIDIA技术,去年CUDA软件下载量达到2500万次。 主题演讲的重要新闻公告 Grace Hopper提供大内存超级计算机,用于生成式人工智能。 模块化参考架构可以创建100多个加速服务器变体。 WPP和NVIDIA在Omniverse中创建数字广告内容引擎。 SoftBank和NVIDIA在日本建立5G和生成式人工智能数据中心。 网络技术加速基于以太网的人工智能云。 NVIDIA ACE for Games利用生成式人工智能为角色赋予生命。 全球的电子制造商都在使用NVIDIA人工智能。 企业人工智能的新引擎 对于需要最佳人工智能性能的企业,他推出了DGX GH200,一个大内存人工智能超级计算机。它使用NVIDIA NVLink将多达256个NVIDIA GH200 Grace Hopper超级芯片组合成一个单一的数据中心大小的GPU。…

Leave a Comment