Press "Enter" to skip to content

Month: October 2023

“遇见FreeU:一种新的人工智能技术,可以提升生成质量,无需额外训练或微调”

概率扩散模型是一种前沿的生成模型类别,在计算机视觉相关任务中成为研究领域的关键点。与其他类别的生成模型(如变分自动编码器、生成对抗网络和向量量化方法)不同,扩散模型引入了一种新的生成范式。这些模型利用固定的马尔可夫链映射潜在空间,实现了捕捉数据集内潜在结构复杂性的复杂映射。最近,它们令人印象深刻的生成能力,从高度细节的生成示例到多样性,推动了在图像合成、图像编辑、图像到图像的翻译和文本到视频生成等各种计算机视觉应用中的突破性进展。 扩散模型由两个主要组成部分组成:扩散过程和去噪过程。在扩散过程中,高斯噪声逐渐加入输入数据,逐渐将其转化为几乎纯高斯噪声。相反,去噪过程旨在使用一系列学习到的逆扩散操作,从噪声状态中恢复原始输入数据。通常,一个U-Net用于在每个去噪步骤中迭代预测噪声去除。现有的研究主要集中在使用预训练的扩散U-Net进行下游应用,对扩散U-Net的内部特性探索有限。 来自S实验室和南洋理工大学的一项联合研究离开了传统的扩散模型应用,研究了扩散U-Net在去噪过程中的有效性。为了对去噪过程有更深入的理解,研究人员引入了一个重点关注傅立叶域的新思路,观察扩散模型的生成过程——这是一个相对未被探索的研究领域。 上图显示了顶部行中的逐步去噪过程,展示了连续迭代中生成的图像。相反,下面的两行展示了对应每个步骤的逆傅里叶变换后的低频和高频空间域信息。这个图表展示了低频分量的逐渐调制,表明了一个抑制的变化速率,而高频分量在整个去噪过程中表现出更明显的动态。这些发现可以直观地解释:低频分量固有地代表了图像的全局结构和特征,包括全局布局和平滑的颜色。对这些分量的剧烈改变通常在去噪过程中是不合适的,因为它们可以从根本上改变图像的本质。另一方面,高频分量捕捉图像中的快速变化,如边缘和纹理,并且对噪声非常敏感。去噪过程必须去除噪声同时保留这些复杂的细节。 考虑到关于低频和高频分量在去噪过程中的观察,该研究扩展到确定扩散框架中U-Net架构的具体贡献。在U-Net解码器的每个阶段,通过跳跃连接和主干特征组合跳过特征。研究表明,U-Net的主干在去噪过程中起着重要作用,而跳跃连接在解码器模块中引入了高频特征,有助于恢复细粒度的语义信息。然而,这种高频特征的传播可能会在推断阶段无意中削弱主干的本质去噪能力,可能导致生成异常图像细节,如图1的第一行所示。 基于这一发现,研究人员提出了一种新的方法,称为 “FreeU”,可以在不需要额外的训练或微调的情况下提高生成样本的质量。下面是该框架的概述。 在推理阶段,引入了两个专门的调制因子来平衡来自主要主干和U-Net架构的跳跃连接的特征的贡献。第一个因子被称为“主干特征因子”,旨在放大主要主干的特征图,从而加强去噪过程。然而,观察到,包括主干特征缩放因子时,虽然在改善方面取得了显著的改进,但有时会导致不希望的纹理过度平滑化。为了解决这个问题,引入了第二个因子“跳跃特征缩放因子”,以减轻纹理过度平滑化问题。 FreeU框架在与现有的扩散模型集成时表现出无缝适应性,包括文本到图像生成和文本到视频生成等应用。使用基础模型,如稳定扩散、DreamBooth、ReVersion、ModelScope和Rerender进行了全面的实验评估,以进行基准比较。当在推理阶段应用FreeU时,这些模型在生成的输出质量上显示出显着的提高。下面的插图提供了FreeU在显著改进生成图像的复杂细节和整体视觉保真度方面的有效性的证据。 这是FreeU的概述,这是一种新颖的人工智能技术,可以在没有额外训练或微调的情况下提高生成模型的输出质量。如果您感兴趣并且想了解更多信息,请随时参考下面列出的链接。

Leave a Comment

使用亚马逊肯德拉智能地搜索Drupal内容

亚马逊肯德拉(Amazon Kendra)是由机器学习(ML)提供支持的智能搜索服务亚马逊肯德拉可以帮助您轻松地从各种内容库中聚合内容到一个集中的索引中,以便您快速搜索所有企业数据并找到最准确的答案Drupal是一种内容管理软件它被用来创建许多[…]

Leave a Comment

云端无限:本周在GeForce NOW上直播《城市:天际线II》

本周GFN星期四,云端为我们带来了一系列好礼,其中包括《城市:天际线II》的直播和新增支持的15款游戏。游戏的发行商Paradox Interactive,为那些第一时间购买游戏的玩家提供了一个月的GFN优先会员资格,因此一定要在它们消失之前抓紧时间领取。 在新增的GFN图书馆中,还增加了来自PC游戏通行证目录的更多游戏,包括《幽灵线:东京》、《末日之国》和《耻辱系列》。会员们还可以期待很快就会有《艾伦·韦克2》游戏开播。 云端之城 若你建造了它,他们自然会来。 本周会员们可以在《城市:天际线II》中实现他们梦想中的大都市,这是Paradox Interactive屡获殊荣的城市模拟游戏的续作。白手起家建设一个城市,并将其转变成一个繁荣的都市景观。在管理复杂模拟和活力经济的同时,发挥你的创造力,在前所未有的规模上建造。 游戏的人工智能和复杂经济意味着每个选择都会对玩家城市的结构产生影响,因此玩家们必须保持警惕,制定战略、解决问题并应对挑战。高耸入云,横斑地图,以前所未有的规模建造。新的动态地图特性会影响城市在日益严重的污染、变化的天气和季节性挑战中的扩张。 Paradox为前10万购买该游戏的玩家提供一个月的GeForce NOW优先会员资格,因此那些正在崭露头角的城市规划者可以在几乎任何设备上优化他们的游戏体验。访问城市:天际线II以获取更多信息。 云端的新崛起 为了一个充满恐怖的夜晚,云端新增了两款PC游戏通行证:《末日之国2》和《耻辱系列》。 “正确的选择是能让我们活下来的选择。” 在Undead Labs和Xbox Game Studios的《末日之国2:巨人版》中,你将进入一个末日世界,抵御僵尸的侵袭。与一小群幸存者团结在一起,重建这个动态的开放世界沙盒中的一角文明。加固家园基地,进行大胆的寻食和供应品抢劫,并拯救其他可能具有独特才能的幸存者。与朋友们一起在线玩,享受高达四人的在线合作模式,访问他们的社区,帮助保护他们并获得奖励。没有两个玩家的经历会完全相同。 对不起,对你不敬,谈不上对云端的《耻辱》。 与《耻辱》系列一起,进入一个设定在蒸汽朋克洛夫克拉夫世界的第一人称动作游戏。在《耻辱》中,跟随 Corvo Attano 的故事,他曾是一名护卫,但后来被陷害谋杀了Dunwall女皇,从而被推上复仇之路。选择潜行或暴力,体验《耻辱》拥有灵活战斗系统和Corvo的超自然能力。 《Definitive Edition》包含原版《耻辱》游戏和更新的图形,以及“Void Walker’s…

Leave a Comment

扭转珊瑚礁衰退的潮流:CUREE机器人以深度学习深入潜水

研究人员正在深入研究深度学习。 伍兹霍尔海洋研究所(WHOI)自主机器人和感知实验室(WARPLab)与麻省理工学院正在开发一种用于研究珊瑚礁及其生态系统的机器人。 WARPLab自主水下车辆(AUV)是世界上最大的私人海洋研究机构为扭转珊瑚礁衰退趋势而做出的努力,该车辆由NVIDIA Jetson Orin NX模块驱动。 根据WHOI Reef Solutions Initiative的数据,全球25%的珊瑚礁在过去三十年中消失,其余的大部分珊瑚礁正走向灭绝。 这款被称为CUREE(Curious Underwater Robot for Ecosystem Exploration)的AUV与潜水员一起收集视觉、音频和其他环境数据,以帮助了解人类对珊瑚礁及其周围海洋生物的影响。该机器人运行NVIDIA Jetson集成的边缘AI技术,用于构建珊瑚礁的三维模型,并追踪生物和植物生命。它还可以自主导航和收集数据。 伍兹霍尔海洋研究所是最早于1986年探索“泰坦尼克号”的潜艇首开发出CUREE机器人,以便扩大数据收集范围并帮助缓解策略。该海洋科研机构还在研究使用模拟和数字孪生技术来更好地复制珊瑚礁环境,并探索像NVIDIA Omniverse这样的解决方案——NVIDIA Omniverse是一种用于构建和连接3D工具和应用的开发平台。 NVIDIA正在Omniverse中创建地球的数字孪生,为预测气候变化开发世界上最强大的AI超级计算机,称为Earth-2。 水下人工智能:DeepSeeColor模型 任何试过浮潜的人都知道,在水下看不如在陆地上清晰。水会在远距离上衰减太阳下的可见光光谱,更多地抑制一些颜色。同时,水中的颗粒会造成一种称为背散射的朦胧视图。 WARPLab团队最近在海底视觉校正方面发表了一篇研究论文,该论文有助于缓解这些问题并支持CUREE的工作。该论文描述了一个名为DeepSeeColor的模型,它使用两个卷积神经网络序列来在水下实时减少背散射并修正颜色,这些网络运行在NVIDIA Jetson…

Leave a Comment

介绍OWLv2:谷歌在零样本目标检测方面的突破

介绍 2023年即将结束,对计算机视觉界而言,令人兴奋的消息是,谷歌最近在零样本目标检测领域取得了重大进展,并发布了OWLv2。这款尖端模型现在已经在🤗 Transformers中可用,并代表着迄今为止最强大的零样本目标检测系统之一。它基于去年推出的OWL-ViT v1模型打下了坚实的基础。 在本文中,我们将介绍该模型的行为和架构,并展示如何进行推理的实践方法。让我们开始吧。 学习目标 了解计算机视觉中零样本目标检测的概念。 了解谷歌OWLv2模型背后的技术和自我训练方法。 使用OWLv2的实际方法。 本文作为Data Science Blogathon的一部分发表。 OWLv2背后的技术 OWLv2的强大能力归功于其新颖的自我训练方法。该模型在一个包含超过10亿个示例的Web规模数据集上进行了训练。为了实现这一点,作者利用了OWL-ViT v1的强大功能,使用它生成伪标签,然后用这些伪标签来训练OWLv2。 此外,该模型还在检测数据上进行了微调,从而提高了其前身OWL-ViT v1的性能。自我训练为开放世界定位提供了Web规模的训练,与目标分类和语言建模领域的趋势相呼应。 OWLv2架构 尽管OWLv2的架构与OWL-ViT相似,但其目标检测头部有一个显著的补充。现在它包括一个目标性分类器,用于预测预测框中包含物体的可能性。目标性得分提供了洞察力,并可用于独立于文本查询对预测进行排序或筛选。 零样本目标检测 零样本学习是一个新的术语,自从GenAI的趋势以来变得流行起来。它通常在大型语言模型(LLM)的微调中见到。它涉及使用一些数据对基础模型进行微调,使其扩展到新的类别。零样本目标检测是计算机视觉领域的一个改变者。它的核心是使模型能够在图像中检测物体,而无需手工注释边界框。这不仅加快了处理速度,还减少了手工注释的需求,使其对人类更具吸引力和乐趣。 如何使用OWLv2? OWLv2遵循与OWL-ViT类似的方法,但使用了更新的图像处理器Owlv2ImageProcessor。此外,该模型依赖于CLIPTokenizer对文本进行编码。Owlv2Processor是一个方便的工具,结合了Owlv2ImageProcessor和CLIPTokenizer,简化了文本编码过程。以下是使用Owlv2Processor和Owlv2ForObjectDetection进行对象检测的示例。 在此处找到完整的代码:https://github.com/inuwamobarak/OWLv2 步骤1:设置环境…

Leave a Comment

10个数据科学家都应该掌握的有用的Python技能

介绍 Python是一种多功能且强大的编程语言,对于数据科学家和分析师来说,它在工具包中扮演着核心角色。它的简洁和可读性使其成为处理数据的首选,无论是执行最基本的任务还是应用最前沿的人工智能和机器学习。无论您是刚开始数据科学之旅还是希望提升数据科学家的技能,本指南将为您提供使用Python进行数据驱动项目的知识和工具,助您发掘Python的全部潜力。让我们踏上这段揭示数据科学领域的Python基础知识之旅吧。 所有数据科学家应掌握的有用Python技能 数据科学是一门不断发展的学科,Python已成为数据科学家的核心语言之一。要在这个领域脱颖而出,掌握特定的Python技能至关重要。以下是每个数据科学家都应掌握的十个基本技能: Python基础知识 了解Python的语法:Python的语法以其简洁和可读性而闻名。数据科学家必须掌握基础知识,包括正确的缩进、变量赋值以及循环和条件结构等控制结构。 数据类型:Python提供了多种数据类型,包括整数、浮点数、字符串、列表和字典。了解这些数据类型对于处理和操作数据至关重要。 基本操作:熟练掌握算术、字符串操作和逻辑运算等基本操作是必要的。数据科学家使用这些操作来清洗和预处理数据。 数据操控与分析 熟练使用Pandas:Python的Pandas库提供了各种函数和数据结构,用于数据操控。数据科学家使用Pandas可以高效地从多个来源加载数据,包括CSV文件和数据库。这使他们能够高效地访问和处理数据。 数据清洗:Python与Pandas相结合,为数据清洗提供了强大的工具。数据科学家可以使用Python处理缺失值,删除重复记录,以及识别和处理异常值。Python的多功能性简化了这些关键的数据清洗任务。 数据变换:Python对于数据变换任务至关重要。数据科学家可以利用Python进行特征工程,即从现有数据中创建新的特征以提高模型性能。此外,Python还允许进行数据标准化和缩放,确保数据适用于各种建模技术。 探索性数据分析(EDA):Python和Matplotlib、Seaborn等库对于进行探索性数据分析(EDA)至关重要。数据科学家使用Python执行统计和可视化技术,揭示数据的模式、关系和异常值。EDA为假设的制定提供了基础,并帮助选择适当的建模方法。 数据可视化 Matplotlib和Seaborn:Python的Matplotlib库提供了各种自定义选项,允许数据科学家根据需要创建定制的可视化图形。包括调整颜色、标签和其他视觉元素。Seaborn简化了创建美观的统计可视化图形的过程。它增强了默认的Matplotlib样式,使得创建视觉吸引力的图表更加容易。 创建引人注目的图表:Python借助Matplotlib和Seaborn等工具赋予数据科学家开发各种图表的能力,包括散点图、条形图、直方图和热力图等。这些可视化图形是呈现数据驱动的洞察、趋势和模式的强大工具。此外,有效的数据可视化对于使复杂数据更易于理解和消化对于利益相关者而言至关重要。可视化呈现可以比原始数据更快速而全面地传达信息,有助于决策过程。 传达复杂洞察:数据可视化对于通过视觉方式传达复杂洞察至关重要。Python在这方面的能力简化了对发现的沟通,使非技术相关的利益相关者能够更容易理解和解释数据。通过将数据转化为直观的图表和图形,Python允许以引人注目的方式讲述数据的故事,有助于推动决策制定、报告生成和有效的数据驱动通信。 数据存储与检索 多样的数据存储系统:Python提供了与各种数据存储系统进行交互的库和连接器。对于像MySQL和PostgreSQL这样的关系型数据库,像SQLAlchemy这样的库可以简化数据访问。像PyMongo这样的库允许数据科学家使用NoSQL数据库(如MongoDB)进行工作。此外,Python可以通过像Pandas这样的库处理存储在平面文件(如CSV、JSON)和数据湖中的数据。 数据检索:数据科学家使用Python和SQL从关系型数据库(如MySQL和PostgreSQL)中检索数据。Python的数据库连接器和ORM(对象关系映射)工具简化了执行SQL查询的过程。 数据集成:Python在集成来自不同来源的数据的“提取、转换、加载(ETL)”过程中起到关键作用。像Apache Airflow这样的工具和像Pandas这样的库可以实现数据转换和加载任务。这些过程确保来自不同存储系统的数据统一到一个一致的格式中。 人工智能和机器学习 机器学习库:Python的scikit-learn库是机器学习的基石。它提供了许多用于分类、回归、聚类、降维等机器学习算法。Python的简洁性和scikit-learn库的用户友好的API使其成为数据科学家的首选。使用scikit-learn可以高效、有效地构建预测模型。 深度学习框架:深度学习框架TensorFlow和PyTorch在解决复杂的人工智能问题中起到关键作用。Python是TensorFlow和PyTorch的主要编程语言。这些框架提供了预建模型、广泛的神经网络架构和构建自定义深度学习模型的丰富工具。Python的灵活性和这些框架的能力对于图像识别、自然语言处理等任务至关重要。…

Leave a Comment

“最近创下纪录的销售额让.AI域名的价值急速飙升”

2023年,.ai域名的交易价值显著增长最初,“.ai”是安圭拉的国家顶级域名(ccTLD)缩写然而,由于“AI”是人工智能的缩写,而人工智能被认为是我们这一代最具颠覆性的行业,这个域名扩展名因此获得了重要的技术相关性这些销售[…]

Leave a Comment

14% 转化率增长故事:揭开 JOE & THE JUICE 与 Pixis AI 的动态合作

2002年,JOE & THE JUICE作为丹麦的城市绿洲崭露头角,以其有机、本地原料的果汁和咖啡吸引了关注健康的消费者。迅速扩张到250个欧洲地点,JOE & THE JUICE现在正在以通用大西洋和瓦雷多合作伙伴等大型投资者的支持下在美国和中东留下自己的印记。 随着JOE & THE JUICE的人气飙升和客户群体的扩大,明确需要一个强大而用户友好的技术解决方案来简化营销工作变得显而易见。他们的使命是:赋予团队有效地定位受众,监控跨地理区域的营销活动,并提高广告支出的回报。 JOE & THE JUICE的数字营销主管Miguel Martin指出:“优化各个地区的表现一直是一个持续的挑战。我们寻求一种能够处理大量的广告活动数据并降低每次安装成本(CPI)的系统或技术。这就是我们发现Pixis的原因。” 释放Pixis人工智能基础设施的潜力 JOE & THE JUICE将无代码人工智能解决方案Pixis整合到他们的多地点广告活动中。该品牌利用Pixis的定位人工智能引擎迅速分析品牌的营销渠道上的成千上万个数据点,以确定表现出色的受众和最佳定位参数。通过部署自然语言处理模型(NLP),人工智能根据行为、喜好和参与模式等各种标准创建用户群集。这些基于人工智能的群集使JOE & THE JUICE能够自动发现行为洞察力,便捷地精确定位高意愿的受众,从而将转化率推至新的高度。 Joe…

Leave a Comment

GANs如何打造人工名人身份?

介绍 在人工智能时代,一个引人注目的现象正在发生——生成对抗网络(GANs)巧妙地创建了人工名人身份。这种科技与创意的有趣融合,催生出了一种全新的数字名人。加入我们,一起探索GANs的世界,揭开创造迷人虚拟身份的魔力。GANs是如何实现这一切的?让我们来探索这个数字艺术背后的秘密。 来源:Hello Future 学习目标 在本文中,我们将学习: 生成对抗网络(GANs)的概念 如何训练生成器和判别器? 实施GAN模型的逐步过程 通过对抗训练获取GANs随时间改进的见解 本文是数据科学博文马拉松的一部分。 生成对抗网络(GAN) 生成对抗网络(GAN)是由Goodfellow提出的深度学习模型。从名称就可以理解GAN的目的。是的!我们用它来生成东西。它是一个生成数据的网络。这些数据包括图像、文本、音频等等,与真实世界数据相似。GAN包含两个神经网络,它们被称为生成器和判别器。在训练过程中,这两个网络相互竞争,不断提高自己。 生成器是什么? 生成器是负责生成的神经网络。为了输出结果,它需要输入。生成器所接受的输入是一些随机噪声。生成器将这些随机噪声转化为与真实数据相似的输出。每次从判别器那里得到反馈后,它都会不断改善自己,并在下一次生成更好的数据。例如,以图像生成为例,生成器会生成图像。随着训练的进行,它从随机噪声开始,最终改进输出,使其越来越逼真。第一次可能不会产生与原始数据最相似的输出。有时它甚至生成根本不是图像的东西。随着训练的进行,会生成更准确的数据。 判别器是什么? 判别器是负责评估的神经网络。为了更易于理解,我们可以把它称为侦探。判别器同时接收由生成器生成的真实数据和伪造数据。它必须区分伪造数据和真实数据。简单来说,它包括将实际数据与伪造数据进行分类。和生成器一样,随着训练的进行,判别器能够越来越好地区分它们。在第一次尝试时可能无法表现出最佳结果。但在训练过程中,它会不断提高,最终能够正确区分大部分伪造数据。正如我所说的,它必须像一个侦探一样工作。 对抗训练 生成器和判别器都要经历训练,这称为对抗训练。正如我之前提到的,它们会进行竞争性的训练。我们知道生成器生成的伪造数据看起来像真实数据,而判别器则试图区分伪造数据。在训练过程的下一步中,生成器旨在改善并生成能够欺骗判别器的伪造数据。然后判别器会检测到这些伪造数据。这样一来,它们在各自的任务中不断提高。该过程将持续进行,直到生成器生成的数据非常逼真且判别器无法与真实数据区分。此时,GAN达到了一种平衡状态,生成的数据非常类似于真实数据。 实施 让我们首先导入所有必要的库。这主要包括一些torch模块。我们将使用matplotlib进行可视化。 from __future__ import print_function%matplotlib…

Leave a Comment

什么是MATLAB?工作原理、函数和应用

介绍 MATLAB(Matrix Laboratory)是由MathWorks开发的专有软件应用程序。您可能想知道MATLAB是什么。嗯,它是一种多用途的编程语言,包含自己的一套库和集成开发环境(IDE)。它用于处理复杂任务,如数据操作矩阵、数据分析、算法实现等。 现在,让我们看看科学家、研究人员和工程师使用MATLAB做什么。它只是用于复杂的数学计算还是更多的用途?让我们找出答案。 MATLAB的用途是什么? 不同领域,如AI、机器人技术、工程等,都充分利用MATLAB。我们深入探讨MATLAB的用处: 图像处理与算法 MATLAB提供了开发不同算法和帮助处理原始图像的环境。图像处理中的矩阵值对于管理图像的像素至关重要。MATLAB有助于处理与分析和处理图像相关的复杂ML算法。 数据分析与可视化 数据科学家和IT专业人员使用MATLAB环境来可视化和分析统计数据。金融专业人员使用MATLAB进行经济评估,如损失、流动性、盈利能力等。 产品测试与测量 MATLAB拥有帮助工程师对电子产品进行各种测量和测试的资源和工具。它可以自动化任务并进行测试以检查产品质量。 无线通信 MATLAB提供了独特的资源和功能,如测试无线设备、分析设计缺陷和调试错误,可帮助工程师和专业人员节省时间。 MATLAB的5个关键功能 现在我们知道MATLAB是什么了,您应该知道函数是一组用于执行特定任务的指令。在MATLAB中,函数在单独的脚本文件中指定,它们包含函数定义和命令。函数和文件名应相同,并且应始终在文件末尾定义。 MATLAB的五个关键功能如下: 1. 主要函数 主要函数是在文件中定义的第一个函数。主要函数(主函数或脚本函数)在运行脚本时自动执行。用户可以使用命令行/附加函数调用主要函数,甚至可以在文件外部调用。 2. 子函数 子函数在主要函数之后定义,只对主要函数可见。子函数无法从命令行或文件外部访问或调用。 3. 嵌套函数…

Leave a Comment

这篇AI论文介绍了视频语言规划(VLP):一种新颖的人工智能方法,它由具有视觉语言模型和文本到视频动态的树搜索过程组成

“`html 随着人工智能应用的不断进步,生成模型正在快速发展。智能与物理环境互动的理念是讨论的焦点,它突出了在两个不同层次上进行规划的重要性:底层基础动力学和高层语义抽象。这两层对于机器人系统能够正确控制并在实际世界中进行活动非常关键。 将规划问题分为这两层的观念早已被机器人学领域认可。因此,已经开发了许多策略,包括将运动与任务规划相结合,并确定复杂操作工作的控制规则。这些方法旨在生成考虑工作目标和实际环境动力学的计划。谈到LLMs,这些模型可以使用符号式作业描述创建高层计划,但在实施这些计划时却遇到麻烦。当涉及到任务的更具体部分,例如形状、物理和限制时,它们无法进行推理。 在最近的研究中,来自Google Deepmind、MIT和UC Berkeley的研究团队提出了合并文本到视频和视觉语言模型(VLMs)来克服这些缺点。通过结合两个模型的优势,这种整合被称为视频语言规划(VLP)。VLP旨在为长时间跨度和复杂活动的视觉规划提供便利。该方法运用了在互联网数据上进行了广泛预训练的大型生成模型的最新发展。VLP的主要目标是使在语言和视觉领域具备长时间行动序列和理解要求的任务更容易规划。这些任务可以包括从简单的物体重新排列到复杂的机器人系统操作等任何内容。 VLP的基础是一种树搜索过程,它有两个主要部分,如下所示。 视觉语言模型:这些模型既扮演价值函数和策略的角色,又支持计划的创建和评估。在理解任务描述和可用视觉信息后,它们能够建议下一步行动以完成工作。 文本到视频模型:这些模型作为动力学模型,能够预测某些决策的影响。它们根据视觉语言模型提出的行为建议预测可能的结果。 VLP使用长时间跨度任务指令和当前视觉观察作为主要输入。VLP生成了完整而详细的视频计划,结合语言和视觉特征,提供逐步完成最终目标的指导。它在书面工作描述和视觉理解之间搭建了良好的桥梁。 VLP可以执行各种活动,包括双臂熟练操作和多物体重新排列。这种灵活性展示了该方法的广泛应用范围。真实的机器人系统可以实现生成的视频蓝图。目标条件规则促进了虚拟计划转化为实际机器人行为。这些规则使机器人能够根据视频计划的每个中间帧来逐步执行任务。 与之前的技术相比,使用VLP的实验显示了长时间跨度任务成功率的显著提高。这些调查已在使用三个不同硬件平台的真实机器人和模拟环境中进行。 “`

Leave a Comment

这篇AI论文介绍了CLIN:一种不断学习的语言代理,以纯零样本设置在任务适应性和对未见过的任务和环境的普遍化方面表现出色

在人工智能领域,不断进步和发展使得具备复杂任务执行能力的基于语言的智能代理成为可能,而这些代理无需大量培训或明确的演示即可完成复杂任务。然而,尽管这些代理具有显著的零样本能力,但它们在不断改进自己的性能方面面临着限制,特别是在各种环境和任务中。为了应对这一挑战,最近的研究团队引入了CLIN(Continually Learning Language Agent),这是一种突破性的架构,使语言代理能够在多次尝试中自适应和改进性能,而无需频繁更新参数或进行强化学习。 现有的语言代理技术主要集中在通过零样本学习技术实现特定任务的熟练度。虽然这些方法在理解和执行各种命令方面展示出令人印象深刻的能力,但它们通常需要在没有重大修改或训练的情况下适应新的任务或环境。为了解决这个限制,CLIN架构引入了一个动态文本记忆系统,不断强调因果推理的获取和利用,使代理能够随着时间的推移学习和改进性能。 CLIN的架构围绕一系列相互连接的组件设计,包括负责根据当前任务和过去经验生成目标的控制器、将这些目标转化为可行动步骤的执行器以及在每次尝试后定期更新以纳入新的因果洞察的记忆系统。CLIN独特的记忆结构侧重于建立必要和非相互贡献关系,并辅以语言不确定性度量,如“可能”和“应该”,以评估在抽象学习中的自信程度。 CLIN的关键特点在于它能够迅速适应和高效推广各种任务和环境。代理的记忆系统使其能够从以前的尝试中获取有价值的洞察,并优化其在后续尝试中的性能和决策过程。因此,CLIN超越了最新的基于语言代理和强化学习模型的性能,标志着在开发具有持续学习能力的基于语言的代理方面取得了重要的里程碑。 该研究的发现展示了CLIN在解决基于语言的代理现有限制方面的重要潜力,特别是在适应各种任务和环境的能力方面。通过融入一个能够实现持续学习和改进的记忆系统,CLIN展现了出色的问题解决和决策能力,无需明确的演示或广泛的参数更新。 总的来说,CLIN的引入代表了基于语言的代理的重大进步,为发展能够不断改进和适应的智能系统提供了有希望的前景。凭借其创新的架构和动态记忆系统,CLIN为下一代语言代理设定了一个新的标准,为各个领域中更复杂和适应性更强的人工智能应用铺平了道路。

Leave a Comment

谷歌和多伦多大学的研究人员推出了在现场计算机环境中进行自主学习和任务执行的开创性零射击代理人

大型语言模型(LLMs)在各类实时环境下的行动生成方面表现出了潜力,比如ALFWORLD和ALPHACODE。例如,SAYCAN、REACT、TOOLFORMER和SWIFTSAGE等都是早期工作中展示出的示例。LLMs的使用方式类似于跟随专家路径,理解环境变化,计划和执行未来的活动,并生成API请求。多个研究,包括REFLEXION和SELF-REFINE等,已经证明了通过反复执行任务并进行多轮自我反思可以显著提高任务完成率。LLMs被要求根据环境反馈修改先前的执行计划。这些调整被纳入下一轮行动生成器的提示中。 MINIWOB++ 最近被用作评估模块化计算工作负载上LLM的性能的实验平台。使用任务的全面跟踪示例(WebGUM)进行直接监督、自监督或少量/大量提示(SYNAPSE)是学习任务的标准方法。他们完成了数十个计算任务,任务完成率超过90%,似乎解决了计算控制问题。然而,对于学习新的任务,需要专家跟踪限制了代理程序的能力。是否可以使代理程序在不使用适当选择的跟踪作为指导的情况下,独立地了解和增强其对计算机的控制能力?谷歌研究和多伦多大学的研究人员建议使用一个无预训练代理程序来回答这个问题。 他们的代理程序是建立在最近的LLM PaLM2之上的,它使用一套统一的指令提示来进行所有活动,而不是特定于任务的提示。此外,像RCI、ADAPLANNER和SYNAPSE等当前的工作也使用屏幕表示,这些表示可能包含比屏幕上显示的数据更多的数据。例如,图1展示了在HTML中包含的项目,这些项目提供给LLM,但在屏幕上并没有显示出来。任意利用这一新的知识会使代理程序完成任务变得更容易。然而,在典型的使用场景中,这些信息可能并不容易获取,并且依赖于这些信息可能限制了代理程序的广泛应用。 图1显示了屏幕上的不同显示。图1a-1c显示了按下“更多”按钮之前和之后的社交媒体任务(种子=2)。点击之前,HTML已经使材料可见。图1d-1e:点击标签2(种子=0)存在相似问题。 他们精心评估了MINIWOB++上的13个相当困难的任务,这些任务跨越了多个屏幕,并发现其中有5个包含了包含此类信息的HTML,即单一观测中的多屏幕信息。以下是他们的贡献:首先,与以往的研究相比,他们采用了简化的屏幕表示,使测试环境更全面和现实。其次,他们提供了一个简单但有效的操作规划器,可以精确地在一个状态上规划可执行的操作。他们证明,这种“天真”的方法可以使用最新的LLM能力完成MINIWOB++基准测试中几乎所有简单任务。 为了帮助代理程序从探索性失败中成功学习并在更困难的任务中取得进步,他们提出了一种系统化的思维管理技术,借鉴了REFLEXION的影响。经过几轮尝试后,他们的代理程序实现了与之前的少量/大量提示的最新技术水平相当的性能。根据研究,他们的代理程序是首个零预训练设计用于计算机控制任务的设计。

Leave a Comment

使用Amazon SageMaker地理空間功能進行甲烷排放點源的檢測和高頻監測

甲烷(CH4)是一个重要的人为温室气体,它是石油和天然气提取、煤矿开采、大规模养殖业以及废物处理等活动的副产品CH4的全球变暖潜势是二氧化碳的86倍,气候变化政府间专门委员会(IPCC)估计,甲烷对观察到的温室效应贡献了30%[…]

Leave a Comment

大型语言模型对医学文本分析的影响

简介 在一个正在经历技术革命的世界中,人工智能和医疗保健的融合正在重新塑造医学诊断和治疗的格局。在这一转变背后默默支持的是大型语言模型(LLMs)在医疗、健康领域和主要的文本分析中的应用。本文深入探讨了LLMs在基于文本的医疗应用领域的作用,并探索了这些强大的人工智能模型如何革新医疗保健行业。 图片来源-约翰·斯诺实验室 学习目标 了解大型语言模型(LLMs)在医学文本分析中的作用。 认识现代医疗保健中医学影像的重要性。 了解医学影像在医疗保健中所面临的挑战。 理解LLMs在自动化医学文本分析和诊断中的辅助作用。 欣赏LLMs在分诊关键医疗案例中的效率。 探索LLMs如何根据患者病史贡献个性化治疗计划。 理解LLMs在协助放射科医师中发挥的协同作用。 发现LLMs在医学生和医疗从业人员教育中的作用。 本文是数据科学博文马拉松的一部分。 医学影像和医疗保健的未见世界 在我们深入了解LLMs的世界之前,让我们先停下来欣赏医学影像的存在。它是现代医学中的支柱,帮助可视化和检测疾病,并监测许多治疗进展。尤其是放射学在X射线、核磁共振、CT扫描等医学影像方面依赖重大。 然而,这些医学影像的宝库也带来了一个挑战:庞大的数量。医院和医疗机构每天使用大量的医学影像。人工分析和解读这一泛滥的数据是困难、耗时且容易出错的。 图片来源-一步到位诊断 除了在分析医学影像方面发挥关键作用外,大型语言模型在理解和处理基于文本的医学信息方面也表现优秀。它们有助于理解复杂的医学术语,甚至帮助解释笔记和报告。LLMs提供更高效、更准确的医学文本分析,提升医疗专业人员和医学分析的整体能力。 有了这样的认识,让我们进一步探索LLMs在医学影像和文本分析中如何革新医疗保健行业。 LLMs在医学文本分析中的应用 在了解大型语言模型在医疗保健领域中扮演的多面角色之前,让我们简要看一下它们在医学文本分析领域的主要应用: 疾病诊断和预后:LLMs可以搜索大量的医学文本数据库,协助医疗保健提供者诊断各种疾病。它们不仅可以帮助初步诊断,还可以根据足够的上下文信息对疾病的进展和预后进行有根据的猜测。 临床记录和电子健康记录:处理广泛的临床文件可能对医疗专业人员来说是耗时的。LLMs提供了一种更高效的方法来转录、总结和分析电子健康记录(EHR),使医疗保健提供者能够更专注于患者护理。 药物发现和重用:通过挖掘大量的生物医学文献,LLMs可以找到潜在的药物候选,并提出现有药物的替代用途,加速了药理学中的发现和重用过程。 生物医学文献分析:不断增长的医学文献库可能令人不知所措。LLMs可以筛选出大量的科学论文,识别关键发现,并提供简洁的摘要,帮助更快地吸收新知识。…

Leave a Comment