Press "Enter" to skip to content

四海吧 Posts

测量AI模型中的感知

感知——通过感官体验世界的过程——是智能的一个重要组成部分构建具有与人类相当感知理解世界能力的智能体是一项核心但具有挑战性的任务,这在机器人技术、自动驾驶汽车、个人助理、医学成像等领域变得越来越重要因此,今天我们介绍感知测试,这是一个使用真实世界视频的多模态基准,用于评估模型的感知能力

Leave a Comment

数据丰富的最佳实践

在 DeepMind,我们的目标是确保我们所做的一切都符合最高的安全和伦理标准,与我们的运营原则一致其中一个最重要的起点是我们如何收集数据在过去的12个月中,我们与人工智能伙伴关系协作组织(PAI)合作,仔细考虑了这些挑战,并共同开发了负责任的人类数据收集的标准最佳实践和流程

Leave a Comment

在视频游戏世界中构建交互式代理

大多数人工智能(AI)研究人员现在相信,编写能够捕捉到情境互动细微差别的计算机代码是不可能的相反,现代机器学习(ML)研究人员专注于通过数据学习这些类型的互动为了探索这些基于学习的方法并快速构建能够理解人类指令并在开放条件下安全执行动作的代理程序,我们在一个视频游戏环境中创建了一个研究框架今天,我们发布了一篇论文[插入链接]和一系列视频,展示了我们在构建能够理解模糊人类概念的视频游戏人工智能方面的初步步骤,因此,它们可以开始按照人们的方式与人们互动

Leave a Comment

DeepMind在ICLR 2023的最新研究

下周将举办第11届国际学习表示会议(ICLR),地点为卢旺达基加利,时间为5月1日至5日这将是非洲举办的第一个重要人工智能(AI)会议,也是自疫情开始以来的首个线下活动来自世界各地的研究人员将聚集在一起,分享他们在深度学习领域的前沿工作,涵盖人工智能、统计学和数据科学以及机器视觉、游戏和机器人等应用我们很自豪地作为钻石赞助商和多元包容倡导者支持此次会议

Leave a Comment

RoboCat:一个自我改进的机器人代理

机器人正在迅速成为我们日常生活的一部分,但它们通常只被编程来完成特定的任务虽然利用最新的人工智能技术可能会导致机器人在更多方面提供帮助,但建造通用机器人的进展较慢,部分原因是需要花费时间来收集现实世界的训练数据我们最新的论文介绍了一种自我改进的人工智能机器人代理系统,名为RoboCat,它学会了在不同的机械臂上执行各种任务,然后自动生成新的训练数据来改进自己的技术

Leave a Comment

AI帮助政府禁止虚假手机连接

为了解决印度未经授权的电话号码问题,印度联合通信部部署了人工智能(AI)来分析全国移动连接。研究发现,伪造文件获得的4087万个号码(占探索的8785万个连接的0.47%)。借助AI的帮助,政府成功封禁了380万个这些伪造的手机号码。 AI技术揭示了欺诈连接的程度 联合通信部在第一阶段检查了22个授权服务区(LSA)圈内的87亿个移动连接。分析揭示了非自然链接的普遍存在,以及44,582个电信服务提供商的销售点(PoS)参与销售这些未经授权的连接。电信部已封锁了这些PoS,并正在努力解决这个问题。 注册FIR并封锁违规者 该部敦促所有邦和联邦地区对违规者注册首要信息报告(FIR)。从而帮助打击与欺诈连接相关的网络犯罪案件的不断增加。令人惊讶的是,研究发现,印度全国范围内只有181个FIR被注册,涵盖了1575个欺诈PoS。该部强调立即采取行动并起诉销售欺诈移动连接的人。 也可阅读:行业洞察:用分析技术打击网络欺诈 区域洞察:查谟和克什米尔和哈里亚纳邦 该研究突出了特定地区的发现,揭示了某些地区问题的规模。在查谟和克什米尔邦,他们分析了1.20亿个移动连接,并发现有15,194个连接是通过伪造文件获得的。他们迅速断开了这些欺诈连接中的14,494个,并封锁了3,024个销售点(PoS)。同样,在哈里亚纳邦,他们在分析了3.08亿个连接后发现,有5.33万个连接是使用伪造文件获得的。因此,导致了5.24万个号码的断开。 部的紧急呼吁 在其沟通中,该部强调了迫切需要打击这一威胁并对违规者注册更多FIR的需求。此外,他们提议将国家犯罪记录局(NCRB)和中央设备身份注册表(CEIR)与犯罪和犯罪跟踪网络系统(CCTNS网络)整合。此整合将在提交投诉后自动封锁丢失或被盗手机,并有助于找回被盗手机。 哈里亚纳邦的积极举措 哈里亚纳邦是印度首个将CCTNS与CEIR整合以自动封锁丢失或被盗移动手机的邦,取得了重大进展。该邦正在积极利用这一设施,并通过Sanchar Saathi门户向公众提高意识。 公民为中心倡议的影响 今年早些时候,联合通信部推出了Sanchar Saathi门户,为电信用户提供了一个安全的数字空间。通过TAFCOP门户,个人可以验证以其名义注册的移动连接数量,并举报任何未经授权的链接。 我们的看法 印度政府利用AI技术识别和封锁未经授权的电话号码,这是确保电信系统完整性的重要一步。通过采取积极措施并整合系统,政府旨在遏制欺诈连接的普遍存在。各邦和联邦地区积极参与这一努力,注册FIR,并合作创建一个更安全的电信环境至关重要。这些努力将保护消费者,并为印度的电信网络的完整性和可靠性做出贡献。

Leave a Comment

遇见KITE:一种使用关键点作为视觉定位和精确动作推理的语义操作的AI框架

随着人工智能领域的不断发展,AI技术开始与机器人相结合。从计算机视觉和自然语言处理到边缘计算,AI与机器人融合以开发有意义且有效的解决方案。AI机器人是在现实世界中行动的机器。考虑到语言作为人与机器人之间的交流工具是很重要的。然而,有两个主要问题阻碍了现代机器人有效处理自由形式的语言输入。第一个挑战是让机器人根据提供的指令推理出它需要操作的内容。另一个是拾取和放置任务,需要在拾取像毛绒动物的耳朵而不是腿部,或者在拾取肥皂瓶的出液器而不是侧面时进行仔细的区分。 机器人必须从输入指令中提取场景和对象语义,并根据语义操纵执行准确的低级动作。为了克服这些挑战,斯坦福大学的研究人员提出了KITE(关键点+指令到执行)框架,这是一个用于语义操纵的两步骤框架。KITE同时考虑了场景语义和对象语义。对象语义精确定位了对象实例中的各个部分,而场景语义涉及在视觉场景中区分各种对象。 KITE的第一阶段涉及使用2D图片关键点将输入指令与视觉上下文相结合。对于后续的动作推断,这个过程提供了一个非常准确的以对象为中心的偏见。通过将命令映射到场景中的关键点,机器人对物品及其相关特征有了准确的理解。KITE的第二步是根据RGB-D场景观察执行学习到的关键点条件技能。机器人使用这些参数化的技能来执行提供的指令。关键点和参数化技能共同提供了对场景和物体差异的精细操纵和泛化能力。 为了评估KITE的性能,团队在三个实际环境中进行了评估:高精度制作咖啡,语义抓取和长期规划的6自由度桌面操纵。在制作咖啡任务中,KITE的成功率为71%,语义抓取的成功率为70%,在桌面操纵场景中遵循指令的成功率为75%。KITE在使用基于关键点的基础架构与预训练的视觉语言模型相比的框架中表现更好。它优于强调端到端视觉运动控制而非技能使用的框架。 尽管在训练过程中所示的示范相同或更少,KITE仍然实现了这些结果,这表明了其效果和效率。为了将图像和语言短语映射到显著性热图,并产生关键点,KITE使用了一种类似CLIPort的技术。为了输出技能路径点,技能架构修改了PointNet++,以接受带有关键点注释的多视点点云输入。2D关键点使KITE能够准确关注视觉特征,而3D点云为规划提供了必要的6自由度上下文。 总之,KITE框架提供了一个有希望的解决方案,解决了长期以来使机器人能够解释和遵循自然语言命令的挑战。它通过利用关键点和指令操纵的能力实现了精细的语义操纵,具有高精度和泛化能力。

Leave a Comment

数据小时:将ChatGPT幻象减少80%

介绍 自然语言处理(NLP)模型在近年来变得越来越受欢迎,应用范围从聊天机器人到语言翻译。然而,在NLP中最大的挑战之一是减少ChatGPT模型生成的虚假或错误的回答。在本文中,我们将讨论减少NLP模型中幻觉的技术和挑战。 可观察性、调整和测试 减少幻觉的第一步是提高模型的可观察性。这涉及建立反馈循环,以捕获用户反馈和模型在生产中的表现。调整包括通过添加更多数据、纠正检索问题或更改提示来改进不良回答。测试是必要的,以确保改变改善结果并且不会导致回归。在可观察性方面面临的挑战包括客户发送糟糕回复的截图,导致用户沮丧。为了解决这个问题,可以使用数据摄取和秘密代码每天监控日志。 调试和调整语言模型 调试和调整语言模型的过程涉及理解模型的输入和输出。为了调试,需要记录以识别原始提示并将其过滤为特定的部分或参考。日志需要对任何人来说都是可操作和易于理解的。调整涉及确定应该输入模型的文档数量。默认的数量并不总是准确的,相似性搜索可能无法得到正确的答案。目标是找出出了什么问题以及如何修复。 优化OpenAI嵌入 一个向量数据库查询应用程序的开发者面临了优化应用中使用的OpenAI嵌入性能的挑战。第一个挑战是确定传递给模型的最佳文档数量,通过控制分块策略和引入可控的超参数来解决这个问题。第二个挑战是提示的变化,通过使用一个名为Better Prompt的开源库来解决,该库根据困惑度评估不同版本的提示性能。第三个挑战是改进OpenAI嵌入的结果,在多语言场景中,OpenAI嵌入性能比句子转换器更好。 AI开发中的技术 本文讨论了AI开发中使用的三种不同技术。第一种技术是困惑度,用于评估给定任务上提示的性能。第二种技术是构建一个允许用户轻松测试不同提示策略的软件包。第三种技术是运行索引,当有遗漏或不理想的情况时,更新索引以进行更动态的问题处理。 使用GPT-3 API计算困惑度 演讲者讨论了他们使用GPT-3 API根据查询计算困惑度的经验。他们解释了通过API运行提示并返回最佳下一个标记的对数概率的过程。他们还提到了将大型语言模型微调以模仿特定写作风格而不是嵌入新信息的可能性。 评估对多个问题的回答 文章讨论了评估一次50多个问题的回答的挑战。手动评分每个回答需要很多时间,因此公司考虑使用自动评估器。然而,简单的是/否决策框架是不够的,因为回答不正确可能有多个原因。公司将评估分解为不同的组件,但发现单次运行自动评估器不稳定和不一致。为了解决这个问题,他们对每个问题运行了多次测试,并将回答分类为完美、几乎完美、不正确但包含一些正确信息或完全不正确。 减少NLP模型中的幻觉 演讲者讨论了他们减少自然语言处理模型中幻觉的过程。他们将决策过程分为四个类别,并为50多个类别使用了自动功能。他们还将评估过程推广到核心产品中,允许运行和导出到CSB的评估。演讲者提到了一个GitHub存储库,以获取有关该项目的更多信息。然后,他们讨论了他们采取的减少幻觉的步骤,包括可观察性、调整和测试。他们能够将幻觉率从40%降低到低于5%。 结论 减少NLP模型中ChatGPT的幻觉是一个复杂的过程,涉及到可观察性、调整和测试。开发人员还必须考虑提示的变化,优化嵌入和评估对多个问题的回答。在AI开发中,诸如困惑度、构建测试提示策略的包和运行索引等技术也非常有用。AI开发的未来在于小型、私有或任务特定的元素。 主要要点 减少NLP模型中ChatGPT的幻觉涉及到可观察性、调整和测试。 开发人员必须考虑提示的变化,优化嵌入和评估对多个问题的回答。 在AI开发中,诸如困惑度、构建测试提示策略的包和运行索引等技术也非常有用。…

Leave a Comment

Storybird利用人工智能的力量,让任何人在几秒钟内创建视觉故事

StoryBird.AI让任何人都能在几秒钟内用人工智能的力量创作视觉故事。他们的Stories插件是ChatGPT插件商店中最受欢迎的插件之一。使用插件或他们的网站,任何人都可以借助人工智能编写引人入胜的故事和书籍。该平台非常用户友好,您可以直接在ChatGPT中使用Stories插件,该插件是OpenAI的ChatGPT商店中最受追捧的插件之一。令人兴奋,不是吗? 这些故事非常精彩,您可以在Storybird.ai上探索大量的示例,如下所示。 使用StoryBird.ai,您可以编写、编辑、发布甚至从销售的书籍中赚取钱。这是一种无与伦比的简单有效的人工智能解决方案。 Storybird团队已经找到了如何利用LLMs和GANs使其无缝结合的方法。 主要特点: 生成式编辑:这使您可以使用生成技术编辑故事。 速度:这个过程非常快速,只需几秒钟。 个性化和定制:该平台允许您通过编辑每个页面上生成的内容来定制故事。更重要的是,您可以根据自己的编辑重新生成相关的图像或插图。就像魔术一样,故事变得独一无二。 令人印象深刻的结果:故事和插图真的很令人印象深刻。 Stories ChatGPT插件: 添加起来很容易,只需搜索“stories” Storybird.ai提供了一些有用的提示,以创建引人入胜的故事: 从20到1000个字符的简短描述开始您的故事。 如果适用,包括角色的姓名。 提供有关角色(例如,一个有着棕色头发的女孩)和环境的细节,以获得最佳结果。 在chatGPT中,您可以轻松启动这个过程,例如: 然后您会很快收到像这样的结果 以下是另一个示例,初始提示如下: “写一个关于一个名叫奥利维亚的12岁女孩的故事,她每天早上都早起练习足球,梦想有一天成为职业球员。” 我们想把背包换成“红色”,这很容易做到…然后我们重新生成了插图。 它是为谁而设计的? StoryBird AI是一个可以为父母、教育工作者和作者创建个性化故事的工具。 父母可以使用StoryBird…

Leave a Comment

Transformer编码器 | NLP问题的关键

介绍 我将以非常简单的方式向你解释转换器编码器。对于那些在学习转换器时遇到困难的人来说,可以通读本博客文章,如果你对在NLP领域工作感兴趣,你至少应该了解到转换器,因为大多数行业都在使用这些最先进的模型来完成各种任务。转换器是NLP任务中的最先进模型,超越了传统的RNN和LSTM模型。转换器通过依赖于自我注意力而不是循环来解决了捕捉长期依赖的挑战。它们彻底改变了NLP,并为BERT、GPT-3和T5等架构铺平了道路。 学习目标 在本文中,您将学到: 转换器为什么变得如此受欢迎? 自我注意机制在NLP领域的作用。 如何从自己的输入数据中创建键、查询和值矩阵。 如何使用键、查询和值矩阵计算注意力矩阵。 在机制中应用softmax函数的重要性。 本文是数据科学博客马拉松的一部分。 转换器为什么超越了RNN和LSTM模型? 在使用RNN和LSTM模型时,我们遇到了一个重要障碍,即这些递归模型仍然无法理解长期依赖,并且处理复杂数据时计算负荷越来越大。论文《Attention Is All You Need》提出了一种名为转换器的新设计,以克服传统序列网络的限制,现在它们是许多NLP应用的最先进模型。 在RNN和LSTM中,输入和标记逐个传递,而转换器同时传输完整的序列(并行传输数据)。 转换器模型完全消除了递归过程,完全依赖于注意机制,使用了一种独特的自我注意机制。 转换器由什么组成?它如何工作? 对于许多NLP任务,转换器模型目前是最先进的模型。转换器的引入在NLP领域取得了重大进展,为BERT、GPT-3、T5等先进系统铺平了道路。 让我们通过一个语言翻译任务来了解转换器和自我注意的工作原理。转换器由编码器-解码器架构组成。我们将输入句子(源句子)输入编码器。编码器学习输入句子的表示并将表示发送给解码器。解码器接收编码器学习到的表示作为输入,并生成输出句子(目标句子)。 假设我们想将一个短语从英语翻译成法语。如下图所示,我们需要将英语句子作为编码器的输入。编码器学习给定英语句子的表示并将表示传递给解码器。解码器将编码器的表示作为输入,并生成法语句子作为输出。 一切进行得很好,但是这里到底发生了什么?转换器的编码器和解码器是如何将英语句子(源句子)翻译成法语句子(目标句子)的?编码器和解码器内部到底发生了什么?因此,在本文中,我们只关注编码器网络,因为我们希望保持简洁,先专注于编码器。未来的文章中,我们肯定会涵盖解码器部分。在接下来的几节中,让我们找出答案。 理解转换器的编码器 编码器只是一个神经网络,用于接收输入并将其转换为机器可以理解的不同表示/形式。转换器由N个编码器堆叠而成。一个编码器的输出作为输入传递给它上面的另一个编码器。如下图所示,我们有一个由N个编码器组成的堆叠。每个编码器将其输出发送给上面的编码器。最后一个编码器将给定源句子的表示作为输出返回。我们将源句子作为输入传递给编码器,并获得源句子的表示作为输出:…

Leave a Comment

如何在没有经验的情况下成为一名数据分析师?

介绍 你知道吗?初级数据分析师每年可以赚取高达49,092美元的薪水。在当今数据驱动的世界中,数据分析的职业涵盖各个行业,为进入这个快速增长的领域提供了众多途径。数据是每个组织的主要决策工具。分析是战略规划的重要组成部分。本文旨在回答新手们常问的一个问题 – 如何在没有经验的情况下成为一名数据分析师! 没有经验能成为数据分析师吗? 当然可以!你可以通过获取必要的资格来追求数据分析师的角色,即使没有经验。以下几个因素使得数据岗位市场对初学者开放: 缺乏数据专业知识:对数据专业人员的需求超过了目前的供应,为新人进入该领域创造了机会。 强调可转移技能:数据分析重视可以从其他领域应用的技能,使个人能够利用现有的能力。 市场快速增长:数据市场经历了指数级增长,增加了跨行业需要熟练专业人员的需求。 企业依赖数据驱动的策略,招聘数据专家成为首要任务。通过投入精力、追求成长,并获取适当的培训资源,个人可以获得在这个充满活力的领域中取得成功所需的专业知识。 如何在没有经验的情况下成为数据分析师? 以下是您无经验地获得数据分析师工作的步骤指南: 1. 获得相关技能 并非必须成为数据分析师才需要拥有相关学科的学位;然而,在统计学、数学或计算机科学方面拥有学位可能会有所帮助。您可以参加面对面的培训课程,观看视频教程,或者参加在线课程来增加您的数据专业知识。学习Python库,如Matplotlib和Seaborn,以及数据可视化应用程序,如Tableau、Power BI等。投入时间了解编程语言的语法、数据类型和相关的包。 2. 掌握数据工具 通过实际的数据项目,您可以获得实践经验,并学习如何在实际环境中使用数据。您可以参与现有项目,或者利用一些免费提供的公共数据集建立自己的项目。尝试使用Excel进行数据处理,使用SQL进行数据库查询,以及使用SAS或SPSS等统计软件。 有用的资源 – 10个带有源代码的最佳数据分析项目 SQL入门指南 免费在线学习MS Excel…

Leave a Comment

OpenAI在ChatGPT中禁用了“使用Bing浏览”功能:发生了什么事?

在一个令人惊讶的转折中,OpenAI决定在其流行的聊天机器人ChatGPT中禁用“用Bing浏览”的功能。这个决定引起了ChatGPT用户的质疑。用户已经习惯于使用这个网页浏览功能。OpenAI没有提供重新启用该功能的具体时间表。但他们向用户保证,他们正在努力工作以将其重新上线。 还阅读:OpenAI的ChatGPT应用程序通过Bing集成引入浏览功能 禁用“用Bing浏览”的决定 OpenAI于2023年7月3日正式宣布禁用“用Bing浏览”的测试功能。此举的主要原因是OpenAI认为该功能在显示内容时存在不良效果。具体而言,当用户请求URL的全文时,聊天机器人有时会无意中满足这个请求。因此,OpenAI决定禁用该功能,以防止进一步显示与其指南不一致的内容。 ChatGPT Plus订户和独家功能 与免费用户相比,ChatGPT Plus订户享受额外的福利。福利包括访问更强大的GPT-4和GPT-4插件商店。他们还被授予访问“用Bing浏览”的功能。ChatGPT与微软的Bing浏览器的整合是在二月份完成的。这标志着OpenAI与这家科技巨头的合作迈出了重要的一步,进一步扩展了聊天机器人的功能。 争议和用户反应 禁用网页浏览功能的决定引发了ChatGPT Plus用户之间的争议。一些订户对OpenAI的举措表示不满,认为这与ChatGPT Plus的价值主张相悖。一个用户在OpenAI的论坛上表达了他们的不满。他们表示,他们支付ChatGPT Plus的费用是特别为了浏览功能,对取消它的决定感到失望。 ChatGPT中“用Bing浏览”的未来 虽然OpenAI没有为重新启用“用Bing浏览”的功能提供具体的时间表,但他们正在积极努力解决导致该功能暂停的问题。OpenAI对ChatGPT Plus订户在该功能的测试阶段提供的宝贵反馈表示感谢,强调这是一次宝贵的学习经验。该公司致力于尽快恢复该功能。 还阅读:Google VS Microsoft:AI创新之争 我们的观点 OpenAI决定在ChatGPT中禁用“用Bing浏览”的功能引起了依赖其浏览能力的用户的关注。尽管此举引发了一些争议,但OpenAI向用户保证,他们正在积极努力解决导致该功能暂停的问题。该公司致力于根据用户的反馈不断完善和提升ChatGPT,用户可以预期“用Bing浏览”的功能很快会回归。 了解更多:ChatGPT是什么?你需要知道的一切

Leave a Comment

乔治亚理工学院研究人员推出了ChattyChef:一种旨在革新烹饪体验的食谱数据集

人工智能(AI)已经在我们的生活中的各个方面产生了革命性的影响,从购物到规划,甚至写作。然而,当涉及到烹饪时,AI一直难以按照正确的顺序遵循逐步的食谱。为了解决这个挑战,乔治亚理工学院计算学院的研究人员在这一领域取得了重要进展。 研究团队开发了一个名为ChattyChef的数据集,利用自然语言处理模型来帮助用户烹饪食谱。通过利用开源大型语言模型GPT-J的强大功能,ChattyChef的数据集由指导用户完成食谱的烹饪对话组成。 在他们的论文《改进的基于食谱对话的指令排序》中,研究人员深入探讨了使用大型语言模型构建AI厨师的复杂性。以往许多尝试利用语言模型进行烹饪的尝试都因为模型无法理解用户意图和准确追踪食谱进展(称为“对话状态”)而失败。此外,这些模型往往难以对于食材数量或烹饪时间等澄清问题提供精确答案。 为了解决这些挑战,研究人员将两个关键特性纳入到他们的模型中。第一个特性是用户意图检测,它有助于确定用户在预定义的一组可能性中的意图,比如请求下一步指导或询问有关食材的详细信息。第二个特性是指令状态跟踪,它使模型能够识别用户所在的具体步骤,实现了80%的准确率。 通过结合用户意图检测和指令状态跟踪,ChattyChef的第三个创新——响应生成的基础得以建立。通过利用用户意图,模型生成最合适的回答来回答用户的问题。同时,指令状态使得能够选择最相关的食谱部分。这种方法旨在防止在烹饪过程中产生混乱或给用户带来繁琐的步骤。 ChattyChef数据集基于WikiHow食谱,这些食谱获得了积极的评价,并且包含不超过八个步骤。为了创建这个数据集,研究人员采用了众包的方式,让个体扮演角色来确定要包含的最佳指令。 ChattyChef的创新潜力不仅限于烹饪领域。研究人员认为,这种方法可以在各个领域中得到应用,比如修理手册或软件文档。 综上所述,团队在解决使用大型语言模型构建AI厨师的挑战方面取得了重要进展。通过整合用户意图检测、指令状态跟踪和优化的响应生成,他们的ChattyChef系统展示了在烹饪食谱方面准确协助用户的潜力。这项研究为其他领域的广泛应用开辟了新的可能性,通过人工智能提升用户体验和简化复杂任务。

Leave a Comment

遇见SAM-PT:一种新的人工智能方法,将Segment Anything Model(SAM)的能力扩展到动态视频中的任何跟踪和分割任务

许多应用,如机器人技术、自动驾驶和视频编辑,从视频分割中受益。深度神经网络在过去几年取得了很大的进展。然而,现有的方法需要在未经尝试的数据上进行调整,尤其是在零样本情况下。这些模型需要特定的视频分割数据进行微调,以在不同场景下保持一致的性能。在零样本设置中,或当这些模型被转移到未经过训练的视频领域,并涵盖训练分布之外的对象类别时,当前的半监督视频对象分割(VOS)和视频实例分割(VIS)方法在处理未知数据时显示出性能差距。 使用来自图像分割领域的成功模型来进行视频分割任务可以解决这些问题。Segment Anything(SAM)概念就是一个有前途的解决方案之一。SA-1B数据集作为SAM的训练基础模型,其中包含了1100万张图片和10亿个掩膜。由于其庞大的训练集,SAM具备了出色的零样本泛化能力。该模型已经证明在使用零样本转移协议进行各种下游任务时能够可靠地运行,并且非常可定制,并能从单个前景点生成高质量的掩膜。 SAM表现出很强的零样本图像分割能力。然而,它并不自然适用于视频分割问题。最近,SAM已经被修改以包括视频分割。例如,TAM将SAM与最先进的基于内存的掩膜跟踪器XMem相结合。类似于SAM-Track将DeAOT与SAM相结合的方式。尽管这些技术在恢复SAM在分布数据上的性能方面取得了很大进展,但在应用于更困难的零样本条件时仍然存在缺陷。许多分割问题可以通过其他不需要SAM的视觉提示技术来解决,包括SegGPT,尽管它们仍然需要对初始视频帧进行掩膜标注。 这个问题对于零样本视频分割来说是一个重大障碍,特别是当研究人员致力于创建简单的技术来推广到新情况并可靠地在各种视频领域中产生高质量的分割时。ETH Zurich、HKUST和EPFL的研究人员介绍了SAM-PT(Segment Anything Meets Point Tracking)。这种方法通过首次使用稀疏点跟踪和SAM来分割视频,为这个问题提供了一种新的方法。与使用掩膜传播或以物体为中心的密集特征匹配相比,他们提出了一种使用电影中编码的详细局部结构数据来跟踪点的方法。 因此,它只需要在第一帧中对稀疏点进行注释以指示目标对象,并提供了对未知对象的卓越泛化能力,这一优势已经在开放世界的UVO基准测试中得到证明。这种策略有效地扩展了SAM在视频分割方面的能力,同时保持了其固有的灵活性。利用PIPS等现代点跟踪器的灵活性,SAM-PT使用这些工具预测的稀疏点轨迹来提示SAM。他们得出的结论是,最适合激励SAM的方法是使用从掩膜标签中的K-Medoids聚类中心初始化要跟踪的位置。 通过同时跟踪正点和负点,可以清楚地区分背景和目标对象。他们建议使用这些点来改进输出掩膜的不同掩膜解码过程。他们还开发了一种点重新初始化技术,以提高随时间的追踪精度。在该方法中,不可靠或遮挡的点被丢弃,而在后续帧中变得可见的对象的部分或段的点被添加,例如当对象旋转时。 值得注意的是,他们的测试结果显示,SAM-PT在几个视频分割基准上的表现与现有的零样本方法相当或更好。这表明他们的方法是多么适应和可靠,因为在训练过程中不需要视频分割数据。在零样本设置中,SAM-PT可以加速视频分割任务的进展。他们的网站上有多个互动视频演示。

Leave a Comment

介绍PandasAI:一款由GenAI驱动的数据分析库

介绍 在生成式人工智能领域,最近出现了激增和突破,引起了数据领域的混乱。公司们正在努力看如何充分利用这些创新,例如ChatGPT。这将帮助任何企业获得竞争优势。一种全新的前沿创新是将一种名为“PandasAI”的GenAI驱动的数据分析库引入到常规Pandas库中。OpenAI已经做到了这一点。与生成式AI的其他领域不同,PandasAI将GenAI技术应用于分析工具Pandas。 顾名思义,它直接将人工智能应用于传统的Pandas库。Pandas库在数据领域中与Python一起在预处理和数据可视化等任务中变得非常流行,而这种创新使其变得更好。 学习目标 了解新的PandasAI 使用PandasAI进行对话查询 使用PandasAI绘制图表 介绍PandasAI及其后端(GenAI) 本文是数据科学博文马拉松的一部分。 PandasAI是什么? PandasAI是一个使用生成式AI模型在pandas中执行任务的Python库。它是一个集成生成式人工智能功能的库,使用提示工程使Pandas数据框具有对话功能。当我们提到Pandas时,我们会想到数据分析和处理。通过PandasAI,我们试图通过GenAI的帮助提高我们的Pandas的生产力。 为什么使用PandasAI? 在生成式人工智能的帮助下,我们都需要给数据集提供对话提示。这带来了不需要学习或理解复杂代码的优势。数据科学家可以通过与数据集对话的方式查询数据集,使用自然的人类语言并获得结果。这样可以节省预处理和分析的时间。这是一个新的革命,程序员不需要编写代码,他们只需要说出他们的想法,然后看到他们的指令被执行。即使非技术人员也可以构建系统,而无需编写任何复杂的代码! PandasAI如何工作? 在我们看到如何使用PandasAI之前,让我们先看看它是如何工作的。我们在这里多次提到了“生成式人工智能”的术语。它作为实现PandasAI的技术。生成式人工智能(GenAI)是人工智能的一个子集,可以生成各种数据类型,包括文本、音频、视频、图片和3D模型。它通过识别已收集的数据中的模式并利用它们来创建新颖和独特的输出来实现这一目标。 另一个需要注意的是使用大型语言模型(LLMs)。PandasAI已经在LLMs上进行了训练,LLMs是由许多参数(数以千万甚至数十亿)组成的人工神经网络(ANN)模型。所有这些都有助于PandasAI背后的模型能够接受人类指令并在解释之前对其进行标记化处理。PandasAI还被设计用于处理LangChain模型,使构建LLM应用程序更加容易。 开始使用Pandas AI 现在让我们看看如何使用PandasAI。我们将看到两种使用PandasAI的方法。首先是使用LangChain模型,然后是直接实现。 使用LangChain模型 要使用LangChain模型,首先需要安装Langchain包: pip install langchain 然后我们可以实例化一个LangChain对象:…

Leave a Comment

HuggingFace Research推出LEDITS:基于DDPM反演和增强的语义引导的真实图像编辑的下一个进化阶段

由于文本引导扩散模型在图片创作中展现出的出色逼真度和多样性,人们对此产生了极大的兴趣。随着大规模模型的引入,用户在创建照片时拥有了无与伦比的创作灵活性。因此,一些正在进行的研究项目专注于探索如何使用这些强大的模型进行图片操作。最近的研究进展展示了使用纯文本扩散技术进行基于文本的图片操作。其他研究人员最近提出了语义引导(SEGA)的概念用于扩散模型。 SEGA展示了先进的图片组合和编辑技能,并且在当前生成过程中无需外部监督或计算。SEGA相关的概念向量被证明是可靠、独立、灵活且单调缩放的。其他研究还探讨了基于语义理解创建图片的不同方法,例如Prompt-to-Prompt,它使用模型的交叉注意力层中的语义数据将像素与文本提示符令牌连接起来。尽管SEGA不需要基于令牌的条件,并且允许多种语义改变的组合,但是在交叉注意力图上的操作可以对生成的图片产生多样化的改变。 现代技术必须用于反转给定图片,以进行基于文本引导的真实图片编辑,这是一个重大障碍。为了实现这一点,需要找到一系列噪声向量,当作为扩散过程的输入时,可以产生输入图片。在大多数基于扩散的编辑研究中,使用了一种从单一噪声图到生成图片的确定性映射技术,称为去噪扩散隐式模型(DDIM)。其他研究人员提出了一种针对去噪扩散概率模型(DDPM)方案的反转方法。 对于DDPM方案中用于扩散生成过程的噪声图,他们提出了一种计算噪声图的新方法,使其与传统DDPM采样中使用的噪声图有所不同,具有更大的方差,并且在时间步长上更相关。与DDIM基于反转的技术相比,友好编辑的DDPM反转在基于文本的编辑任务上展示出了最先进的结果(单独使用或与其他编辑方法结合),并且可以为每个输入图片和文本生成多种输出。在这篇综述中,来自HuggingFace的研究人员想要随意研究SEGA和DDPM反转方法或LEDITS的配对和集成。 在LEDITS中,语义引导扩散生成机制进行了修改。这个更新将SEGA方法论扩展到了真实照片上。它提供了一种结合了两种方法同时编辑能力的编辑策略,并且展示了使用尖端技术的竞争性定性结果。他们还提供了一个HuggingFace演示以及相关代码。

Leave a Comment