Press "Enter" to skip to content

352 search results for "计算机视觉"

企业如何利用人工智能(AI)、物联网(IoT)、增强现实/虚拟现实(AR/VR)实现企业可持续发展目标

“工业4.0企业和制造商一直在寻求帮助实现可持续发展目标和减少排放的众多技术这些技术包括自动化、传感器技术、物联网和无线连接因此,整个行业和制造商现在可以生成、收集、跟踪和分析大量数据,这些数据是人工智能的基础”

Leave a Comment

2023年找工作要具备的前十个人工智能技能

人工智能(AI)是技术领域中表现出色且充满机遇的领域之一。无论您目前的技能水平如何,要在AI领域找到工作并不容易,尤其是当招聘人员一直在寻找熟练的候选人时。提升技能并转行有很大且容易的可能性。因此,成为一名顶级AI技术人员需要激情和努力。本文介绍了能够构建您的AI技能,使您成为一流AI公司潜在候选人的顶级分支。 什么是AI技能? AI技能包括一系列设计、开发和实施人工智能解决方案所需的能力和专业知识。这些技能包括熟练掌握Python等编程语言、机器学习算法、神经网络、自然语言处理、数据预处理、数据可视化、强化学习、数据分析、问题解决和伦理考虑。AI技能使专业人士能够创建能够学习、适应和执行类似人类智能的任务的智能系统,推动各行各业的技术进步。 前十个AI技能 以下是前十个AI技能及其子技能的列表: 了解AI领域 熟练掌握编程语言 精通机器学习 数据预处理和分析 深度学习和神经网络 自然语言处理(NLP)技能 计算机视觉熟练 AI伦理和偏见意识 云和AI部署 持续学习和适应 了解AI领域 人工智能是一个多学科平台,拥有各种分支,每个分支都具有不同的功能,可以将人类的知识和行为模拟到机器中。AI应用广泛应用于汽车、航空航天工程、生物技术、生物信息学、医疗保健等行业。 从基础到高级,开始掌握概念,以便将您的AI技能定制到AI的专门领域。一些主要的AI分支包括: 机器学习:作为人工智能的基础,它使用算法从数据中学习并随着时间的推移增强功能。 自然语言处理(NLP):人工智能的一个分支,使机器能够模仿和解释人类语言。 机器人技术:将人工智能与工程学相结合,生成可以自主运行的模型或机器。 计算机视觉:人工智能可以帮助识别和理解视觉信息。 熟练掌握编程语言 在AI领域,有几种编程语言专门用于生成算法和设计模型。编程语言的能力使机器能够可视化、吸收和反映,从而使智能系统栩栩如生。 在AI中使用各种编程语言来完成不同的任务,例如:…

Leave a Comment

谷歌研究人员介绍了RO-ViT:一种简单的人工智能方法,以区域感知的方式预训练视觉变换器,以提高开放词汇检测能力

近年来的进步使计算机能够像人类视觉一样解释和理解来自世界的视觉信息。它涉及处理、分析和从图像和视频中提取有意义的信息。计算机视觉使需要视觉解释的任务自动化,减少了手动干预的需要。目标检测是一项计算机视觉任务,涉及在图像或视频帧中识别和定位多个感兴趣的对象。 目标检测的目标是确定场景中存在哪些对象,并提供关于它们在图像中的位置的信息。大多数现代目标检测器依赖于区域和类别标签的手动注释,这限制了它们的词汇量大小,并使进一步扩展变得昂贵。 与此相反,可以使用视觉语言模型(VLM)来填补图像级预训练和对象级微调之间的差距。然而,在这些模型的预训练过程中,需要充分利用对象/区域的概念。 Google Brain的研究人员提出了一种简单的模型来填补图像级预训练和对象级微调之间的差距。他们提出了区域感知开放词汇视觉变换器(RO-ViT)来完成这个任务。 RO-ViT是一种简单的方式,以区域感知的方式预训练视觉变换器,用于开放词汇对象检测。标准的预训练需要完整的图像位置嵌入。相反,研究人员随机裁剪和调整位置嵌入的区域,而不是使用整个图像的位置嵌入。他们称这种方法为“裁剪位置嵌入”。 团队展示了使用聚焦损失的图像-文本预训练比现有的softmax CE损失更有效。他们还提出了各种新颖的目标检测技术。他们认为,现有方法在对象提议阶段经常会错过新颖的对象,因为这些提议通常需要更加平衡。 该团队表示,他们的模型RO-ViT在LVIS开放词汇检测基准测试中达到了最先进的水平。他们的统计数据显示,在12个图像-文本检索基准测试指标中,它在9个指标上取得了最好的成绩。这反映出在区域级别上学到的表示对开放词汇检测非常有益且高效。 随着目标检测技术的不断发展,负责任的开发、部署和监管将至关重要,以确保其积极影响的最大化,同时减轻潜在风险。总体而言,目标检测技术的持续进步有望通过革新产业、提高安全和生活质量,并实现曾被视为科幻的创新,为更加光明的未来做出贡献。 查看论文和Google博客。该研究的所有荣誉归于该项目的研究人员。还请不要忘记加入我们的29k+ ML SubReddit、40k+ Facebook社群、Discord频道和邮件订阅,我们会分享最新的人工智能研究新闻、有趣的人工智能项目等。 如果你喜欢我们的工作,你会喜欢我们的新闻通讯.. 这篇文章最初发表于MarkTechPost。

Leave a Comment

顶级低/无代码AI工具(2023年9月)

利用低代码和无代码的人工智能工具和平台,正在开发利用机器学习以新颖方式的应用。AI可以用于创建协调销售和营销工作的网络服务和客户端应用程序。只需要最少的编码专业知识即可利用低代码和无代码解决方案。 无需编码或低代码的人工智能技术反映了计算机科学中长期追求的目标。无代码是一种不需要编写任何代码的软件设计系统。同时,低代码是一种促进更快应用交付的软件开发技术,几乎不需要编码,并且低代码平台是一种使用GUI界面进行应用程序可视化开发的软件工具。该AI工具无需编码,可以使用简单的拖放界面,用于AI应用的无代码或低代码开发环境。 顶级的低代码和无代码AI工具包括以下内容: MakeML 使用MakeML生成用于对象识别和分割的机器学习模型,无需手动编码。它简化了创建和高效管理大型数据集的过程。除了为您的ML模型准备就绪,您还可以进行测试。MakeML是一个在线资源,可以在几小时内教您构建AI软件并将计算机视觉应用于内部问题。在移动设备上还提供视频教程,帮助您掌握机器学习。MakeML的专业人员将帮助您开发计算机视觉解决方案并将其整合到您的产品中。不收取费用提供单个GPU云训练和有限的数据集导入/导出。 Obviously AI 借助Obviously AI的机器学习平台,您可以在几分钟内进行准确的预测,甚至不需要了解编码知识。这包括创建机器学习算法并通过单击鼠标预测其结果。使用数据对话框修改数据集而无需额外的代码,然后在组织中分发或展示您的ML模型。低代码API允许任何人使用算法进行预测,并将这些预测整合到他们的实际应用程序中。此外,Obviously AI为您提供了先进的算法和技术,而不会影响效率。它可用于收入预测、供应链规划和定向广告。实时预测可实现潜在客户转化、动态定价、贷款偿还和其他结果。 SuperAnnotate 使用SuperAnnotate创建AI动力超级数据。它是用于AI相关任务的端到端系统,包括注释、管理和版本控制“ground truth”数据。借助其强大的工具包、顶级的注释服务和可靠的数据管理系统,您的AI流程可以实现三到五倍的更快规模化和自动化。使用行业领先的服务和软件进行高吞吐量数据注释,包括视频、文本和图像。项目管理工具和团队协作可以帮助您的模型在实践中取得成功。建立一个简化的注释工作流程,监控项目质量,与团队分享更新等,所有这些都可以通过SuperAnnotate实现。由于其主动学习和自动化功能,它可以加速您的注释过程。 Teachable Machine Teachable Machine允许您教计算机识别和响应您的声音、手势和照片。无需编写任何代码,它可以快速创建强大的机器学习模型,用于集成到应用程序、网站等中。Teachable Machine是一个基于Web的低代码机器学习平台,可实现广泛可用的机器学习模型的开发。您需要收集并组织示例以教计算机学习新东西。您可以让计算机作为一个学习机器进行测试,然后立即进行测试。您可以在您的在线项目中使用该模型。您还可以将模型托管在线或作为可下载文件分发。最重要的是,该模型完全在您的设备上本地运行,因此您的音频或视频在任何时候都不需要离开系统。借助文件、相机和简短的音频样本,对照片和身体方向进行分类变得轻而易举。 Apple的Create ML 在您的Mac上,发现一种创新的方法来教授和训练ML模型。它使用Apple的Create ML便捷地创建ML模型并在Mac上进行训练。在一个项目中,您可以同时训练多个模型,每个模型都有一个独特的数据集。它包含一个外部图形处理单元,可以提高在Mac上的模型速度。通过暂停和恢复播放等选项,掌握您的训练进度。评估集将告诉您模型的表现如何。通过检查关键绩效指标和相互关系,发现各种提升模型的用例、前景和未来的投资。使用iPhone上的摄像头进行连续预览,体验模型的性能。通过使用硬件加速器在Mac上更快地训练模型。Create ML中的模型可以是各种各样的类型,包括图像、电影、音乐、演讲、文本、表格等。之后,您可以用新的信息和设置训练您的计算机。 PyCaret 通过PyCaret,一个低代码机器学习平台,您可以在Python中自动化机器学习工作流程。使用这个基本、简单的机器学习库,您可以更多地将精力集中在分析上,如数据预处理、模型训练、模型解释性、MLOps和探索性数据分析,而不是编写代码。PyCaret是模块化构建的,不同的模型可以执行各种机器学习操作。在这里,函数是按照一定过程执行任务的集合。使用PyCaret,几乎任何人都可以创建完整的、低代码的机器学习解决方案。提供了快速入门指南、博客、视频和在线论坛供学习使用。创建一个基本的机器学习应用程序,快速训练您的模型,然后经过分析和优化后,立即将其部署为REST…

Leave a Comment

2023年的15个人工智能(AI)和机器学习相关的Subreddit社区

在快节奏的人工智能(AI)和机器学习领域,及时了解最新的趋势、突破和讨论至关重要。作为互联网的首页,Reddit成为专家和爱好者的中心。这是我们精心挑选的2023年关注的顶级AI和机器学习相关subreddit列表,让您始终保持关注。 r/MachineLearning 这个subreddit专注于机器学习,定期发布技术和引人入胜的帖子和讨论。对于这个拥有超过250万成员的群体来说,有几个基本的行为规则。这是机器学习爱好者必加的群组。 r/artificial r/artificial是最大的专门讨论人工智能或AI相关问题的subreddit。拥有超过16.7万成员,人们可以在这里找到最新的新闻,实际应用中的AI示例,以及那些从事AI工作或研究的人们的讨论和问题。AI是一个广阔的领域,涉及许多学科和子领域。许多这些子领域也有专门的subreddit。r/artificial涵盖了所有这些内容。它是一个平台,供任何对AI以任何形式进行智能和尊重的讨论感兴趣的人。 r/ArtificialInteligence r/ArtificialInteligence是最流行的AI subreddit之一,您不需要选择内容标签。这个subreddit拥有超过8.8万成员。您可以加入这个subreddit,了解最新的AI动态。 r/Machinelearningnews r/machinelearningnews是一个机器学习爱好者/研究者/记者/作者的社区,他们分享有关AI应用的有趣新闻和文章。因为这些内容每天都会发布,并且经过高度审核以避免任何垃圾信息,所以您不会错过任何关于ML/AI/CV/NLP领域的更新。 r/Automate 这个subreddit有超过7.5万成员参与讨论和帖子,专注于自动化。在r/Automate subreddit上可以找到关于自动化、增材制造、机器人、AI以及其他我们开发的技术的讨论。 r/singularity 这个subreddit致力于对一个假设时期的深思研究,即人工智能发展到超越人类的卓越智能程度,从而从根本上改变文明。拥有超过16.1万成员,这个subreddit上的帖子质量和相关性都很高。它涵盖了技术奇点和相关主题的所有方面,比如人工智能(AI)、人类增强等。 r/agi 这个subreddit拥有约1.25万成员,专注于人工通用智能。人工通用智能(AGI)是指能够完成任何人类可以完成的智力工作的机器。这里的帖子定期发布,内容丰富,讨论富有创意。 r/compsci 任何对计算机科学家们发现的信息感到着迷并愿意分享和讨论的人都应该访问r/compsci subreddit。其中包含了许多关于人工智能的帖子。作为成员,有几个简单的规则需要遵守。这个subreddit拥有超过210万成员。 r/AIethics 伦理在AI中是基础。r/AIethics上有关于如何使用和创造各种AI工具的最新内容。规则很简单。它拥有超过3.2k成员。这个subreddit讨论了人工智能代理应该如何行为以及我们应该如何对待它们。 r/cogsci 尽管认知科学是一个庞大的领域,但这个subreddit的帖子在某种程度上与从科学角度研究心智有关,同时也涉及最新的人工智能。它涵盖了跨学科研究心智和智能的领域,包括哲学、心理学、人工智能、神经科学、语言学和人类学。作为用户,有几个广泛的行为准则需要遵守,它拥有超过10.7万成员。 r/computervision…

Leave a Comment

印度在所有经合组织和G20国家中在人工智能技能和人才方面排名第一

在快速发展的技术领域中,一项技能已经成为璀璨的明星:人工智能(AI)。凭借其庞大的技术劳动力,印度在AI技能竞赛中取得了领先地位。该国的技术专业人员正在拥抱AI,重塑自己的职业生涯,并推动各行各业的创新。印度软件和服务公司协会(Nasscom)的一份报告突出了印度在AI领域的领导地位。该国在所有经合组织(OECD)和G20国家中在AI技能渗透和AI人才集中方面排名第一。本文介绍了印度如何在AI领域取得这些成就以及该领域的就业景观。 另请阅读:Sam Altman与印度总理纳伦德拉·莫迪的重要会议:绘制印度的AI未来 印度的AI领导地位:排名和认可 NASSCOM的报告展示了其对AI整合的承诺。此外,印度在全球AI科学出版物方面排名第五,突显了其对AI研究的贡献。印度在G20和OECD国家中具有最高的AI技能渗透因子,达到3.09。该指标显示,与其他国家相比,印度的技术人才拥有AI技能的可能性是其他国家的三倍。 显著增长:印度的AI技能繁荣 关于生成式AI成为主流的热潮引发了技能提升的浪潮。自2016年1月以来,领英平台上添加AI技能的印度人数量惊人地增加了14倍。这一激增凸显了AI在职业领域的日益重要性。 印度是一个拥有470万技术专业人员的技术强国。然而,尽管该国拥有庞大的技术人才库,但该国面临一个紧迫问题-缺乏AI专家。对AI技能的需求激增,表明AI在各个领域具有变革的力量。 另请阅读:印度将在G20提议基于AI的中小企业门户:对小企业来说是一个改变游戏规则的举措 供需困境:印度对AI人才的追求 尽管印度拥有41.6万从事AI和数据科学的专业人员,但预计在未来几年内这一数字将增加21.3万人。世界经济论坛对印度就业格局的预测显示,AI角色的重要性进一步凸显。 公司不遗余力地寻找AI专家。生成式AI角色的职位发布量在一年之内增长了50%,同时搜索这些职位的数量增长了惊人的12300%。对AI人才的需求是不可否认的,企业愿意提供丰厚的回报来吸引和留住这些专家。 另请阅读:AWS和Accel推出“2023年ML Elevate”以推动印度的AI创业生态系统 弥合鸿沟:印度的AI进化 截至2022年8月,印度对数据科学和AI专业人员的需求达到了62.9万,而人才基数达到了41.6万。尽管这一数字庞大,但该国的供需差距为51%。这一差距虽然显著,但明显低于美国等主要经济体。 印度的AI就业格局由五个突出的角色主导:机器学习工程师、数据工程师、数据科学家、数据架构师和DevOps工程师。这些角色共占全国所有AI职位的73%。凭借超过160万的数字人才库,印度正在崛起为全球人才中心。 另请阅读:印度和国外的AI工程师薪资[2023年版] 区域差异:印度的AI薪酬 印度的班加罗尔常被称为印度的硅谷,其机器学习(ML)专家的薪资最高。相比之下,金奈的平均ML薪资低于全国平均水平5%。这种差异显示了AI薪酬中的地区差异。 各种AI角色的薪酬待遇各不相同。机器学习工程师、数据分析师和AI研究人员的需求很高,薪酬也相当可观。计算机视觉工程师、AI产品经理和AI顾问的需求和薪酬也在增长。 跨越国界:AI专家的全球机会 在印度以外地区,人工智能专家的薪水高企。像 Netflix 的人工智能产品经理这样的职位提供的薪资超过六位数,展示了全球对人工智能专业知识的需求。亚马逊、谷歌和高盛等科技巨头愿意大量投资于人工智能和机器学习专家。…

Leave a Comment

使用Amazon SageMaker Clarify在临床环境中解释医疗决策

在这篇文章中,我们展示了如何使用Amazon SageMaker Clarify来改进临床环境中的模型可解释性在医学领域中使用的机器学习(ML)模型的可解释性变得越来越重要,因为为了获得认可,这些模型需要从多个角度进行解释这些角度包括医学、技术、法律和最重要的——患者的角度在医学领域中,基于文本开发的模型在统计学上已经变得准确,然而,为了为每个病人提供最佳护理,临床医生在伦理上要求评估与这些预测相关的弱点为了让临床医生能够根据每个病人的情况做出正确的选择,这些预测的可解释性是必需的

Leave a Comment

使用大型语言模型进行自主视觉信息获取

由Google研究团队的学生研究员Ziniu Hu和研究科学家Alireza Fathi发布 针对多模态输入的大型语言模型(LLMs)适应性方面,如图像字幕、视觉问答(VQA)和开放词汇识别等任务取得了巨大进展。尽管取得了这样的成就,但当前最先进的视觉语言模型(VLMs)在信息查询数据集(如Infoseek和OK-VQA)上的性能表现不佳,这些数据集需要外部知识来回答问题。 需要外部知识回答问题的信息查询查询示例。图片来自OK-VQA数据集。 在“AVIS:利用大型语言模型进行自主视觉信息查询”中,我们介绍了一种在视觉信息查询任务上取得最先进结果的新方法。我们的方法将LLMs与三种类型的工具集成在一起:(i)用于从图像中提取视觉信息的计算机视觉工具,(ii)用于检索开放世界知识和事实的网络搜索工具,以及(iii)用于从与视觉上相似的图像相关的元数据中获取相关信息的图像搜索工具。AVIS使用LLM驱动的规划器在每个步骤中选择工具和查询。它还使用LLM驱动的推理器分析工具输出并提取关键信息。一个工作记忆组件在整个过程中保留信息。 回答复杂视觉信息查询问题时AVIS生成的工作流示例。输入图像来自Infoseek数据集。 与以前的工作相比 最近的研究(例如Chameleon、ViperGPT和MM-ReAct)探索了将工具添加到LLMs以进行多模态输入。这些系统遵循两阶段过程:规划(将问题分解为结构化程序或指令)和执行(使用工具收集信息)。尽管在基本任务中取得了成功,但这种方法在复杂的现实场景中常常失败。 还出现了将LLMs应用为自主代理的兴趣激增(例如WebGPT和ReAct)。这些代理与环境互动,根据实时反馈进行调整,并实现目标。然而,这些方法不限制可以在每个阶段调用的工具,导致了巨大的搜索空间。因此,即使是当今最先进的LLMs也可能陷入无限循环或传播错误。AVIS通过人类决策的指导LLM使用来解决这个问题。 通过用户研究指导LLM决策 对于Infoseek和OK-VQA等数据集中的许多视觉问题,即使对于人类来说也是具有挑战性的,通常需要各种工具和API的帮助。下面是来自OK-VQA数据集的一个示例问题。我们进行了用户研究以了解使用外部工具时的人类决策过程。 我们进行了一项用户研究,以了解在使用外部工具时的人类决策过程。图片来自于OK-VQA数据集。 用户配备了与我们的方法相同的一套工具,包括PALI、PaLM和网络搜索。他们收到输入图片、问题、检测到的物体裁剪图以及链接到图像搜索结果的按钮。这些按钮提供了关于检测到的物体裁剪图的多样信息,例如知识图谱实体、相似图像标题、相关产品标题和相同的图像标题。 我们记录用户的行为和输出,并将其用作我们系统的指导,有两个关键方面。首先,通过分析用户所做决策的顺序,我们构建了一个转换图(如下所示)。该图定义了不同的状态,并限制了每个状态下可用的行动集合。例如,在初始状态下,系统只能执行以下三个动作之一:PALI标题、PALI VQA或者物体检测。其次,我们使用人类决策的例子来指导我们的规划器和推理器,提供相关的上下文实例,以增强我们系统的性能和效果。 AVIS转换图。 总体框架 我们的方法采用一种动态的决策策略,旨在响应视觉信息查询。我们的系统有三个主要组件。首先,我们有一个规划器,用于确定下一步的行动,包括适当的API调用和需要处理的查询。其次,我们有一个工作内存,用于保存从API执行获得的结果的信息。最后,我们有一个推理器,其作用是处理API调用的输出。它确定获得的信息是否足以产生最终的响应,或者是否需要进行额外的数据检索。 规划器在每次需要决策哪个工具要使用和发送给它的查询时,执行一系列步骤。基于当前状态,规划器提供一系列可能的后续行动。可能的行动空间可能非常大,使得搜索空间难以处理。为了解决这个问题,规划器参考转换图来排除不相关的行动。规划器还排除了之前已经执行过并存储在工作内存中的行动。 接下来,规划器收集一组相关的上下文示例,这些示例是从用户研究中先前由人类做出的决策中组合而成的。利用这些示例和保存有从过去工具交互中收集的数据的工作内存,规划器制定一个提示。然后将该提示发送给LLM,LLM返回一个结构化的答案,确定下一个要激活的工具和要发送给它的查询。这种设计允许规划器在整个过程中被多次调用,从而促进逐步回答输入查询的动态决策。 我们使用推理器分析工具执行的输出,提取有用的信息,并决定工具输出属于哪个类别:信息性的、无信息的或最终答案。我们的方法利用LLM进行推理,适当的提示和上下文示例。如果推理器得出结论准备提供答案,它将输出最终响应,从而完成任务。如果它确定工具输出无信息,它将返回给规划器,在当前状态下选择另一个行动。如果它发现工具输出有用,它将修改状态并将控制权转交回规划器,在新状态下做出新决策。 AVIS采用动态决策策略来响应视觉信息查询。 结果 我们在Infoseek和OK-VQA数据集上评估了AVIS。如下所示,即使是强大的视觉语言模型,如OFA和PaLI,在Infoseek上进行微调后也无法获得高准确性。我们的方法(AVIS)在没有进行微调的情况下,在该数据集的未知实体拆分上实现了50.7%的准确性。…

Leave a Comment

利用深度学习进行纳米阵列的开发:一种能够设计能够产生特定结构颜色的纳米孔阵列的新的人工智能方法

颜色的多样性随着两种或更多颜色的组合而增加。光与微小纳米结构相互作用,产生多种颜色的内在模式。光谱还与孔洞相互作用,形成一种称为纳米孔阵列的系统。这也可以区分光现象并获得结构性颜色。其主要目的是将结构性颜色植入人造材料中。这种颜色的主要优点是随着时间的推移不会退化。研究人员仍然面临创建导致指定颜色的纳米级阵列的问题。这属于计算机视觉的广泛范畴。 重庆大学的研究团队设计了一个新系统,可以将这些纳米孔阵列增强为结构性颜色。他们还使用了各种机器学习模型来设计这个系统。为了预测这些阵列的结构性颜色,研究人员开发了两个深度学习模型CSC和CSS。这些模型允许形成纳米孔阵列,从而产生所需的颜色。准确率、F1得分、召回率、精确度和百分比准确率等参数非常显著。研究团队表示,这些结果是基于对这些阵列的模拟得出的。这些结果已经转化为实验现实,并在很大程度上得到了增强。 这些结果被用于进一步评估,并获得了准确率和F1得分等测试数据集的参数。预测模型被创建用于预测通过先前使用的深度学习模型增强的数据。该模型还旨在弥补各种应用和理论概念之间的理论差距。纳米孔阵列还用于包含多样数据的高密度存储。 这项研究展示了一种用于实现纳米阵列的结构颜色和光谱的深度学习模型。该方法的可扩展性很有前景,因为它可以处理更大的数据集。它还可以实现适应不同材料的复杂结构。这项研究将简单地操纵纳米阵列及其等离子应用。

Leave a Comment

探索OpenAI的ChatGPT代码解释器:深入了解其功能

OpenAI 在自然语言处理(NLP)方面的进展标志着大型语言模型(LLM)的崛起,这些模型支持着数百万用户使用的产品,包括编码助手 GitHub Copilot 和必应搜索引擎这些模型通过其独特的记忆和融合信息的能力,在代码和文本等任务上树立了无与伦比的基准

Leave a Comment

“Google DeepMind研究人员提出了6种可组合的转换方式,以逐步增加基于Transformer的神经网络的规模,同时保持功能性”

基于Transformer的神经网络近来受到了广泛关注,因为它们表现出色。机器翻译、文本生成和问答是一些自然语言处理活动,其中Transformer架构(见图1)已成为行业标准。Transformer模型的有效性不仅限于自然语言处理领域,它们还在语音识别、计算机视觉和推荐系统等其他领域取得了成功。大型语言、视觉和多模态基础模型是其中最复杂和最有效的模型,参数数量可达数十亿至数万亿。 然而,每个新模型通常是从头开始教授,而没有利用先前训练的较小模型所学到的知识。此外,模型的大小在训练过程中保持不变。由于需要更多的训练数据,模型大小的增加导致训练的计算成本呈二次增长。通过重用预训练模型的参数或在训练过程中动态增加模型的大小,可以降低总体训练成本。然而,这样做往往会牺牲训练进度,因此很难实现。为了解决这些限制,他们提供了适用于基于Transformer的模型的保持功能的参数扩展变换。 这些变换增加了模型的大小,从而增加了模型的潜在容量,但不改变其功能,使其可以继续训练。这些可组合的变换作用于架构的独立维度,允许进行精细的架构扩展。之前的一些研究也提出了适用于基于Transformer的模型的保持功能的参数扩展变换,这些研究延续了较小的卷积和全连接模型的技术。 图1显示了基于Transformer设计的典型神经网络的结构。 在这项研究中,来自Google DeepMind和图卢兹大学的研究人员开发了一个框架,它是功能保持变换的最广泛和模块化的集合。该论文提供了六个适用于Transformer架构的可组合的保持功能的变换,它们分别是: MLP内部表示的大小 注意力头的数量 注意力头输出表示的大小 注意力输入表示的大小 Transformer层的输入/输出表示的大小 层数 他们演示了如何在不对额外参数的初始化施加太多限制的情况下,实现每个变换的精确功能保持属性。作者在论文中详细讨论了所有这些贡献。

Leave a Comment

NTU和SenseTime的研究人员提出了SHERF:一种可泛化的人体NeRF模型,用于从单个输入图像恢复可动画的3D人体模型

人工智能和深度学习领域一直在快速发展。从基于自然语言处理的大型语言模型到使用计算机视觉概念的文本到图像模型,AI已经取得了长足的进步。通过使用人类神经辐射场(NeRFs),可以在不需要精确的3D几何数据的情况下从2D照片重建高质量的3D人体模型。这一发展对于增强现实(AR)和虚拟现实(VR)等多个应用具有重要影响。人类NeRFs可以加快从2D观察创建3D人体模型的过程,减少了获取真实3D数据所需的时间和资源。 目前大多数使用NeRFs重建3D人体模型的技术使用单眼电影或从不同角度使用多视角相机拍摄的多个2D照片。由于这种方法在真实世界中使用时存在缺点,即人们的照片是从随机的相机角度拍摄的,因此这给产生准确的3D人体重建带来了相当大的障碍。为了解决这些问题,研究团队提出了SHERF,这是第一个能够从单个输入图像中恢复动画3D人体模型的通用化Human NeRF模型。 SHERF在一个标准化的空间中运作,它可以从任意自由视角和姿势渲染和动画化重建的模型。这与传统技术形成对比,传统技术主要依赖固定的相机角度。编码的3D人体表示包括详细的局部纹理和全局外观信息,可以成功高质量地合成视角和位置。这是通过使用一种具有多种特征的3D感知分层特征库的概念来实现的,这些特征旨在使全面编码更加容易。 团队提到了三个层次的分层特征,即全局特征、点级特征和像素对齐特征。每个特征都有不同的功能,单个输入图像获取的信息旨在通过全局特征进行改进,全局特征试图弥补不完整的2D观察留下的空白。而像素对齐特征负责保留有助于模型整体正确性和逼真性的更小细节,点级特征提供了底层3D人体解剖的重要信号。 团队开发了一种称为特征融合变压器的设备,用于高效地组合这些3D感知分层特征,这个变压器被制作成可以组合和利用多种分层特征类型的形式,确保编码表示尽可能全面和丰富。对多个数据集(包括THuman、RenderPeople、ZJU_MoCap和HuMMan)进行了全面的测试,以展示SHERF的有效性。研究结果表明,SHERF在合并独特视角和位置方面显示出高于现有最先进水平的性能。 团队总结了主要贡献如下: 引入了SHERF,这是第一个从一张图像中恢复动画3D人体模型的通用化Human NeRF模型。 通过适应更广泛的背景,扩展了Human NeRF在现实世界场景中的适用性。 SHERF使用3D感知分层特征,捕捉了细粒度和全局属性。这使得可以恢复详细纹理并填补不完整观察中的信息空缺。 SHERF在超越以前的通用化Human NeRF方法方面表现出色,并在广泛的数据集中实现了优越的视角和姿势合成结果。 总之,这项令人惊叹的研究无疑代表了在3D人体重建领域迈出的重要一步,特别是在从随机相机角度获取照片带来特定困难的真实世界情况下。

Leave a Comment

这项AI研究提出了Strip-Cutmix:一种更适用于人员再识别的数据增强方法

在计算机视觉中,人物再识别是当今互联世界中的一项重要追求。它涉及在不理想条件下跨不同摄像机视图识别个体的挑战性任务。然而,要实现准确的再识别模型,需要大量多样化且标记完整的数据。这就是数据增强的重要性所在。数据增强技术可以提高可用数据的质量和数量,使模型能够学习到强大的特征并适应各种场景。 在文献中,人物再识别采用了各种数据增强方法。包括随机擦除、随机水平翻转、遮挡样本生成、具有不同光照条件的虚拟图像创建,甚至涉及生成对抗网络(GANs)的方法。然而,像Cutmix和mixup这样可以生成高质量图像的方法,由于难以将它们适应人物再识别的三元组损失框架,很少被使用。 最近,中国的一个研究团队发表了一篇新论文,介绍了一种将Cutmix数据增强方法应用于人物再识别的解决方案。作者将常用的三元组损失扩展为处理十进制相似性标签,优化图像相似性。他们还提出了Strip-Cutmix,一种适用于人物再识别的增强技术,并提供了在该领域中有效应用该技术的策略。 具体而言,该论文调整了三元组损失和cutmix以解决这个挑战。Cutmix涉及将一幅图像的部分粘贴到另一幅图像上以创建一个新的图像。尽管常用,但由于cutmix生成的十进制相似性标签与其不兼容,它在人物再识别中很少被使用。 为了解决这个问题,作者修改了三元组损失以适应十进制相似性标签,并允许cutmix与三元组损失同时使用。修改后的三元组损失根据目标相似性动态调整优化方向。此外,三元组损失的决策条件被重写以与目标相似性标签对齐。 具体而言,作者扩展了三元组损失以处理十进制相似性标签,在再识别背景下使用cutmix。Cutmix通常将图像的一部分裁剪并粘贴到另一幅图像上,以创建一幅新的组合图像。然而,原始的三元组损失在人物再识别的度量学习中起着重要作用,但它在cutmix生成的十进制相似性标签上存在困难。 为了克服这个挑战,作者动态修改了三元组损失的优化方向以处理十进制标签,使其与cutmix和原始三元组损失兼容。他们还引入了Strip-Cutmix,将图像分成水平块,利用个体的相似特征通常在图像之间的对应位置上找到的事实。这种方法提高了生成图像的质量,并为三元组损失提供了更好的边界条件。Strip-Cutmix与标准cutmix不同之处在于强调基于位置的混合和图像块,使其可以获取组合图像之间的相似性标签。 在实践中,该解决方案涉及: 修改三元组损失以处理十进制标签。 引入Strip-Cutmix技术。 确定在训练过程中应用Strip-Cutmix的最佳方案。 进行了实验研究,以评估所提出方法的有效性。实验在Market-1501、DukeMTMC-ReID和MSMT17数据集上进行。使用平均平均精度(mAP)和累积匹配特性(CMC)进行评估。 研究人员选择了ResNet-50作为骨干网络。结果显示,该方法优于其他方法,在ResNet-50和RegNetY-1.6GF骨干网络上取得了最佳结果。此外,该技术表现出对过拟合的抵抗力,达到了最先进的性能。总体而言,该方法在数据集上提升了人物再识别任务的一致优势。 总之,本文介绍了一种将cutmix数据增强技术应用于人物再识别的方法。人物再识别中使用的现有三元组损失被扩展以适应十进制相似性标签,确保在处理这种新形式时的兼容性。此外,还引入了一种名为strip-cutmix的新概念,专门为人物再识别任务量身定制。通过研究strip-cutmix的最佳利用方案,作者确定了最有效的方法。该提出的方法超越了其他基于卷积神经网络的人物再识别模型,在纯卷积网络框架中实现了最佳性能。

Leave a Comment

Can't find what you're looking for? Try refining your search: