Press "Enter" to skip to content

352 search results for "计算机视觉"

构建和部署计算机视觉模型:从计算机视觉工程师的经验教训中学到的东西

有着超过3年的设计、构建和部署计算机视觉(CV)模型的经验,我意识到人们在构建和部署这样复杂系统的关键方面上并没有给予足够的重视在这篇博文中,我将分享我自己的经验以及在设计、构建和部署尖端CV模型过程中所获得的宝贵见解

Leave a Comment

使用Amazon SageMaker Canvas,通过无代码机器学习来实现制造质量的计算机视觉缺陷检测的民主化

制造商最关注的是质量不良成本质量缺陷会增加废品和返工成本,降低生产效率,并可能影响客户和公司声誉在生产线上进行质量检查对于维持质量标准至关重要在许多情况下,使用人工视觉检查来评估质量和检测缺陷,这可能会 […]

Leave a Comment

Meta AI推出具有突破性的I-JEPA:一种具有革命性的计算机视觉技术,模拟人类和动物的学习和推理

人类通过观察世界学习了大量的背景信息。自去年以来,Meta团队一直在开发能够学习世界运作内部模型的计算机,使它们能够更快地学习,规划如何完成具有挑战性的工作,并快速适应新颖的条件。为了使系统有效,这些表征必须直接从未标记的输入(如图像或声音)中学习,而不是手动组装标记数据集。这个学习过程被称为自我监督学习。 生成式架构通过遮盖或删除用于训练模型的数据的部分来进行训练。这可以用图像或文本来完成。然后,它们会猜测缺少或失真的像素或单词。然而,生成式方法的一个主要缺点是,模型试图填补任何知识上的空白,尽管真实世界存在的不确定性。 Meta的研究人员刚刚推出了他们的第一个人工智能模型。通过比较图像的抽象表征(而不是比较像素本身),他们的图像联合嵌入预测架构(I-JEPA)可以学习和改进。 根据研究人员的说法,JEPA将摆脱固定性预训练所困扰的偏见和问题,因为它不涉及将图像的多个视图/增强的表征折叠成单个点。 I-JEPA的目标是使用更接近个体思维方式的表征来填补知识空白。所提出的多块遮罩方法是另一个重要的设计选项,它有助于将I-JEPA引向开发语义表征。 I-JEPA的预测器可以被认为是一个有限的、原始的世界模型,它可以基于有限的上下文信息描述静止图像中的空间不确定性。此外,这个世界模型的语义性质使得它能够推断出以前未知的图像部分,而不仅仅依赖于像素级别的信息。 为了查看模型在被要求预测蓝框内的输出时的结果,研究人员训练了一个随机解码器,将I-JEPA预测的表征转换回像素空间。这种定性分析证明了模型可以学习视觉对象的全局表征,而不会失去这些对象在框架中的位置。 使用I-JEPA进行预训练需要很少的计算资源。它不需要额外的复杂数据增强来提供不同的视角。研究结果表明,I-JEPA可以学习稳健的、预先构建的语义表征,而不需要自定义视角增强。在ImageNet-1K上进行的线性探测和半监督评估也超过了像素和令牌重构技术。 与其他语义任务的预训练方法相比,尽管依赖于手动制作的数据增强,I-JEPA仍然表现出色。I-JEPA在对象计数和深度预测等基本视觉任务上胜过这些方法。由于使用了更少复杂的模型和更灵活的归纳偏差,I-JEPA适用于更多的情况。 团队认为,JEPA模型在视频解释等领域的创造性应用前景非常广阔。使用和扩展这样的自我监督方法来开发广泛的世界模型是一个重大进步。

Leave a Comment

锤炼于火焰:初创公司融合生成式人工智能和计算机视觉技术,以应对野火

在灾难性野火肆虐时,当加利福尼亚的天空变成橙色,一家初创公司融合了计算机视觉和生成式人工智能来进行反击。 “随着2020年野火的发生,这件事变得非常个人化,因此我们向消防官员询问了我们能帮忙的方式,”总部位于硅谷的计算机视觉领导者Chooch的土耳其出生的首席执行官Emrah Gultekin说。 他们得知,加利福尼亚的公用事业和消防部门每周需要处理多达2,000个来自现有野火检测系统的错误预测。这些错误预测来自雾、雨和他们所使用的摄像头网络的镜头上的污迹。 因此,在一项试点项目中,Chooch将其火灾检测软件链接到摄像头网络上。它每15分钟分析一次快照,寻找烟雾或火灾的迹象。 生成式人工智能提高计算机视觉的精度 然后,由Emrah的兄弟Hakan Gultekin领导的团队——一位软件专家和Chooch的首席技术官——想到了一个主意。 他们建立了一个生成式人工智能工具,自动创建每个图像的描述,帮助审阅者分辨出烟雾的存在。错误预测从每周2,000个下降到了8个。 Chooch可以在天气不好或摄像头镜头不清洁的情况下检测到烟雾和火灾。 “消防局长对于在他们的监控中心推出这项技术以及它可以实现的成果感到兴奋,”Chooch的总裁Michael Liou在最近的网络研讨会上详细介绍了该项目。 Chooch的生成式人工智能工具为加利福尼亚州肯恩县的消防员提供了一个仪表盘,他们可以实时在智能手机和电脑上收到警报,以便快速检测野火。 2020年,加利福尼亚州发生了9,900起野火,烧毁了4.3万英亩的森林,造成了190亿美元的损失。防止一场火灾失控会支付野火检测系统50年的费用,该公司估计。 对生成式人工智能的未来展望 Chooch的首席执行官表示,这也是未来的形态。 Emrah Gultekin “大型语言模型和计算机视觉的融合将带来更强大、更准确、更易于部署的产品,”Gultekin说。 例如,公用事业可以将软件连接到无人机和固定摄像头,以便检测电容器上的腐蚀或植被侵入电力线路的情况。 该技术将在Chooch参加一个价值1100万美元的Xprize挑战中得到进一步验证,该挑战旨在检测和打击野火。赞助商包括PG&E和洛克希德·马丁公司,后者正在与NVIDIA合作建立一个人工智能实验室,以预测和响应野火。 Chooch软件的PC和智能手机仪表盘可以实时更新消防员的警报。 Chooch将其技术应用于制造、零售和安全等多个挑战。 例如,一家制造商使用Chooch的模型在产品发货之前检测缺陷。仅消除20%的故障就可以多次支付系统的费用。 合作的开始…

Leave a Comment

谷歌AI提出PixelLLM:一种能够进行细粒度定位和视觉语言对齐的视觉语言模型

大型语言模型(LLMs)成功利用了人工智能(AI)的子领域,包括自然语言处理(NLP),自然语言生成(NLG)和计算机视觉。借助LLMs,我们能够创建能够复杂推理关于图像的视觉语言模型,回答与图像相关的问题,并用自然语言描述图像。然而,LLMs是否能够执行词定位或定位引用等定位任务仍然不确定。 为了克服这个挑战,谷歌研究和UC圣地亚哥的研究人员团队引入了一种智能模型称为PixelLLM,可以实现精细的定位和视觉语言对齐。这种方法受到了人们自然行为的启发,尤其是婴儿用手势、指点和命名来描述他们的视觉环境。团队表示,目标是找出LLMs如何从视觉输入中获得空间理解和推理。 PixelLLM将语言模型的每个单词输出密集对准到像素位置上。为此,添加了一个微小的多层感知机(MLP),它能够对每个单词的像素位置进行回归。使用了低秩微调(LoRA),允许更新或冻结语言模型的权重。该模型还可以接收文本或位置提示,使其能够提供符合提示的输出。 该模型的架构包括图像编码器、提示编码器和提示特征提取器。大语言模型接受提示条件下的图片特征和可选的文本提示作为输入,并输出每个单词的定位和标题。该架构能够接受多样的语言或位置组合作为输入或输出,适应各种视觉语言活动。 团队使用诸如密集物体字幕、位置条件字幕和引用定位等众所周知的视觉任务评估了该模型。PixelLLM在各种挑战中展现出卓越的性能指标,包括RefCOCO引用定位上的89.8 P@0.5,Visual Genome条件化字幕上的19.9 CIDEr以及密集物体字幕上的17.0 mAP。密集的像素定位公式非常重要,这在对RefCOCO进行的消融实验中得到了证明,相对于其他的定位公式,它取得了3.7个百分点的提升。因此,PixelLLM在实现精准的视觉语言对齐和定位方面取得了成功。 团队总结了他们的主要贡献如下: 引入了一个名为PixelLLM的新的视觉语言模型,可以生成单词定位和图片标题。 该模型支持文本或可选的位置提示,除图片输入外。 使用了定位的叙述数据集进行每个单词定位的训练。 该模型能够适应各种视觉语言任务,包括分割、位置条件字幕、引用定位和密集字幕。 该模型在位置条件字幕、密集字幕、引用定位和分割方面展现出卓越的结果。

Leave a Comment

2024 年值得关注的前 12 位数据科学领袖

在蓬勃发展的数据科学领域,2024年的到来标志着关键时刻,我们将聚焦于一群杰出人物,他们推动创新,塑造着分析学的未来。《2024年十二位数据科学领袖榜单》作为一个指路明灯,庆祝这些人的卓越专业知识、远见领导力以及在该领域的重要贡献。让我们一起探索这些开创性思想家的故事、项目和有前瞻性的观点,他们承诺将塑造数据科学的发展轨迹。这些杰出领导者不仅是先驱者,更是引领我们进入一个无与伦比的创新和发现时代的先锋。 2024年十二位数据科学领袖榜单 随着我们临近2024年,我们将关注一群具有显著专业知识、领导能力和卓越贡献的人士。《2024年十二位数据科学领袖榜单》旨在承认和关注这些人,将他们视为思想领袖、创新者和预计在未来一年取得重大里程碑的影响者。 随着我们深入了解细节,明显地看到这些人的观点、举措和倡议能够改变我们在解决各个行业面临的复杂挑战时的方法和数据利用。无论是在预测分析方面的进展,还是对伦理人工智能实践的倡导,或者是开发尖端算法,这些名单上的人士都有望在2024年影响数据科学领域。 1. 吴恩达 “如今人工智能的主要挑战在于找到合适的业务背景来适应它。我热爱技术,它为我们提供了许多机会。但是最终,技术需要被融入到业务使用案例中。” 吴恩达博士是一位拥有机器学习(ML)和人工智能(AI)专业知识的英裔美籍计算机科学家。在谈到他对AI发展的贡献时,他是DeepLearning.AI的创始人,Landing AI的创始人兼首席执行官,AI Fund的普通合伙人,并且是斯坦福大学计算机科学系的兼职教授。此外,他曾是Google AI旗下Google Brain深度学习人工智能研究团队的创始领导者。他还曾担任百度的首席科学家,指导了一个由1300人组成的人工智能团队,并发展了公司的全球AI战略。 吴恩达先生负责领导斯坦福大学的大规模在线开放课程(MOOC)的发展。他还创办了Coursera,并为超过10万名学生提供机器学习(ML)课程。作为机器学习和在线教育的先驱者,他拥有卡内基梅隆大学、麻省理工学院和加州大学伯克利分校的学位。此外,他在机器学习、机器人学和相关领域发表了200多篇研究论文,并入选了《时代》杂志评选的全球最具影响力人物100人。 网站:https://www.andrewng.org Twitter:@AndrewYNg Facebook:Andrew Ng、Google Scholar。 2. Andrej Karpathy “我们本应让人工智能做所有工作,而我们玩游戏,但我们在做所有工作,而AI在玩游戏!” Andrej Karpathy是一位来自斯坦福大学的斯洛伐克-加拿大双博士学位获得者,在OреոΑӏ负责构建一种JARVIS。他曾担任特斯拉的人工智能和自动驾驶视觉总监。Karpathy对深度神经网络充满热情。他从多伦多开始,修读计算机科学和物理学的双学位,之后前往哥伦比亚深造。在哥伦比亚,他与Michiel van…

Leave a Comment

卷积神经网络(CNNs)中的空洞卷积全面指南

介绍 在计算机视觉领域中,卷积神经网络(CNN)已经重新定义了图像分析和理解的领域。这些强大的网络已经在图像分类、物体检测和语义分割等任务中取得了突破。它们为医疗保健、自动驾驶等领域的各种应用奠定了基础。 然而,随着对更具上下文感知和稳健模型的需求不断增长,传统的卷积层在捕捉广泛的上下文信息方面面临限制。这导致了对能够提高网络理解更广泛上下文能力的创新技术的需求,而不会显著增加计算复杂性。 介绍扩张卷积(Atrous Convolution),这是一种颠覆卷积神经网络中常规规则的突破性方法。扩张卷积,也被称为空洞卷积,通过在深度学习领域引入新的维度,使网络能够在不显著增加计算成本或参数的情况下捕捉更广泛的上下文。 学习目标 了解卷积神经网络的基本知识,以及它们如何处理视觉数据来理解图像。 了解扩张卷积如何改进传统卷积方法,从而在图像中捕捉更大的上下文。 探索使用扩张卷积的知名CNN架构,例如DeepLab和WaveNet,以了解它如何提高它们的性能。 通过实际示例和代码片段,获得对扩张卷积在CNN中应用的实际理解。 本文是Data Science Blogathon的一部分。 理解卷积神经网络:它的工作原理 卷积神经网络(CNN)是一类主要用于分析图像和视频等视觉数据的深度神经网络。它们受到人类视觉系统的启发,在涉及视觉数据的模式识别任务中非常有效。以下是详情: 卷积层:CNN由多个层组成,其中卷积层是核心。这些层使用卷积运算将可学习的滤波器应用于输入数据,从图像中提取各种特征。 汇聚层:在卷积之后,通常会使用汇聚层来减小空间维度,压缩卷积层学到的信息。常见的汇聚操作包括最大汇聚或平均汇聚,它们减小表示的大小同时保留关键信息。 激活函数:在卷积和汇聚层之后使用非线性激活函数(例如ReLU)来引入非线性,让网络能够学习数据中的复杂模式和关系。 全连接层:在CNN末尾,通常使用全连接层。这些层整合前面层提取的特征,并执行分类或回归任务。 逐点卷积:逐点卷积,也被称为1×1卷积,是CNN中用于降低维度和特征组合的技术。它涉及将1×1滤波器应用于输入数据,有效减少输入通道数,并允许跨通道组合特征。逐点卷积通常与其他卷积操作一起使用,以增强网络捕捉数据中的复杂模式和关系的能力。 可学习参数:CNN依赖于在训练过程中更新的可学习参数(权重和偏置)。训练过程包括前向传播,其中输入数据通过网络,以及反向传播,根据网络的性能调整参数。 从扩张卷积开始 扩张卷积,也被称为空洞卷积,是一种引入了参数扩张率的卷积操作。与常规卷积将滤波器应用于相邻像素不同,扩张卷积通过在它们之间引入间隙来分散滤波器的参数,由扩张率来控制。这个过程扩大了滤波器的感受野,而不增加参数的数量。简单来说,它允许网络在不增加复杂性的情况下从输入数据中捕获更广泛的上下文。 扩张率决定了卷积的每一步之间跳过多少像素。1的扩张率表示常规卷积,而较高的扩张率跳过更多的像素。这个扩大的感受野能够捕获更大的上下文信息,而不增加计算成本,使网络能够高效地捕获局部细节和全局上下文。 本质上,扩张卷积有助于将更广泛的上下文信息整合到卷积神经网络中,从而更好地对数据中的大规模模式进行建模。它通常用于需要关注不同尺度上的背景信息的应用,例如计算机视觉中的语义分割或自然语言处理任务中处理序列。…

Leave a Comment

微软AI发布了LLMLingua:一种独特的快速压缩技术,可用于压缩大型语言模型(LLMs)的提示,以加快推理速度

鉴于大型语言模型(LLM)具备较强的概括和推理能力,它们显著地提升了人工智能(AI)社区的水平。这些模型在自然语言处理(NLP)、自然语言生成(NLG)、计算机视觉等方面展示了令人瞩目的能力。然而,包括语境学习(ICL)和思维链(CoT)提示在内的新发展,导致了使用较长提示的部署,有时甚至超过几万个令牌。这在模型推理方面带来了成本效益和计算效率的问题。 为了克服这些挑战,微软公司的研究团队推出了LLMLingua,一种独特的粗粒度快速压缩技术。LLMLingua的主要目标是最小化与处理长提示相关的开销,并加速模型推理。为此,LLMLingua采用了一些重要策略,包括以下几点。 预算控制器:创建了一个动态预算控制器,用于分配压缩比率给原始提示的各个部分。这确保提示的语义完整性在大量压缩比率下仍然保持。 令牌级迭代压缩算法:将令牌级迭代压缩算法集成到LLMLingua中。这种技术通过捕捉压缩元素之间的相互依赖关系,实现了更复杂的压缩,同时保留了提示的关键信息。 基于指令调整的方法:该团队提出了一种基于指令调整的方法,以解决语言模型之间分布不匹配的问题。调整语言模型的分布可以提高用于快速压缩的小语言模型与预期的LLM之间的兼容性。 研究团队使用来自不同情况的四个数据集进行了分析和实验,以验证LLMLingua的实用性。这些数据集包括推理的GSM8K和BBH、对话的ShareGPT以及摘要的Arxiv-March23。结果表明,该方法在每种情况下都取得了最先进的性能。结果甚至显示,LLMLingua可以在牺牲很少性能的情况下,实现高达20倍的显著压缩。 实验中使用的小语言模型是LLaMA-7B,封闭式LLM是GPT-3.5-Turbo-0301。LLMLingua在最大压缩比20倍时超越了以前的压缩技术,在保留推理、摘要和讨论能力方面表现出了韧性、经济性、高效性和可恢复性。 LLMLingua的有效性在多个封闭式LLM和小语言模型中得到证实。在使用GPT-2-small时,LLMLingua展示了出色的性能结果,与更大的模型大致匹配。它还在强大的LLM上表现出色,超过了预期的快速结果。 LLMLingua的可恢复性是一个值得注意的方面,因为当使用它来恢复压缩的提示时,GPT-4能够有效地从完整的9步CoT提示中检索重要的推理信息,并保持原始提示的含义和相似性。这个功能保证了可恢复性,即使在翻译后仍保留了关键信息,增加了LLMLingua的整体印象。 总而言之,LLMLingua为LLM应用中长提示带来的困难提供了全面的解决方案。该方法展现了出色的性能,并提供了提高LLM应用的效果和价格效益的有用途径。

Leave a Comment

AI在欺诈检测中的应用方式是怎样的?

西部野蛮时代有枪手、抢劫银行和悬赏–而今日数字时代有身份盗窃、信用卡欺诈和退款。 利用金融诈骗赚钱已成为一项数十亿美元的犯罪活动。而诈骗者手中的生成式人工智能只会使这种盈利更加丰厚。 根据《尼尔森报告》,全球信用卡损失预计将在2026年达到430亿美元。 金融诈骗以越来越多的方式进行,比如从暗网窃取被黑客攻击的数据实施信用卡盗窃,利用生成式人工智能进行钓鱼式获取个人信息,并在加密货币、数字钱包和法定货币之间洗钱。还有许多其他金融诈骗计划潜伏在数字黑社会。 为了跟上步伐,金融服务公司正在利用人工智能进行诈骗检测。这是因为许多数字犯罪需要及时阻止,以便消费者和金融公司能够立即停止损失。 那么人工智能如何用于诈骗检测呢? 人工智能用于诈骗检测使用多个机器学习模型来检测客户行为和联系的异常,以及符合欺诈特征的账户和行为模式。 生成式人工智能可以用作诈骗辅助 金融服务中很多内容涉及文本和数字。生成式人工智能和大型语言模型(LLMs)能够学习意义和背景,承诺在各行各业带来颠覆性的能力和生产力水平。金融服务公司可以利用生成式人工智能开发更智能、更有能力的聊天机器人,并改进诈骗检测。 而反派角色可以通过狡猾的生成式人工智能提示来绕过人工智能保障,用于欺诈。而且大型语言模型正在提供类似人类写作的能力,使诈骗分子能够撰写更具上下文相关的电子邮件,而无需拼写错误和语法错误。可以快速创建许多不同版本的钓鱼邮件,使生成式人工智能成为实施欺诈的绝佳副驾驶员。还有许多诸如FraudGPT之类的暗网工具,可以利用生成式人工智能进行网络犯罪。 生成式人工智能也可以用于声音认证安全措施的金融损害。一些银行正在使用声音认证来帮助授权用户。如果攻击者能够获取声音样本,他们可以使用深度伪造技术克隆银行客户的声音,试图突破这些系统。声音数据可以通过试图引诱通话接收者通过声音作出回应的垃圾电话来收集。 聊天机器人诈骗问题如此严重,以至于美国联邦贸易委员会提出了有关使用大型语言模型和其他技术模拟人类行为,用于伪造视频和声音克隆的关注和担忧。 生成式人工智能如何解决滥用和诈骗检测问题? 诈骗审查现在有强大的新工具。处理手动诈骗审查的工作人员可以通过在后端运行基于LLM的助手,利用来自政策文件的信息来加速决策,判断案件是否属于欺诈,从而大大加快处理过程。 大型语言模型被采用来预测客户的下一笔交易,这有助于支付公司预先评估风险并阻止欺诈交易。 生成式人工智能还通过提高准确性、生成报告、减少调查和降低合规风险来帮助打击交易诈骗。 生成合成数据是生成式人工智能用于欺诈预防的另一个重要应用。合成数据可以提高用于训练诈骗检测模型的数据记录数量,增加示例的多样性和复杂性,使人工智能能够识别欺诈者使用的最新技术。 NVIDIA提供了帮助企业采用生成式人工智能构建聊天机器人和虚拟代理的工具,使用了检索增强生成技术。检索增强生成使公司能够利用自然语言提示来访问大量数据集进行信息检索。 利用NVIDIA的人工智能工作流程可以帮助加速构建和部署适用于各种用例的企业级能力,使用基础模型、NVIDIA NeMo框架、NVIDIA Triton推理服务器和GPU加速矢量数据库来部署检索增强生成技术的聊天机器人。 行业专注于安全,以确保生成型人工智能不易被滥用造成伤害。NVIDIA发布了NeMo Guardrails,以帮助确保基于LLMs的智能应用(如OpenAI的ChatGPT)的准确性、适当性、主题相关性和安全性。 该开源软件旨在防止滥用人工智能驱动的应用程序进行欺诈和其他不当使用。 人工智能在识别欺诈方面的好处是什么?…

Leave a Comment

薛定谔桥是如何击败扩散模型在文本转语音(TTS)合成中的?

随着人工智能的不断发展,自然语言处理、自然语言生成和计算机视觉这些领域最近取得了巨大的流行,这都要归功于大型语言模型的引入。扩散模型在生成文本到语音合成(TTS)方面已经证明非常成功,显示出了很高的生成质量。然而,它们的先验分布受限于引入噪声并对所需生成目标提供很少信息的表示形式。 最近的研究中,清华大学和微软亚洲研究院的研究人员团队介绍了一种名为Bridge-TTS的新的文本到语音系统。这是首次尝试在已建立的扩散式TTS方法中利用干净可预测的替代方法替代噪声高斯先验。该替代先验提供了有关目标的强结构信息,并从文本输入提取的潜在表示中获取。 该团队表示,主要贡献在于开发出了一个完全可管理的薛定谔桥,它连接了真实的梅尔谱图和干净的先验。建议的Bridge-TTS使用的是一种数据到数据的过程,这比起扩散模型的数据到噪声过程改善了先前分布的信息内容。 该团队已经对这种方法进行了评估,并在LJ-Speech数据集上进行了实验验证,评估结果突出显示了建议方法的有效性。在50步骤/1000步骤合成设置中,Bridge-TTS表现出比扩散对应方法Grad-TTS更好的性能。它甚至在少量步骤的情况下比强大且快速的TTS模型表现更好。Bridge-TTS方法的主要优势在于合成质量和采样效率。 该团队总结了主要贡献如下。 从无污染的文本潜在表示中产生了梅尔谱图。与传统的数据到噪声过程不同,这个作为扩散模型上下文中的条件信息的表示形式被设计成无噪声。薛定谔桥被用来研究数据到数据的过程。 针对配对数据,提出了一个完全可计算的薛定谔桥。这个桥使用柔性形式的参考随机微分方程(SDE)。这种方法允许对设计空间进行实证调查,并提供了一个理论解释。 研究了采样技术、模型参数化和噪声调度如何对改善TTS质量发挥作用。还实现了不对称噪声调度、数据预测和一阶桥采样器。 完全可计算的薛定谔桥使得对底层过程的完整理论解释成为可能。通过实证研究,我们可以了解到不同因素如何影响TTS的质量,包括不对称噪声调度、模型参数化决策和采样过程的效率。 该方法在推理速度和生成质量方面取得了很好的结果。在1000步和50步的生成情况下,它明显优于基于扩散的Grad-TTS。它在4步生成中也优于FastGrad-TTS,优于基于transformer的模型FastSpeech 2和最先进的蒸馏方法CoMoSpeech在2步生成中。 该方法仅经过一次训练就取得了出色的结果。这种效率在创作过程的多个阶段都可见,展示了建议方法的可靠性和效力。

Leave a Comment

约翰霍普金斯大学和圣克鲁兹加利福尼亚大学的研究人员揭示了D-iGPT:图像AI学习方面的突破性进展

自然语言处理(NLP)已经进入了一个转型期,引入了大型语言模型(LLMs),例如GPT系列,为各种语言任务设置了新的性能标准。自回归预训练是这一惊人成就的主要因素之一,这种技术教会模型预测序列中最可能的标记。由于这种基本技术,模型能够吸收语法和语义之间的复杂交互,从而为他们理解语言的能力提供卓越的贡献,就像一个人一样。自回归预训练在NLP之外也在计算机视觉方面起到了重要作用。 在计算机视觉中,自回归预训练起初取得了成功,但随后的发展显示出明显的范式转变,更倾向于BERT风格的预训练。特别值得注意的是,从iGPT的首次结果可以看出,自回归和BERT风格的预训练在各种任务上的表现类似。然而,由于在视觉表示学习方面更加有效,后续的研究更偏向于BERT风格的预训练。例如,MAE表明,可扩展的视觉表示学习方法可能就是简单地预测随机屏蔽像素的值。 在这项研究中,约翰斯·霍普金斯大学和加州大学圣克鲁兹分校的研究团队重新审视了iGPT,并质疑自回归预训练是否能够产生高度熟练的视觉学习者,尤其是在广泛应用时。研究团队在其过程中融入了两个重要的改变。首先,研究团队使用BEiT将照片“分词”为语义标记,考虑到图像本身具有噪声和冗余。这个修改将自回归预测的重点从像素转移到语义标记上,从而更加复杂地理解各个图像区域之间的相互作用。其次,研究团队在生成解码器中添加了一个判别解码器,它自回归地预测下一个语义标记。 对于已看到的像素预测语义标记是这个额外组件的责任。此外,值得注意的是,像CLIP这样以判别方式训练的模型最适合该预训练路径的语义视觉标记。研究团队将这种改进方法称为D-iGPT。通过对各种数据集和任务进行广泛测试,证实了他们所提议的D-iGPT的效能。仅使用ImageNet-1K作为相关数据集,他们的基准模型在可达到86.2%的Top-1分类准确率上超越了之前的最先进技术的0.6%。 此外,他们的大规模模型在3600万个公开可用数据集上实现了89.5%的Top-1分类准确率。D-iGPT在公共数据集上达到了先前最先进的训练水平,尽管使用的训练数据更少,模型尺寸更小。研究团队还在相同的预训练和微调数据集上分析了D-iGPT在语义分割上的表现,发现其优于MAE相等的方法。

Leave a Comment

来自麻省理工学院和FAIR Meta的研究人员发布了RCG(Representation-Conditioned Image Generation):一种在无条件图像生成中开创性的人工智能框架

如何在不依赖人工标注的情况下生成高质量图像? MIT CSAIL和FAIR Meta的这篇论文解决了不依赖人工标注生成高质量图像的挑战。他们提出了一个名为Representation-Conditioned Image Generation(RCG)的新型框架,该框架利用从图像分布经过预训练编码器获得的自监督表示分布。这个框架在无条件生成图像方面取得了优秀的结果,并且在有条件生成图像方面与领先方法一直保持竞争力。 历史上,监督学习主导了计算机视觉,但是像对比学习这样的自监督学习方法缩小了差距。尽管先前的图像生成工作在使用人工标注进行有条件生成方面表现出色,但无条件生成面临挑战。引入的框架RCG通过在没有人工标注的情况下在类有条件和类无条件图像生成方面取得了卓越的成果。 RCG取得了最先进的结果,标志着自监督图像生成的重大进展。 使用自监督教育的Representation Diffusion Model(RDM)可以帮助弥合图像生成中监督学习和无监督学习之间的差距。RCG将RDM与像素生成器集成,从而实现了潜在优势的类无条件图像生成。 RCG框架将图像生成条件化为通过预训练编码器从图像分布获得的自监督表示分布。利用像素生成器对像素进行条件化,RCG通过通过去噪扩散隐式模型进行的表示空间采样来集成RDM的训练。 RCG集成了无需分类器的指导,以改善生成模型的性能,如MAGE所示。像Moco v3这样的预训练图像编码器将表达式规范化为输入到RDM中。 RCG框架在类无条件图像生成方面表现出色,实现了最先进的结果,并在类有条件图像生成方面与领先方法相媲美。在ImageNet 256×256数据集上,RCG达到了3.31的Frechet Inception Distance和253.4的Inception Score,表明生成了高质量的图像。通过对表示进行条件化,RCG显著改善了像ADM,LDM和MAGE等不同像素生成器的类无条件生成,并进一步改善了性能的训练周期。 RCG的自我条件化图像生成方法在各种现代生成模型中具有通用性,始终改善类无条件生成。 RCG框架借助自监督表示分布在类无条件图像生成方面取得了突破性成果。其与多样的生成模型的无缝集成显著改善了它们的类无条件性能,而其不依赖于人工标注的自我条件化方法有望超越有条件方法。RCG的轻量级设计和任务特定的训练适应性使其能够利用大型无标签数据集。 RCG已经被证明是一种非常有效和有前途的高质量图像合成方法。

Leave a Comment

这篇人工智能论文介绍了高质量的端对端区域分割方法(SANeRF-HQ),可以实现在给定场景中对任何物体进行高质量的三维分割

香港科技大学、卡内基梅隆大学和达特茅斯学院的研究人员开发了SANeRF-HQ(高质量中任意分割)方法,以实现复杂场景中准确的三维分割。以前基于NeRF的物体分割方法在准确性上有限。但是,SANeRF-HQ结合了“任意分割模型”(SAM)和“神经辐射场”(NeRF)以提高分割准确性,在复杂环境中提供高质量的三维分割。 NeRF在三维问题中很受欢迎,但在复杂场景中存在挑战。SANeRF-HQ通过使用由用户引导的SAM进行开放世界物体分割,以及使用NeRF进行信息聚合来克服这一挑战。它在分割对象定位和视图间一致的分割方面优于以前的NeRF方法。对NeRF数据集的定量评估突显了它对三维计算机视觉和分割的潜在贡献。 NeRF在使用多层感知器进行新视图合成方面表现出色。尽管NeRF内的三维物体分割取得了成功,但Semantic-NeRF和DFF等以往的方法依赖于受限的预训练模型。SAM允许使用多样的提示,对分割的零样本泛化表现出良好的适应性。SANeRF-HQ利用SAM进行开放世界分割和NeRF进行信息聚合,应对复杂场景的挑战,在分割质量上超越以前的NeRF分割方法。 SANeRF-HQ使用特征容器、掩码解码器和掩码聚合器实现高质量的三维分割。它对SAM特征进行编码,生成中间掩码,并使用NeRF的颜色和密度场将二维掩码整合到三维空间中。该系统结合了SAM和NeRF的开放世界分割和信息聚合。它可以使用NeRF渲染的视频和SAM的自动分割功能执行基于文本和自动的三维分割。 SANeRF-HQ在高质量的三维物体分割方面表现出色,超越以前的NeRF方法。它提供了对于物体定位和视图间分割的增强灵活性。在多个NeRF数据集上的定量评估证实了其有效性。SANeRF-HQ在动态NeRF方面表现出潜力,它可以根据文本提示进行分割,并实现自动三维分割。使用密度场、RGB相似度和Ray-Pair RGB损失能够提高分割准确性,填补缺失的内部和边界,从而改善视觉效果并获得更稳固的分割结果。 总之,SANeRF-HQ是一种高级的三维分割技术,它在多视角上超越了以前的NeRF方法,具有良好的灵活性和一致性。它在各种NeRF数据集上的出色表现表明,它有潜力为三维计算机视觉和分割技术做出重要贡献。将其扩展为四维动态NeRF物体分割,并利用密度场、RGB相似度和Ray-Pair RGB损失进一步提高其准确性和质量,以融入颜色和空间信息。 未来的研究可以探索SANeRF-HQ在四维动态NeRF物体分割方面的潜力。它可以通过在复杂和开放世界场景中的应用,结合语义分割和场景分解等先进技术的整合,提高其功能。对SANeRF-HQ在真实场景中的可用性和有效性进行用户研究可以提供有价值的反馈。对于大规模场景和数据集的可扩展性和效率的进一步研究对于优化实际应用中的性能至关重要。

Leave a Comment

2024年的17个预测:从贫穷到财富,从披头士狂热到国家宝藏

向一边去,韦伯斯特:今年企业发现了许多候选词来评选年度词汇。紧随其后的是诸如“生成式人工智能”和“生成式预训练变压器”之类的术语,整个行业都将注意力转向变革性的新技术,如“大型语言模型”和“检索增强生成”(RAG)。 一开始,“生成式人工智能”只是一个较小的关注点,但最后却以耀眼姿态收场。许多公司正在迅速利用其能够处理文本、语音和视频的能力,产生革新性的内容,从而彻底改变生产力、创新力和创造力。 企业正在顺应这一趋势。根据麦肯锡公司的数据,像OpenAI的ChatGPT这样的深度学习算法,再加上企业数据的进一步训练,每年可以为63个商业用例带来相当于2.6万亿至4.4万亿美元的价值。 然而,管理大量的内部数据往往被认为是扩展人工智能的最大障碍。一些AI领域的NVIDIA专家预测,2024年将成为联络朋友的一年——与云服务提供商、数据存储和分析公司以及其他掌握处理、优化和高效部署大数据的技能的公司建立伙伴关系和合作。 大语言模型是这一切的核心。NVIDIA专家表示,LLM研究的进展将越来越多地应用于商业和企业应用领域。通过几乎任何平台,诸如RAG、自主智能代理和多模态互动等AI功能将变得更加易于获取和部署。 听取NVIDIA专家对未来一年的预测: MANUVIR DAS企业计算副总裁 一刀切不适用于所有情况:定制化即将进入企业。企业将不会只有一两个生成式人工智能应用,它们会有数百个定制应用,使用适合于业务不同部分的专有数据。 一旦投入生产,这些定制化的LLM将具备RAG功能,将数据源与生成式人工智能模型连接起来,以获得更准确、更明智的响应。像Amdocs、Dropbox、Genentech、SAP、ServiceNow和Snowflake这样的领先公司已经在构建使用RAG和LLM的全新生成式人工智能服务。 开源软件引领潮流:得益于开源预训练模型,解决特定领域挑战的生成式人工智能应用将成为企业运营策略的一部分。 一旦公司将这些先导模型与私有或实时数据结合起来,他们就可以开始在整个组织中看到加速的生产力和成本效益。从基于云计算和人工智能模型铸造服务到数据中心、边缘和桌面,AI计算和软件将在几乎任何平台上变得更加易于获取。 现成的人工智能和微服务:生成式人工智能促使应用程序编程接口(API)端点的采用增加,这使得开发人员能够构建复杂的应用程序更加容易。 到2024年,软件开发工具包和API将升级,开发人员将使用生成式人工智能微服务(例如RAG作为服务)来定制现成的AI模型。这将帮助企业充分发挥以智能助手和摘要工具为代表的以AI驱动的生产力的潜力,这些工具可以获取最新的业务信息。 开发人员将能够直接将这些API端点嵌入到他们的应用程序中,而无需担心维护支持这些模型和框架所需的基础设施。最终用户将能够体验到更直观、更具响应性和更符合需求的应用程序。 IAN BUCK超大规模和高性能计算副总裁 国家财富:人工智能将成为新的太空竞赛,每个国家都希望建立自己的卓越中心,推动研究和科学的重大进展,提高国内生产总值。 只需要几百个加速计算节点,各国就能迅速构建高效、高性能、百亿亿次量级的AI超级计算机。政府资助的生成式AI卓越中心将通过创造新的工作岗位和建设更强大的大学项目推动国家经济增长,培养下一代科学家、研究人员和工程师。 量子飞跃:企业领导者将以两个关键驱动因素启动量子计算研究项目:利用传统AI超级计算机模拟量子处理器的能力以及混合经典量子计算的开放统一开发平台的可用性。这使得开发人员可以使用标准编程语言而不需要定制的、专门的知识来构建量子算法。 曾经在计算机科学中被认为是一个隐晦的领域,随着企业加入学术界和国家实验室追求材料科学、制药研究、亚原子物理和物流的快速进展,量子计算探索将变得更加主流。 KARI BRISKI副总裁,AI软件 从试错到致富:随着企业采用这些AI框架,对试错增强生成技术(RAG)将会有更多的讨论。 当企业培训LLM来构建生成式AI应用程序和服务时,当模型在某种用例下没有足够准确、相关的信息时,RAG被广泛视为解决不准确或荒谬回答的方法。…

Leave a Comment

这项人工智能研究揭示了照片SLAM:提升便携式设备上的实时逼真地图制作水平

在计算机视觉和机器人技术中,使用相机进行同时定位与地图构建(SLAM)是一个关键的主题,旨在使自主系统能够导航并理解其环境。传统SLAM系统主要强调几何映射,可以产生精确但审美基础的环境表示。然而,最近神经渲染的进步表明,可以将逼真的图像重建融入SLAM过程中,从而提高机器人系统的感知能力。 现有方法在很大程度上依赖于隐式表示,使其计算要求高,并且不适用于资源受限的设备上部署,尽管神经渲染与SLAM的融合产生了有希望的结果。例如,ESLAM使用多尺度紧凑的张量组件,而Nice-SLAM使用分层网格来保存反映环境的可学习特征。随后,它们合作估计相机位置并通过减少多条射线样本的重建损失来增加特征。优化过程非常耗时。因此,为了确保有效的收敛,它们必须集成来自多个源的相关深度信息,例如RGB-D相机、密集光流估计器或单目深度估计器。此外,由于多层感知器(MLP)解码隐式特征,通常需要精确指定边界区域以规范射线采样以取得最佳结果。这限制了系统的潜力扩展。这些限制表明,在使用便携式平台进行SLAM实时探索和未知区域的建图能力中,无法实现其中一个主要目标。 在本文中,香港科技大学和中山大学的研究团队提出了Photo-SLAM。这个新颖的框架在解决目前方法的可扩展性和计算资源限制的同时,执行在线逼真的建图和精确的定位。研究团队跟踪一张点云的超基本地图,其中包括旋转、缩放、密度、球谐系数和ORB特征。通过在原始图片和渲染图片之间反向传播损失,超基本地图使系统能够学习相应的映射并使用因子图求解器优化跟踪。而不是使用射线采样,采用三维高斯喷洒来生成图像。虽然引入三维高斯喷洒渲染器可以降低视角重建的成本,但在在线增量建图中无法产生高保真度的渲染,特别是在单目情况下。此外,研究团队提出了一种基于几何的加密技术和基于高斯金字塔(GP)的学习方法,以实现无需依赖密集深度信息的高质量建图。 图1:Photo-SLAM是一种革命性的实时框架,支持RGB-D、立体和单目相机进行同时定位和逼真地图构建。它的渲染速度高达每秒1000帧,可以重建高保真度的场景视图。 重要的是,GP学习使得多级特征逐渐获取变得更加容易,显著提高了系统的建图性能。研究团队在其漫长的试验中使用了各种由RGB-D、立体和单目相机拍摄的数据集来评估他们提出的方法的有效性。实验结果清楚地表明,PhotoSLAM在渲染速度、逼真地图质量和定位效率方面达到了最先进的性能。此外,Photo-SLAM系统在嵌入式设备上的实时操作展示了它在有用的机器人应用中的潜力。图1和图2显示了Photo-SLAM的操作概述。 图2:显示了Photo-SLAM的四个关键组成部分,它维护一个具有超基本元素的地图,包括定位、显式几何映射、隐式逼真映射和闭环组件。 本作品的主要成果如下: • 研究团队基于超原生地图和同时定位技术创建了首个逼真的测绘系统。这个新的框架适用于室内和室外的单目、双目和RGB-D相机。 • 研究团队提出了使用高斯金字塔学习的方法,使得模型能够有效快速地学习多层次的特征,从而实现高保真度的测绘。该系统即使在嵌入式系统上也能以实时速度运行,并通过完全的C++和CUDA实现实现了最先进的性能。代码将公开提供。

Leave a Comment

上海人工智能实验室和麻省理工学院的研究人员公布了层次化门控循环神经网络(RNN):高效长期依赖建模的新领域

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-05-at-3.51.10-PM-1024×594.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-05-at-3.51.10-PM-150×150.png”/><p>上海人工智能实验室和MIT CSAI的研究人员开发了层次化门控循环神经网络(HGRN)技术,它通过将遗忘门加入线性RNN中,解决了增强序列建模的挑战。其目的是使上层能够捕捉长期依赖关系,同时允许下层专注于短期依赖关系,特别是处理非常长的序列时。</p><p>该研究探讨了Transformers在序列建模中的优势,由于并行训练和长期依赖能力,但同时也注意到了使用线性RNN进行高效序列建模的兴趣再度增加,强调了遗忘门的重要性。它考虑了线性递归和长卷积作为处理长序列的自注意力模块的替代方法,并强调了长卷积中的挑战。论文还探讨了RNN在建模长期依赖性和使用门控机制方面的局限性。</p><p>序列建模在自然语言处理、时间序列分析、计算机视觉和音频处理等各个领域都至关重要。在Transformers问世之前,RNN经常被使用,但面临训练速度慢和建模长期依赖关系的挑战。Transformers在并行训练方面表现出色,但对于长序列具有二次时间复杂度。</p><p>该研究提出了用于高效序列建模的HGRN模型,由具有令牌和通道混合模块的堆叠层组成。线性递归层中的遗忘门使得上层能够建模长期依赖性,而下层能够建模局部依赖性。令牌混合模块采用了受状态空间模型启发的输出门和投影。门控机制和动态衰减率解决了梯度消失问题。在语言建模、图像分类和长距离基准测试中的评估结果表明了HGRN的高效性和有效性。</p><p>所提出的HGRN模型在自回归语言建模、图像分类和长距离基准测试中表现出色。在语言任务中,它优于高效变体的原始Transformer、基于多层感知机和基于RNN的方法,与原始Transformer的性能相当。在常识推理和Super GLUE等任务中,它在使用更少令牌的情况下与基于Transformer的模型相匹配。HGRN在处理长期依赖性方面在长距离基准测试中取得了有竞争力的结果。在ImageNet-1K图像分类中,HGRN优于先前的方法(如TNN和原始Transformer)。</p><p>总之,HGRN模型在各种任务和模态中都证明了其高度有效性,包括语言建模、图像分类和长距离基准测试。其使用遗忘门以及对其值的下界设置使得对长期依赖关系的高效建模成为可能。在语言任务中,HGRN优于变体的原始Transformer、基于多层感知机和基于RNN的方法,并在ImageNet-1K图像分类中表现出色,超过了TNN和原始Transformer等方法。</p><p>HGRN模型的未来发展方向包括在各个领域和任务中进行广泛的探索,以评估其泛化能力和有效性。研究不同超参数和架构变化的影响旨在优化模型的设计。通过评估额外的基准数据集并与最先进的模型进行比较,可以进一步验证其性能。将探索辅助注意力或其他门控机制等潜在改进方法,以增强对长期依赖关系的捕捉。将研究更长序列的可扩展性以及并行扫描实现的益处。对可解释性的进一步分析旨在深入了解决策过程并提高透明度。</p>

Leave a Comment

康奈尔大学研究人员揭示了语言模型提示的内在洞察力:深入了解下一个标记概率如何揭示隐藏文本的方法

Translate this html (keep the html code in the result) to Chinese: 康奈尔大学的研究人员进行了一项研究,解决了语言模型逆推的问题。他们发现下一个标记的概率包含了有关前文的重要信息。为了解决这个问题,他们引入了一种方法,仅使用模型当前的分布输出来重构未知的提示,他们发现这种方法非常准确。 语言模型逆推的方法是在计算机视觉中反转深度嵌入的先前研究基础上的一种新技术。它旨在通过从语言模型输出中恢复隐藏的提示来解决文本嵌入的隐私问题。这种方法是独特的,并与自然语言处理模型中的模型逆推、成员推理和模型窃取之前的研究相关。该研究强调提示恢复作为应对隐私问题的一种方法。 该研究解决了语言模型逆推的问题,旨在从模型的下一个标记概率中恢复输入提示,这在用户无法访问原始提示的情况下至关重要。他们强调了语言模型预测的可逆性,并展示了相似或准确提示的恢复。该研究探索了包括仅文本访问在内的各种访问模式,证明了有限信息下的提示恢复的可行性。 该研究引入了一种从语言模型的分布输出中恢复未知提示的方法。它使用了基于Transformer模型训练的条件语言模型,将下一个标记的概率映射到标记。使用编码器-解码器Transformer中的交叉注意力,将向量展开为伪嵌入。在Llama-2 7b数据集上的实验展示了反转提示的定性示例。他们建立了基线,包括越狱字符串,以进行性能比较。 研究提出的逆推方法在Instructions-2M测试集中恢复提示方面表现出色,超过了few-shot提示和GPT-4。它在各种模型访问场景下取得了成功,实现了显著的BLEU分数和标记级别F1的Llama-2 7b数据集。还探讨了对不同大小的模型的可转移性,展示了在代码生成任务中的良好性能。定性分析显示,重构的提示与主题相关且句法相似,表明逆推方法在准确恢复语言模型输出的提示方面非常有效。 总之,该研究显示语言模型逆推是一种可靠的方法,可以从模型的输出分布中恢复提示。为了防止逆推攻击,重要的是实施防御机制,如添加噪音和设置限制访问。实验证明模型概率分布可以通过启用采样进行重构。但建议限制对top-logits的访问,并为提示保护将温度设为0。结果证实,语言模型逆推是一种有效的方法,可以准确地从语言模型中恢复隐藏的提示。 语言模型逆推的未来工作可以深入研究输入单个后缀以生成多个下一个标记预测,而不仅仅是在末尾。研究可以关注不同大小和领域的模型之间逆推的可转移性。研究对各种防御机制的影响,包括添加噪音和限制访问top-logits,提供了一个有价值的探索方向。将标记嵌入与概率值相结合的参数化可以提高逆推模型的性能。将该方法应用于代码生成等多样任务的探索将提供对其更广泛用途的洞察。进一步分析还需要了解提示恢复的限制和挑战,特别是在处理专有名词和改进句法相似性方面。

Leave a Comment

「见面SceneTex:室内场景高质量、风格一致的纹理生成的新型AI方法」

高质量的3D内容合成对于许多应用来说是一个至关重要且具有挑战性的问题,比如自动驾驶、机器人模拟、游戏、电影制作以及未来的VR/AR场景。由于越来越多的3D内容数据集的可用性,3D几何建模这个领域已经引起了计算机视觉和图形界的广泛研究兴趣。尽管3D几何建模已经取得了很大的进展,但是创建物品的外观或纹理仍然需要大量的人力。开发和编辑通常需要很长时间,并且需要具备使用Blender等3D建模程序的丰富经验。 因此,对于人类技能的高需求和相关成本阻碍了自主纹理设计和增强达到完全工业化。通过利用2D扩散模型的最新发展,特别是针对预定义形式的纹理合成方面的方法,已经在文本到3D创建方面取得了很大的进展。两个开创性的工作Text2Tex和Latent-Paint产生了高质量的物体外观,并实现了从输入提示中合成高保真度的纹理。虽然这些方法对于单个物体产生了有趣的结果,但要将它们扩展到为场景生成纹理仍然存在一些困难。 一方面,纹理接缝、累积的伪影和循环闭合问题是将2D视图投影到3D物体表面的自回归算法的常见问题。当每个物体都有自己的纹理时,保持图片风格的一致性可能是一项具有挑战性的任务。相反地,纹理优化是在低分辨率潜空间中使用基于分数蒸馏的方法进行的,这经常导致错误的几何细节和朦胧的RGB纹理。因此,之前的基于文本的方法无法生成高品质的3D场景纹理。 慕尼黑工业大学和Snap Research的研究团队提出了SceneTex,这是一个独特的设计,使用深度到图像扩散先验来为内部场景网格生成高质量且风格一致的纹理,以解决上述问题。该研究团队采用了一种独特的策略,将纹理创建视为使用扩散先验在RGB空间中进行纹理优化的挑战,而不是现有技术中反复将2D视图弯曲到网格表面上。基本上,研究团队引入了一个多分辨率纹理场,以细致地描绘网格的外观。研究团队使用多分辨率纹理以准确地呈现多种尺寸的纹理细节。因此,他们的设计现在可以适应低频和高频的外观信息。研究团队使用交叉注意力解码器来减少自遮挡引起的风格不一致,以确保所创建纹理的风格一致性。 从实用的角度来看,每个解码后的RGB值都是通过与分布在每个物体上的预采样参考表面位置进行交叉参考生成的。因为每个可见位置都会获得整个实例外观的全局参考,所以研究团队可以进一步确保每个模型内部的全局风格一致性。研究团队通过全面的试验表明,SceneTex可以根据提供的语言信号准确而灵活地创建内部场景的纹理。研究团队通过对3DFRONT数据集的部分进行用户研究,证明了SceneTex在2D指标(如CLIP和Inception分数)方面优于其他基于文本的纹理创建算法。 研究团队的技术贡献可以概括如下: • 使用深度到图像扩散先验,研究团队创建了一个独特的框架,用于生成高质量的高分辨率场景纹理。 • 研究团队使用多分辨率纹理通过提出隐式纹理场来准确捕捉丰富的纹理特征,以记录物体在多个尺度上的外观。 • 与以往的合成技术相比,研究团队通过使用交叉注意力纹理解码器,为3D-FRONT场景生成更美观和风格一致的纹理,以确保每个实例的全局风格一致性。

Leave a Comment

加州大学伯克利分校研究人员开发了ALIA:用于细粒度分类任务的自动语言引导图像增强的突破性技术

“`html 精细化图像分类是一项计算机视觉任务,旨在将图像分类为更大类别中的子类别。它涉及对特定的、往往是稀有的动物进行复杂的识别。然而,它们在需要更多广泛的训练数据方面存在问题,导致分类器在适应领域中的不同方面时遇到困难,比如天气条件或地理位置的改变。 数据增强是一种常用的方法,用于使训练数据多样化,在精细分类等专门任务中面临挑战。使用生成模型或传统的翻转或裁剪等方法的方法显示出一定的潜力,但通常需要进行大量的微调或生成对于此类任务不适当的图像。 尽管有各种各样的提出的方法试图解决这些挑战,但该领域仍面临着在创建增强数据集方面的困难,这些数据集代表了多样的变化,同时保持与原始训练数据的视觉一致性和相关性。 一种新颖的方法——自动语言引导图像增强(ALIA)应运而生,以克服这些持续存在的挑战。ALIA利用了与大型视觉模型结合使用的数据集领域的自然语言描述,通过语言引导的图像编辑以自动生成训练数据的多样化变化。与先前的方法不同,ALIA不依赖昂贵的微调或用户提供的提示。相反,它智能地过滤掉最小的编辑和可能破坏与分类相关信息的编辑,提供了一种有希望的解决方案,增强了数据集的多样性,并提高了专门任务(如精细化分类)分类器的泛化能力。 该过程包括: 生成领域描述:利用图像字幕生成和大型语言模型(LLM)将图像上下文总结为不超过十个领域描述。 使用语言引导对图像进行编辑:使用文本条件下的图像编辑技术,创建与这些描述相符的多样化图像。 过滤失败的编辑:使用CLIP进行语义过滤,并使用分类器进行基于置信度的过滤,以删除失败的编辑,确保任务相关信息和视觉一致性的保留。 据作者称,这种方法可以扩展数据集20-100%,同时保持视觉一致性并涵盖更广泛的领域范围。 研究团队进行了大量实验证明了ALIA数据增强方法在专门任务(领域泛化、精细化分类和鸟类分类中的上下文偏见)中的有效性。通过对ResNet50模型进行微调,并使用稳定扩散进行图像编辑,ALIA始终优于传统的增强技术,甚至优于实际数据增加在领域泛化任务中,显示出相对原始数据的17%的改进。在精细分类中,ALIA表现出了竞争性的性能,即使没有领域转移也能保持准确性。ALIA在涉及上下文偏见的功能中,在领域内外的准确性方面表现出色,尽管在图像编辑质量和纯文本修改方面面临挑战。这些实验证明了ALIA在增强数据集多样性和模型性能方面的潜力,尽管在一定程度上依赖于模型质量和图像编辑方法的选择。 总之,作者介绍了ALIA,一种基于大型语言模型和语言引导的图像编辑技术的数据增强先进策略,利用广泛的领域知识。对于已提供的训练集中的领域描述和增强数据,该方法展示了在领域适应、偏见减少甚至在缺乏领域转移的情况下的出色能力。 对于未来的研究,作者认为字幕、大型语言模型和图像编辑的进一步改进将极大地增强该方法的效果和适用性。使用从实际训练数据中得出的结构化提示可能在改善数据集多样性和解决当前方法中遇到的各种限制方面发挥关键作用。这为探索ALIA在更广泛的领域中的应用前景和潜在进展提供了有希望的途径。 “`

Leave a Comment

15个引导性项目,提升你的数据科学技能

简介 在数据科学领域,创新与机遇相遇之处,对熟练专业人员的需求不断飙升。数据科学不仅仅是一种职业,它是解决复杂问题、推动创新和塑造未来的门户。行业每年的增长率超过36%,在数据科学领域的职业不仅有经济回报,也有知识满足感。理论知识和实践经验的结合对于在这个充满活力的环境中取得成功至关重要。在数据科学中的指导项目成为理论和实践之间的桥梁,提供在导师的引导下亲身学习的机会。 指导项目是什么? 在了解指导项目之前,了解一下数据科学职业的吸引力是很重要的。除了复杂的算法和庞大的数据集外,数据科学是解决现实世界挑战、推动行业发展的关键。最近的行业报告显示,数据科学家的中位薪资超过了平均薪资,使其成为一种吸引人的职业选择。行业的快速增长进一步扩大了具备正确技能和专业知识的人的机会。 独立数据科学项目中的挑战 挑战涵盖了管理庞大的数据集、实施复杂的算法和提取有意义的见解。现实世界的数据科学场景要求对技术细节和领域特定细微之处有着细腻的理解。在这里,指导项目的重要性就在于它们提供了一种结构化的方法和专家导师的指导,将困难的旅程转化为有启发性的学习体验。 我们可以帮助您完成的前15个指导项目 以下是我们在我们的BB+计划中涵盖的项目。我们的专家将通过他们卓越的指导帮助您深入了解它们的复杂性。 1. 纽约出租车需求预测 纽约出租车需求预测项目将参与者沉浸在动态的运输分析世界中。借助历史出租车行程数据,参与者深入预测模型来预测纽约市各个位置的出租车需求。该项目磨炼回归分析和时间序列预测技能,并提供关于空间数据可视化的见解。了解和预测出租车需求对于优化车队管理、提高客户服务以及贡献于高效的城市交通系统至关重要。 2. 场景分类挑战 在场景分类挑战中,参与者的任务是开发一个强大的图像分类模型,能够准确地将图像分类到预定义的类别中。利用卷积神经网络(CNNs)和迁移学习等深度学习技术,参与者获得了图像识别方面的实践经验。该项目的目标是构建准确的模型,并在图像分类的背景下理解特征提取、模型训练和验证的细微之处。 3. Pascal VOC图像分割 Pascal VOC图像分割项目向参与者介绍了引人入胜的图像分割世界。利用Pascal VOC数据集,参与者学习如何准确地轮廓绘制图像中的对象。该项目深入探讨语义分割的复杂性,其目标是将图像中的每个像素分配给特定的对象类别。精通图像分割对于计算机视觉、医学图像和自动驾驶等应用至关重要。 4. 场景生成 场景生成将参与者带入生成模型,特别是生成对抗网络(GANs)。其目标是通过生成类似于真实场景的图像来创建逼真的场景。参与者将探索GANs、对抗性训练和潜在空间操作的原理。该项目提高了生成模型的技能,并为创造由AI生成的内容提供了创造性的途径。 5. 大型超市销售预测…

Leave a Comment

研究人员研究张量网络以解释性和高效的量子启发机器学习

计算机视觉、自然语言处理和其他领域在深度机器学习(ML)方法方面取得了显著的成功,这些方法基于深度神经网络(NNs)。然而,解释性与效率之间长期存在的问题带来了一些难以克服的障碍。对深度ML方法的质疑、理解和信任能力取决于它们的可解释性,通常被描述为一个人能够理解结论来源的程度。 贝叶斯网络、Boltzmann机器和其他概率ML模型被认为是“白箱”,因为它们本质上是可解释的。这些模型宣称的一种解释方式是通过使用概率推理来揭示隐藏的因果联系;这与人类思维在统计上的方式一致。遗憾的是,最先进的深度NNs在效率上超过了这些概率模型相当大的幅度。目前的ML模型似乎无法同时实现高效性和可解释性。 由于量子计算和传统计算的指数增长,解决效率与可解释性困境的新工具出现了:张量网络(TN)。多个张量的收缩被称为TN。张量的收缩方式由其网络结构定义。 中国首都师范大学和中国科学院大学的一篇新论文调查了TN在高效和可解释的量子启发式ML方面的有益发展。”TN ML butterfly”列举了TN对ML的好处。对于具有量子扭曲的ML的TN的好处可以归结为两个主要领域:量子理论的可解释性和量子过程的高效性。使用TN与如纠缠理论和统计学等量子理论构建超越描述经典信息或统计方法的可解释性的概率框架。 相反,量子启发的TN ML方法将能够通过强大的量子力学TN算法和大幅改进的量子计算技术在经典和量子计算平台上高效运行。特别是,最近产生了具有开发潜力和挑战的生成预训练变换器,导致了前所未有的计算能力和模型复杂性的激增,这对TN ML而言既具有潜力又具有挑战。面对产生预训练变换器的新人工智能(AI),解读结果的能力比以往任何时候都更为重要,从而实现更有效的调查、更安全的控制和更好的利用。 研究人员认为,随着我们进入真正的量子计算和当前的NISQ时代,TN迅速成为从各个角度研究量子人工智能的领先数学工具,包括理论、模型、算法、软件、硬件和应用。 研究人员研究了张量网络用于可解释和高效的量子启发式机器学习文章首次出现于MarkTechPost。

Leave a Comment

首尔国立大学研究人员引入了LucidDreamer:一种突破性的人工智能方法,利用扩散建模在虚拟现实中实现领域无关的3D场景生成

商业混合现实平台的发展和3D图形技术的快速进步使得高质量的3D场景的创建成为计算机视觉中的主要挑战之一。这需要将任何输入的文本、RGB和RGBD图片转换为各种逼真且多样的3D场景的能力。尽管已经尝试使用体素、点云和隐性神经表示等扩散模型直接构建3D对象和场景,但由于基于3D扫描的训练数据的限制,结果显示出有限的多样性和质量。使用预先训练的图像生成扩散模型(例如稳定扩散)生成各种优秀的3D场景是解决问题的一种方法。这样一个庞大的模型通过从大规模训练集中获得的数据驱动知识生成可信的图像,但无法确保生成的图像之间的多视点一致性。 首尔大学的研究团队在本文中提出了一种名为LucidDreamer的流水线,它使用3D高斯喷洒和稳定扩散从多种输入(包括文本、RGB和RGBD)生成各种高质量的3D场景。通过交替重复进行Dreaming和Alignment两个步骤,使用LucidDreamer流水线创建一个单一的大点云。在开始这两个过程之前,原始图像和匹配的深度图创建了一个初始点云。创建几何一致的图像并将其投影到三维空间中是梦境体验的两个方面。在将可见点云区域在新的相机坐标系上投影到新的相机平面之前,研究团队沿着预定义的相机轨迹移动相机。随后,投影的图像被送入基于稳定扩散的修补网络,该网络利用图像创建整个概念。通过将修补的图像和预测的深度图提升到3D空间中,创建了一组新的3D点。然后,通过轻微移动新点在3D空间中的位置,建议的对齐技术将其平滑地与当前点云连接起来。研究团队使用通过重复执行上述过程得到的大型点云作为初始SfM点来优化高斯喷洒。 与先前的表示相比,3D高斯喷洒的连续表示消除了点云中深度差异导致的间隙,使我们能够显示出更逼真的3D场景。图1展示了使用简单的LucidDreamer技术生成的3D生成结果。与当前模型相比,LucidDreamer显示出显著更逼真和令人震撼的结果。在研究团队比较基于ScanNet、NYUDepth和稳定扩散的图片条件下创建的3D场景时,所有数据集都显示出更好的视觉效果。 图1:研究人员创建了LucidDreamer,这是一个基本框架,用于从文本、RGB和RGBD输入类型生成高质量、多视点一致的3D场景。在将RGBD图像映射到第一个点云以生成后,LucidDreamer重复进行两个过程来扩大和保持其世界模型:对齐和梦境。通过优化高斯喷洒表示,完成了3D场景。 他们的模型可以创建各种风格的3D场景,包括逼真、动漫、乐高和室内/室外。他们的概念支持多个领域,并允许同时使用多个输入条件。例如,它根据文本创建一个3D场景并添加图片,将文本和图像条件在一起。这消除了完全从文本中创建预期场景的困难,并消除了大量生成样本的需求。此外,他们的方法允许在创建3D空间时修改输入条件。这些特点通过提供构建各种3D设置的机会来激发创造力。 他们总结了以下贡献。 • 研究团队推出了LucidDreamer,这是一个领域无关的高质量3D场景生成工具,它使用显式3D表示、深度估计和稳定扩散来改进3D场景合成中的领域泛化。 • 他们的Dreaming方法通过生成点云作为每个图片生成的几何指引,利用稳定扩散生成多视角图像。使用他们的对齐技术巧妙地将生成的照片整合在一起,创建一个连贯的3D场景。 • 他们的方法允许用户通过支持多种输入类型(文本、RGB和RGBD)以多种方式生成3D场景,同时允许在生成过程中更换输入。

Leave a Comment

使用Amazon SageMaker智能筛选,将深度学习模型训练加速高达35%

在当今快速发展的人工智能领域,深度学习模型已经成为创新的前沿, 并且在计算机视觉(CV),自然语言处理(NLP)和推荐系统等领域有广泛的应用然而,训练和优化这些模型所带来的成本不断增加,给企业带来了挑战这些成本主要是由[…]驱动的

Leave a Comment

学习数据科学需要多久时间?

介绍 数据科学已经成为技术市场上最有价值的技能之一。在数据科学革命之前,处理数百万个测试用例的数据需要花费长达11-12年的时间。但现在,只需几个月,有时甚至只需要几个星期!那么,学习数据科学需要多长时间?令人惊讶的是,你只需要一年就可以成为一名数据科学家。这取决于你的学习速度和持续性。让我们看看成为数据科学家需要多长时间,以及为什么你应该成为一名数据科学家。 为什么选择数据科学职业? 机器学习和人工智能正在征服世界,得益于不断发展的技术世界。根据预测,到2026年,数据科学市场收入预计将达到$3229亿美元。技术、大数据和机器学习算法在企业中的快速应用导致了数据科学的快速增长。 根据劳动统计局的数据,数据科学家平均年薪约为$100,000。有许多职业机会可供选择,你可以成为数据分析师、数据科学家等,拥有高薪水,符合你的技能。 成为数据科学家需要多长时间? 每个人成为数据科学家的道路可能不同。如果我们将每个月分为特定的主题,你可以在12个月内学习数据科学。只要保持持续的努力和学习的热情,任何人都可以在一年内掌握数据科学的艺术。 然而,学习曲线取决于你的持续性和学习数据科学的时间。由于之前对数据科学具有基础知识,有些人可以较短时间内掌握数据科学。 跟随并在12个月内学习数据科学的基础和复杂概念。让我们看看每个月的内容蓝图,了解学习数据科学需要多长时间。 第1个月:数据科学工具包 让我们以基本的数据科学工具开启你成为数据科学家的旅程。通过学习常见但重要的数据科学工具,如Python及其库NumPy、Pandas、Matplotlib和Seaborn,可以为接下来几个月打下坚实的基础。 第2个月:数据可视化 在打下坚实基础之后,我们进入成为数据科学家的下一个阶段,掌握数据可视化的艺术。熟悉数据可视化工具,如Tableau,掌握绘制图表、分布地图等技术。本月还将开始学习SQL。 第3个月:数据探索 第三个月重点介绍如何利用隐藏数据进行数据探索。数据探索是指将信息型数据以关键洞察的形式展示出来。本月将教你如何使用探索性数据分析(EDA)探索数据。你可以学习成为一名数据科学家所需的统计学基础知识。 第4个月:机器学习基础与讲故事的艺术 本月将开始你的机器学习奇妙之旅。你将学习机器学习的基础知识,并熟悉技术术语和技巧。通过结构化思维,你将掌握讲故事的艺术。 第5个月:高级机器学习 从第五个月开始,事情将变得严肃起来,因为您将学习高级机器学习算法来提升您的技能。在这个月里,您可以期望学习特征工程以及如何处理文本和图像。 第六个月:无监督机器学习 在这个月里,学会处理非结构化和无标签的数据。学习如何使用无监督机器学习算法处理非结构化数据,例如PCA、聚类、K-Means、异常检测等。您将终于开始进行项目。 第七个月:推荐引擎 推荐系统是Netflix、YouTube、Zomato等准确推荐背后的支撑。在第七个月,学习不同推荐技术背后的逻辑以及如何构建推荐引擎。同时,进一步实施令人兴奋的项目。 第八个月:处理时间序列数据 全球许多组织依赖时间序列数据观察数据集随时间的重复测量。在这个月里,学习如何处理时间序列数据,以及解决时间序列问题的有效技术。…

Leave a Comment

Can't find what you're looking for? Try refining your search: