Press "Enter" to skip to content

四海吧 Posts

用UniDetector检测任何你想要的东西

深度学习和人工智能在近年来在检测模型方面取得了显著的进展。尽管取得了令人印象深刻的进步,但目标检测模型的有效性主要依赖于大规模的基准数据集。然而,挑战在于目标类别和场景的变化。在现实世界中,与现有图像存在显著差异,并且可能出现新的目标类别,因此需要重新构建数据集以确保目标检测器的成功。不幸的是,这严重影响了它们在开放世界情景中的泛化能力。相比之下,即使是儿童,人类也能够在新环境中快速适应和良好泛化。因此,人工智能系统与人类智能之间的普遍性不足仍然是一个值得关注的差距。 克服这一限制的关键是开发一种通用的目标检测器,以实现对任何给定场景中所有类型的目标的检测能力。这样的模型将具备在未知情况下有效运作而无需重新训练的显著能力。这样的突破将显著接近使目标检测系统像人类一样智能的目标。 通用的目标检测器必须具备两个关键能力。首先,它应该使用来自各种来源和多样的标签空间的图像进行训练。在分类和定位方面进行大规模协作训练是确保检测器获得足够信息以有效泛化的关键。理想的大规模学习数据集应包含许多图像类型,涵盖尽可能多的目标类别,具有高质量的边界框注释和广泛的类别词汇。不幸的是,由于人类注释者的限制,实现这样的多样性是具有挑战性的。在实践中,虽然小词汇量的数据集提供了更清晰的注释,但较大的数据集存在噪声并可能存在不一致性。此外,专门的数据集专注于特定类别。为了实现普遍性,检测器必须从具有不同标签空间的多个来源学习,以获得全面和完整的知识。 其次,检测器应该展示对开放世界的强大泛化能力。它应能够准确预测在训练过程中未见过的新类别的标签,而没有显著的性能下降。然而,仅依靠视觉信息无法实现这一目的,因为全面的视觉学习需要人类注释来进行全面监督学习。 为了克服这些限制,提出了一种名为“UniDetector”的新型通用目标检测模型。 架构概述如下图所示。 要实现通用目标检测器的两个关键能力,需要解决两个相应的挑战。第一个挑战是使用多源图像进行训练,其中图像来自不同的来源,并与多样化的标签空间相关联。现有的检测器仅能预测来自一个标签空间的类别,而数据集特定的分类法和数据集之间的标注不一致性使得统一多个异构标签空间变得困难。 第二个挑战涉及新类别的区分。受近期研究中图像-文本预训练的成功启发,作者利用带有语言嵌入的预训练模型来识别未见过的类别。然而,全面监督训练往往会使检测器偏向于关注训练过程中出现的类别。因此,在推断时,模型可能会偏向基础类别,并对新类别产生不自信的预测。尽管语言嵌入提供了预测新类别的潜力,但其性能仍远远落后于基础类别。 UniDetector被设计来解决上述挑战。研究人员利用语言空间探索各种结构,以有效地训练具有异构标签空间的检测器。他们发现采用分区结构可以促进特征共享,同时避免标签冲突,这对于检测器的性能是有益的。 为了增强区域建议阶段对新类别的泛化能力,作者将建议生成阶段与RoI(感兴趣区域)分类阶段解耦,选择分别进行训练而不是联合训练。这种方法利用了每个阶段的独特特征,有助于检测器的整体普遍性。此外,他们引入了一个无类别定位网络(CLN)以实现广义的区域建议。 此外,作者提出了一种概率校准技术来消除预测的偏差。他们估计了所有类别的先验概率,然后根据这个先验概率调整了预测的类别分布。这种校准显著提高了物体检测系统中新类别的性能。根据作者的说法,UniDetector可以超过当前最先进的CNN检测器Dyhead,达到6.3%的平均精度(AP)。 这是UniDetector的摘要,它是一种针对通用物体检测设计的新型人工智能框架。如果您对该工作感兴趣并希望了解更多信息,您可以通过点击下面的链接找到更多信息。

Leave a Comment

释放数据集精简的潜力:SRe^2L在ImageNet-1K上取得了创纪录的准确性

近年来,数据压缩和蒸馏方法备受关注,彻底改革了人工智能研究。这些方法承诺高效地表示大规模数据集,实现更快的模型训练、经济高效的数据存储和关键信息的保留。然而,现有解决方案在压缩高分辨率数据集(如ImageNet-1K)方面面临巨大的计算开销。 来自穆罕默德·本·扎耶德人工智能大学和卡内基梅隆大学的研究团队推出了一个名为“Squeeze, Recover, and Relabel”(SRe^2L)的划时代数据集压缩框架。他们的突破性方法通过保留关键信息,对高分辨率数据集进行压缩,并实现了卓越的准确性。 数据集蒸馏的主要挑战是创建一个能够有效产生压缩样本并确保生成样本保留原始数据集核心信息的生成算法。由于计算和内存限制,现有方法在扩展到更大数据集时遇到困难,对于保留必要信息的能力受到阻碍。 为了解决这些挑战,SRe^2L框架采用了涉及挤压、恢复和重新标记的三阶段学习过程。研究人员首先训练一个模型,从原始数据集中捕捉关键信息。然后,他们进行恢复过程以合成目标数据,然后进行重新标记,为合成数据分配真实标签。 SRe^2L的一个关键创新在于在训练过程中解耦模型和合成数据的双层优化。这种独特的方法确保从原始数据中提取信息与数据生成过程无关。通过避免额外内存需求和防止原始数据影响生成数据的偏差,SRe^2L克服了以前方法面临的重大限制。 为了验证他们的方法,研究团队对两个数据集进行了广泛的数据蒸馏实验:Tiny-ImageNet和ImageNet-1K。结果令人印象深刻,SRe^2L在完整的Tiny-ImageNet和ImageNet-1K上分别实现了42.5%和60.8%的异常准确率。这些结果大幅超过了所有先前最先进方法14.5%和32.9%的差距,同时保持了合理的训练时间和内存成本。 这项工作的一个与众不同之处在于研究人员对可访问性的承诺。通过利用广泛可用的NVIDIA GPU,如3090、4090或A100系列,SRe^2L变得更加易于广大研究人员和从业者使用,促进合作并加速该领域的进展。 在大规模高分辨率数据集需求不断增长的时代,SRe^2L框架成为数据压缩和蒸馏挑战的变革性解决方案。它在高效压缩ImageNet-1K并保留关键信息方面的能力为各种人工智能应用中的快速高效模型训练打开了新的可能性。凭借其验证成功和易于实施的特点,SRe^2L承诺重新定义数据集蒸馏的前沿,为人工智能研究和发展开辟新的道路。

Leave a Comment

来自新加坡国立大学的研究人员提出了Mind-Video:一种利用脑部fMRI数据重现视频图像的新型AI工具

理解人类认知使得从脑部过程中重建人类视觉变得有趣,尤其是在使用功能性磁共振成像(fMRI)等非侵入性技术时。在从非侵入性脑部记录中恢复静止图像方面已经取得了很大进展,但对于连续的视觉体验(如电影)则没有太多进展。 虽然非侵入性技术只能收集有限的数据,因为它们的稳健性较差,容易受到噪声等外界影响。此外,收集神经影像数据是一项耗时且昂贵的过程。 尽管面临这些挑战,但已经取得了一些进展,尤其是通过稀疏fMRI-注释对学习有用的fMRI特征。与静态图像不同,人类的视觉体验是一种不间断、不断变化的景象、动作和物体。因为fMRI测量血氧水平依赖(BOLD)信号,并每隔几秒钟拍摄一次脑部活动的图片,所以恢复动态视觉体验可能很困难。每个fMRI读数可以被视为扫描期间脑部活动的“平均值”。相反,标准视频的帧速率为每秒30帧(FPS)。在获取一个fMRI帧的时间内,可以显示60帧的视频帧作为视觉刺激,这可能使受试者接触到各种各样的物体、动作和场景。因此,通过fMRI解码以比fMRI的时间分辨率更高的FPS检索电影是具有挑战性的。 新加坡国立大学和中国香港中文大学的研究人员引入了MinD-Video,这是一个模块化的脑部解码流水线,包括独立训练的fMRI编码器和增强的稳定扩散模型,然后进行微调。所提出的模型在不同阶段从脑部获取数据,扩展其对语义领域的知识。 首先,团队使用大规模无监督学习和脑部建模来训练通用的视觉fMRI特征。接下来,他们使用注释数据集的多模态性提取语义相关特征,并在对比学习空间的fMRI编码器中进行对比学习训练。然后,使用专门针对fMRI输入的增强稳定扩散模型与学习的特征进行共同训练,以进一步完善它们。 研究人员为生成场景动态视频的稳定扩散模型添加了近帧焦点。他们还开发了一个对抗性引导系统,以针对特定目的调整fMRI扫描。检索到了高质量的视频,并且它们的语义,如动作和场景动态,完全准确。 团队使用视频和帧级别的语义和像素指标评估了结果。在语义指标方面的准确率达到了85%,在SSIM方面为0.19,这一方法比先前最先进的方法提高了49%。研究结果还表明,根据注意力研究的结果,该模型似乎具有生物学上的合理性和可解释性,它映射到视觉皮层和更高级的认知网络。 由于个体差异,该技术在不同受试者之间的普适性尚在研究中。此方法在重建中仅使用了不到10%的皮层体素,而完全利用大脑数据的潜力尚未发挥。研究人员认为,随着构建更复杂的模型,该领域可能在神经科学和脑机接口等领域得到应用。

Leave a Comment

来自德克萨斯大学奥斯汀分校和加州大学伯克利分校的研究人员推出环境扩散:一种仅以损坏数据作为输入来训练/微调扩散模型的人工智能框架

对于学习高维分布和解决逆问题,生成扩散模型正在成为灵活而强大的框架。由于最近的几个进展,像Dalle-2、Latent Diffusion和Imagen这样的文本条件基础模型在通用图片领域取得了显著的性能。扩散模型最近展示了它们从训练集中记忆样本的能力。此外,一个对模型具有简单查询访问权限的对手可以获取数据集样本,引发隐私、安全和版权问题。 研究人员提出了第一个能够从严重受污染样本中学习未知分布的扩散基础框架。这个问题在科学背景下出现,因为获取清洁样本困难或昂贵。由于生成模型从未接触过清洁训练数据,它们不太可能记忆特定的训练样本。核心概念是在扩散过程中通过引入额外的测量失真进一步损坏原始畸变图像,然后挑战模型从另一个损坏图像中预测原始损坏图像。科学研究验证了这种方法能够生成能够根据这种额外的测量失真获取完整未受损图像的条件期望的模型。修补和压缩感知是这种泛化的两种损坏方法。通过在行业标准基准数据集上训练它们,科学家们展示了他们的模型可以学习分布,即使所有训练样本缺少90%的像素。他们还证明,即使没有记忆训练集,基础模型也可以在小规模损坏数据集上进行微调,并学习到清洁分布。 显著特征 这项研究的核心概念是进一步扭曲图像并迫使模型从图像中预测扭曲的图像。 他们的方法使用损坏的训练数据在流行的基准数据集(CelebA、CIFAR-10和AFHQ)上训练扩散模型。 研究人员根据学习到的条件期望为所需分布p0(x0)提供了一个粗略的采样器。 正如研究所示,即使缺少高达90%的像素,人们仍然可以对原始照片的分布了解很多。他们的结果比先前最佳的AmbientGAN和自然基准更好。 在训练过程中从未见过清洁图像的模型被证明在处理特定逆问题时表现出与最先进的扩散模型类似或更好的性能。而基准方法需要很多扩散阶段,这些模型只需要一个预测步骤就能完成任务。 该方法被用于进一步改进研究社区中标准的预训练扩散模型。从少量受损样本中学习分布是可能的,而且细调过程只需要在单个GPU上几个小时。 一些在不同领域的已损坏样本也可以用于微调像Deepfloyd’s IF这样的基础模型。 为了量化学习效果,研究人员通过展示与训练样本的最高相似性分布来比较使用和不使用损坏进行训练的模型。 通过在足够扭曲的数据上训练的模型被证明不会保留任何原始训练数据的知识。他们评估了失真(决定记忆水平)、训练数据和学习生成器质量之间的权衡。 限制 失真程度与生成器的质量成反比。当失真程度增加时,生成器学习记忆的可能性减少,但代价是质量下降。对这种权衡的精确定义仍然是一个未解决的研究问题。为了估计使用训练模型的E[x0|xt],研究人员在这项工作中尝试了基本的近似算法。 此外,为了对任何训练样本的保护提供严格的隐私保证,需要建立关于数据分布的假设。补充材料显示,修复预测器可以精确恢复E[x0|xt],尽管研究人员没有提供具体的技术。 如果测量中还包含噪声,则此方法将无法正常工作。使用SURE正则化可能有助于未来的研究克服这个限制。

Leave a Comment

LLM优于强化学习-遇见SPRING:一种创新的LLM提示框架,旨在实现上下文连贯思考规划和推理能力

SPRING是一种基于LLM的策略,在需要多任务规划和推理的交互环境中胜过强化学习算法。 卡内基梅隆大学、NVIDIA、亚里尔大学和微软的一组研究人员调查了使用大型语言模型(LLM)在游戏的背景下理解和推理人类知识的可能性。他们提出了一种名为SPRING的两阶段方法,其中涉及研究学术论文,然后使用问答(QA)框架来证明所获得的知识。 关于SPRING的更多细节 在第一阶段,作者阅读了Hafner(2021)的原始论文的LaTeX源代码,提取先验知识。他们使用LLM提取相关信息,包括论文中记录的游戏机制和期望的行为。然后,他们使用类似于Wu等人(2023)的QA摘要框架生成基于提取的知识的QA对话,使SPRING能够处理多样的上下文信息。 第二阶段专注于使用LLM进行上下文推理,以解决复杂的游戏。他们构建了一个有向无环图(DAG)作为推理模块,其中问题是节点,问题之间的依赖关系表示为边。例如,问题“对于每个动作,需求是否满足?”与问题“前五个动作是什么?”在DAG中有链接,从后者到前者建立了依赖关系。 通过按拓扑顺序遍历DAG,计算每个节点/问题的LLM答案。DAG中的最后一个节点表示关于采取的最佳行动的问题,LLM的答案直接转化为环境行动。 实验和结果 “Crafter Environment”是Hafner(2021)介绍的一个拥有22个成就的开放世界生存游戏,按照深度为7的技术树进行组织。游戏被表示为一个网格世界,具有自上而下的观察和由17个选项组成的离散动作空间。观察还提供有关玩家当前库存状态的信息,包括生命值、食物、水、休息水平和库存物品。 作者将SPRING与Crafter基准测试中的流行RL方法进行了比较。随后,对体系结构的不同组成部分进行了实验和分析,以考察每个部分对LLM的上下文“推理”能力的影响。 来源:https://arxiv.org/pdf/2305.15486.pdf 作者将各种RL基准与SPRING和基于Hafner(2021)环境论文的GPT-4的性能进行了比较。SPRING在游戏得分方面超过了以前的最先进(SOTA)方法,相对提高了88%,在奖励方面相对最佳RL方法(Hafner等人,2023)提高了5%。 值得注意的是,SPRING利用了阅读论文的先验知识,并且不需要任何训练步骤,而RL方法通常需要数百万次的训练步骤。 来源:https://arxiv.org/pdf/2305.15486.pdf 上图显示了不同任务的完成率的图表,将SPRING与流行的RL基准进行了比较。在技术树较深(深度达到5)且通过随机探索难以达到的成就(如“制作石镐”、“制作石剑”和“收集铁”)方面,SPRING借助先验知识的力量,表现超过RL方法十倍以上。 此外,SPRING在成就“吃牛肉”和“收集饮料”方面表现完美。与此同时,基于模型的RL框架(如Dreamer-V3)在“吃牛肉”方面的解锁率显著较低(低了五倍),这是因为通过随机探索达到移动牛的挑战。值得注意的是,尽管通过随机探索很容易实现,但SPRING不采取“放置石头”这个行动,因为在Hafner(2021)的论文中并未讨论该行动对代理有益。 限制 使用LLM与环境进行交互的一个限制是需要进行物体识别和定位。然而,在提供准确物体信息的环境中,如当代游戏和虚拟现实世界,这个限制是不存在的。虽然预训练的视觉骨干在游戏中表现困难,但在类似真实世界的环境中表现得相当不错。视觉语言模型的最新进展表明了未来在视觉语言理解方面的可靠解决方案的潜力。 结论 总之,SPRING框架展示了语言模型(LLMs)在游戏理解和推理方面的潜力。通过利用学术论文中的先前知识和采用上下文思维链的推理,SPRING在Crafter基准测试中超越了先前的最先进方法,在游戏得分和奖励方面取得了显著的改进。这些结果突显了LLMs在复杂游戏任务中的强大能力,并暗示了未来视觉语言模型的进一步发展可以解决现有的限制,为可靠且具有普适性的解决方案铺平道路。

Leave a Comment

新加坡国立大学(NTU)的研究人员推出了ResShift:一种新的上采样模型,它利用残差位移技术,相比其他方法更快地实现图像超分辨率

低级视觉中的一个基本问题是图像超分辨率(SR),其目标是从低分辨率(LR)图像恢复高分辨率(HR)图像。由于现实环境中降级模型的复杂性和不可知性,这个问题需要解决。扩散模型是一种最近开发的生成模型,在创建图像方面取得了非凡的成功。它还在解决一些下游低级视觉问题方面显示出了显著的潜力,如图像编辑、图像修补和图像上色。此外,研究人员仍在努力确定扩散模型在困难且耗时的SR任务中的表现如何。 一个典型的方法是从头开始,将LR图像引入当前扩散模型(如DDPM)的输入后,使用SR的训练数据重新训练模型。另一种常见方法是在生成所需的HR图像之前,修改无条件预训练扩散模型的反向路径。不幸的是,这两种算法都继承了支撑DDPM的马尔可夫链,可能在推理中效率低下,有时需要几百甚至几千个采样步骤。尽管已经提出了几种加速方法来压缩推理中的采样阶段,但这些策略通常会导致性能显著降低和结果过于平滑。 图1比较了近年来包括BSRGAN、RealESRGAN、SwinIR、DASR和LDM在内的最新技术的质量。对于LDM和他们的方法,他们使用公式“LDM(或我们的)-A”来表示可视化的采样步骤数量,其中“A”是总的采样步骤数。请放大以获得更清晰的查看。 必须创建一种新颖的用于SR的扩散模型,以实现效率和性能的统一,而不会牺牲其中任何一项。让我们回顾一下用于图像生成的扩散模型。在正向过程中,通过许多步骤在观测数据上逐渐构建马尔可夫链,将其转化为预先指定的先验分布,通常是传统的高斯分布。然后,可以通过从先验分布中采样噪声图像并将其输入到马尔可夫链的反向路径中来生成图像。尽管高斯先验对于图像生成是一个不错的选择,但对于SR来说可能不是最佳选择,因为LR图像已经可用。 根据他们在这项研究中的论证,用于SR的适当扩散模型应该以基于LR图像的先验分布为基础,从而实现从LR图像到HR图像的迭代恢复,而不是基于高斯白噪声。这样的设计还可以减少采样所需的扩散步骤数量,提高推理的效率。南洋理工大学的研究人员提出了一种有效的扩散模型,它使用较短的马尔可夫链在HR图像和其等效的LR图像之间进行切换。马尔可夫链的初始状态近似于HR图像的分布,而其结束状态近似于LR图像的分布。 他们精心设计了一个过渡核,逐步调整它们之间的残差,以实现这一目标。残差信息可以在多个阶段中快速传递,使该技术比当前基于扩散的SR方法更加高效。此外,他们的体系结构使得可以以清晰、分析的方式表达证据的下限,简化训练优化目标的归纳过程。他们基于这个构建的扩散核心创建了一个高度灵活的噪声调度,调节残差的移动速率和每个步骤中的噪声水平。 通过调整其超参数,该调度方案可以在检索结果的保真度和真实性之间进行权衡。简而言之,以下是本研究的重要贡献: • 他们为SR提供了一种有效的扩散模型,通过在推理过程中移动两者之间的残差,允许从不理想的LR图像到期望的HR图像的迭代采样过程。广泛的研究表明,他们的方法在效率方面具有优势,只需要15个简单步骤即可获得理想的结果,超过或至少与现有的基于扩散的SR技术相等,后者需要一个冗长的采样过程。图1显示了他们的检索结果与现有技术的对比。 • 对于建议的扩散模型,他们开发了一个高度可变的噪声调度,可以更准确地控制过渡过程中的残差和噪声水平的变化。

Leave a Comment

DeepMind人工智能通过为数百万个视频自动生成描述,为YouTube Shorts的曝光量提供了强大支持

DeepMind与YouTube合作推出了一款先进的AI模型Flamingo,旨在增强YouTube Shorts视频的可搜索性。这些短视频剪辑类似于流行的TikTok平台,通常需要更多的描述性文本和有意义的标题,以便用户更容易找到特定内容。然而,引入Flamingo后,用户现在可以更轻松地发现这些视频。 Flamingo利用其先进的视觉语言模型,通过分析YouTube Shorts视频的初始帧生成解释性文本。例如,它可以将场景描述为“一只猫在玩毛线球”。这个生成的文本被存储为元数据,实现了更高效的视频分类和搜索引擎可访问性。 Flamingo的影响已经显现,数十万个新上传的Shorts视频受益于AI生成的描述。YouTube计划逐步将这项技术应用于所有的Shorts视频,使全球观众更容易找到它们。 Flamingo代表了DeepMind和YouTube之间的最新合作,进一步巩固了DeepMind和Google Brain合并为一个统一的AI业务团队的决策,这一决策是由Google在今年四月宣布的。他们之前的合作项目包括利用DeepMind的AI模型MuZero来增强YouTube的VP9编解码器,以实现压缩传输。此外,DeepMind和YouTube在2018年合作,教育视频创作者如何通过与YouTube政策保持一致来最大化收入。这个合作伙伴关系导致了一个标签质量模型(LQM)的开发,确保更准确的内容标签以提高广告精度,并在平台上建立观众、创作者和广告商之间的信任。 继续他们富有成果的合作,DeepMind和YouTube致力于通过引入视频章节来提升用户体验。这一发展带来了一个能够自主处理视频和音频内容转录的AI系统,为章节分割和标题提供建议。这一革命性的功能被称为AutoChapters,并在2022年的Google I/O大会上由CEO Sundar Pichai公布。有了AutoChapters,用户再也不需要费力地搜索冗长的视频,因为AI系统能够迅速识别关键部分。这个功能已经应用于800万个视频,并且DeepMind计划在未来一年将其推广到8000万个视频。 关于Flamingo,YouTube Shorts制作团队明确表示,AI模型生成的元数据对创作者不可见。主要目标是显著提高搜索准确性。此外,谷歌确保Flamingo生成的文本符合其严格的责任标准,避免对视频内容进行负面描述。 随着Flamingo开始革新YouTube Shorts视频的可搜索性,其AI标签能力的准确性将受到密切关注。在这个先进AI技术的时代,Flamingo证明了DeepMind和YouTube之间的合作。通过他们的共同努力,他们不断重新定义AI创新的边界,为创作者和观众创造了更具吸引力和可访问性的环境。

Leave a Comment

此AI研究就大型语言模型(LLMs)的限制和能力在组合任务上进行了实证和理论的探讨

ChatGPT正成为热门话题,每天有数百万人在使用。凭借其惊人的能力,如问答、生成独特而富有创意的内容、总结海量文本数据、代码补全以及开发非常有用的虚拟助手,ChatGPT使我们的生活更加便捷。ChatGPT由OpenAI开发,基于GPT 3.5(生成式预训练变换器)和GPT 4的变换器架构。GPT 4是由OpenAI发布的最新版本的语言模型,具有多模态性,即它以文本和图像的形式输入,与之前的版本不同。甚至其他大型语言模型(LLM),如PaLM、LLaMA和BERT,也被用于涉及医疗保健、电子商务、金融、教育等各个领域的应用中。 一组研究人员在最近发布的研究论文中强调了类似GPT这样的大型语言模型在复杂任务上表现出色而在简单任务上的困难。研究团队对三个代表性的组合任务进行了实验:多位数相乘、逻辑网格谜题和经典的动态规划问题。这些任务涉及将问题分解为较小的步骤,并将这些步骤组合起来产生准确的解决方案。 为了研究变换器在解决需要多步推理的组合任务方面的限制,作者提出了两个假设。第一个假设是变换器通过将多步推理线性化为路径匹配来完成任务,因此依赖于模式匹配和快捷学习,而不是真正理解和实现开发正确解决方案所需的底层计算规则。这种方法在训练期间可以快速准确地预测相似模式,但无法推广到不常见的复杂示例。第二个假设认为,在尝试解决具有独特模式的高复杂性组合任务时,变换器可能存在固有限制。早期的计算错误可能会传播并导致后续步骤中的严重错误,阻止模型获得正确解决方案。 为了研究这两个假设,作者将组合任务形式化为计算图,以便调查。这些图将解决问题的过程分解为更小、更易管理的子模块化功能步骤,从而实现问题复杂性的结构化度量,并将计算步骤的语言化作为语言模型的输入序列。他们甚至使用信息增益来预测模型可能基于底层任务分布而学习的模式,而无需在图中进行完整的计算。 基于实证结果,作者提出变换器通过将多步推理简化为线性子图匹配来处理组合挑战。他们提供了基于抽象多步推理问题的理论论证,强调随着任务复杂性的增加,变换器的性能迅速下降。这表明模型在处理极度复杂的组合问题方面可能已经受到限制。 总的来说,实证和理论结果表明,与对底层思维过程的深入理解相比,变换器的性能主要受到模式匹配和子图匹配的驱动,这也支持变换器在执行越来越困难的任务时可能遇到困难的观点。

Leave a Comment

英伟达帮助创建论坛,为3D世界制定OpenUSD标准

NVIDIA今天与Pixar、Adobe、Apple和Autodesk联合创立了Alliance for OpenUSD,这是迈向解锁下一个3D图形、设计和仿真时代的重要一步。 该联盟将标准化并扩展OpenUSD,这是开源的通用场景描述框架,是互操作的3D应用和项目的基础,涵盖从视觉效果到工业数字双胞胎等各种领域。 几家领先的3D生态系统公司已经成为该联盟的首批普通会员,包括Cesium、Epic Games、Foundry、Hexagon、IKEA、SideFX和Unity。 标准化OpenUSD将加速其采用,创建一个基础技术,将帮助当前的2D互联网演变成3D网络。许多公司已经与NVIDIA合作开创这个未来。 从摩天大楼到跑车 OpenUSD是NVIDIA Omniverse的基础,这是一个用于连接和构建3D工具和应用的开发平台。Omniverse正在帮助Heavy.AI、Kroger和Siemens等公司构建和测试工厂、零售店、摩天大楼、跑车等物理精确模拟。 对于宜家来说,OpenUSD代表着“一种非专有的标准格式,用于编写和存储3D内容,以更紧密地连接我们的价值链,并以更低的价格开发家居解决方案,”宜家的创新经理Martin Enthed在联盟今天发布的新闻稿中说。 “通过加入该联盟,我们展示了我们对OpenUSD为客户提供的优势的承诺,这些优势包括与基于云的平台(包括Nexus、Hexagon的制造平台HxDR、Hexagon的数字现实平台和NVIDIA Omniverse)连接以在其行业中构建创新解决方案,”Hexagon的CTO Burkhard Boeckem说。 OpenUSD的起源 Pixar于2012年开始开发USD作为其特色电影的3D基础,提供跨数据和工作流程的互操作性。四年后,该公司将这项功能强大、多方面的技术开源,以便任何人都可以使用OpenUSD并为其发展做出贡献。 《寻梦环游记》中的场景分解与最终图像对比。USD在创造这部电影的复杂世界中起到了重要作用。© Disney/Pixar OpenUSD支持构建虚拟世界的要求,如几何、相机、灯光和材料。它还包括适用于大规模复杂数据集的功能,并且具有极高的可扩展性,使得这项技术能够适应视觉效果以外的工作流程。 OpenUSD的图示,展示了它作为大规模工业工作流程技术的强大能力。 OpenUSD的一个独特能力是其分层系统,它可以让用户实时协作而不会相互干扰。例如,一个艺术家可以建模一个场景,而其他人则为其创建照明。 打造共享标准 作为首要任务,该联盟将制定一个描述OpenUSD核心功能的规范。这将提供给工具构建者一个实施的指南,鼓励广泛应用开放标准于各种用例。…

Leave a Comment

“医疗保险类型和现代技术”

医疗保险可以为您节省大量资金,尤其是如果您将使用当代技术在这里,我们将探讨它是如何运作的以及它如何节省金钱各种保险应用开发服务提供开发此类应用程序的工具它们帮助人们快速获得所需的服务例如,现代保险应用程序使用…医疗保险类型和现代技术阅读更多»

Leave a Comment

通过预测糖尿病视网膜病变的阶段来预防视力丧失

介绍 糖尿病视网膜病变是一种导致视网膜血管变化的眼部疾病。如果不及时治疗,会导致视力丧失。因此,检测糖尿病视网膜病变的阶段对于预防眼盲至关重要。本案例研究旨在从糖尿病视网膜病变症状中检测眼盲,以防止患者眼盲。这些数据是通过各种训练有素的临床专家使用眼底相机(拍摄眼部后部的相机)在农村地区收集的。这些照片是在各种成像条件下拍摄的。2019年,Kaggle举办了一个竞赛(APTOS 2019盲人检测),用于检测糖尿病视网膜病变的阶段;我们的数据来自同一个Kaggle竞赛。早期发现糖尿病视网膜病变可以加快治疗并显著降低视力丧失的风险。 训练有素的临床专家的人工干预需要时间和精力,尤其是在不发达国家。因此,本案例研究的主要目标是使用高效的技术来检测疾病的严重程度,以预防眼盲。我们采用深度学习技术来获得对疾病严重程度进行分类的有效结果。 学习目标 了解糖尿病视网膜病变:了解眼部疾病及其对视力的影响,强调早期检测的重要性。 深度学习基础知识:探索深度学习的基础知识及其在诊断糖尿病视网膜病变中的相关性。 数据预处理和增强:了解如何有效地准备和增强用于训练深度学习模型的数据集。 模型选择和评估:学习选择和评估用于严重程度分类的深度学习模型。 实际部署:了解使用Flask进行实际预测的最佳模型的部署。 本文是数据科学博客马拉松的一部分。 业务问题 在这里,人的病情严重程度被分为五个类别,即多类别分类,因为一个人只能被识别为其中一种严重程度。 业务约束 在医疗领域,准确性和可解释性非常重要。因为错误的预测会导致忽视病情,可能夺走一个人的生命,我们没有任何严格的延迟关注,但我们必须对结果准确。 数据集描述 数据集包括3,662张已标记的临床患者视网膜图像,训练有素的临床专家根据糖尿病视网膜病变的严重程度对每个图像进行分类,如下所示。 0 — 无糖尿病视网膜病变, 1 — 轻度, 2 —…

Leave a Comment

2023年最佳18款基于人工智能的网站建设工具

10Web 为了帮助网站所有者更有效地创建和管理他们的网站,10Web提供了一个由AI驱动的WordPress平台。该平台具有AI助手、AI构建器、自动化WordPress托管、BuddyBoss托管、一键迁移、实时备份、安全性和页面速度提升等技术。AI构建器的拖放式Elementor编辑器使用户可以使用AI在几分钟内设计或复制任何网站。 TeleportHQ TeleportHQ是一个由AI驱动的网站和UI构建器,使用OpenAI生成的代码。它为网站设计师提供了更快速和准确的建站方式。开发人员可以使用TeleportHQ的Vision API,将手绘线框转换为数字设计,快速从概念到工作原型。 用户可以使用AI从预制模板开始创建整个网站或特定组件。此外,TeleportHQ还提供了一个低代码环境,用于编辑和协同编辑代码,一个适用于Figma的线框插件,以及快速学习如何使用系统的教程。 AiDA Bookmark的人工智能设计助手(AiDA)通过创建和优化网站来提高用户互动和销售。它使用专利的机器学习算法来分析数百万个数据点,并偶尔提供独特的优化建议,从而消除与网站设计相关的90%的痛点。 AiDA还将提供改进用户网站的建议,以使访问者享受最佳的体验。用户还可以指定AiDA关注特定的业务目标,如生成更多的预约、提高电子商务页面浏览量、生成更多的电子邮件潜在客户、生成更多的电话呼叫,并关注特定的网站区域。 Durable AI Durable AI是一个先进的网站构建工具,利用人工智能(AI)帮助企业主快速简单地创建专业网站。Durable提供了AI生成的功能,如名称生成器、专业图片、AI编写的文本和自定义域名,让用户只需30秒就能构建自己的网站。 编辑器还允许更大程度的网站定制,包括添加标志、图片、独特对象等。Durable提供的其他功能还包括发票、客户关系管理工具、创建促销材料等,一切都在一个地方。 Appy Pie Appy Pie的无代码AI平台可以实现无编码应用程序创建和流程自动化。用户可以利用其拖放功能将他们的数据合并和简化为一个数据源,使之变得简单。他们的平台与不同的数据源和应用程序之间提供无缝的接口,打破了所有关于无代码的障碍和限制。这个平台吸引那些注重效率和价格的人,因为它价格实惠,并且比竞争对手更快地将产品推向市场。 任何需要工作流或业务流程自动化软件的人都可以使用Appy Pie的无代码AI平台,因为它结构良好、易于使用且价格合理。 B12 B12是一个专为专业服务提供商设计的平台和网站构建工具。它的功能使吸引客户、达成交易、满足客户和简化企业流程变得简单。B12的AI驱动平台会自动生成一个行业特定的网站草稿,分配一个包括文案、设计和发布专业人员的团队,帮助定制和发布网站。 OReilly、FastCompany、TechCrunch、The Wall Street…

Leave a Comment

你的模型好吗?深入了解Amazon SageMaker Canvas高级指标

如果你是一名业务分析师,了解客户行为可能是你最关心的事情之一了解客户购买决策背后的原因和机制可以促进收入增长然而,客户流失(通常称为客户流失)始终存在风险了解客户离开的原因可以获得洞察力,可以帮助企业采取措施来减少客户流失

Leave a Comment

一项新的人工智能研究提出了PanGu-Coder2模型和RRTF框架,有效地提升了预训练大型语言模型用于代码生成的能力

大型语言模型(LLMs)近几个月来引起了大量关注。这些模型通过回答相关问题、生成精确内容、翻译语言、总结长文本段落以及完成代码示例等方式模仿人类。LLMs正在迅速发展,定期推出强大的模型,展示出在代码生成任务中出色的性能。研究人员已经探索了几种技术,包括有监督的微调、指导微调、强化学习等,以提高预训练代码LLMs生成代码的能力。 最近的一项研究中,来自华为云有限公司、中国科学院和北京大学的研究人员团队引入了一种名为RRTF(Rank Responses to align Test&Teacher Feedback)的独特框架,成功而高效地增强了预训练大型语言模型的代码生成能力。RRTF框架旨在提高代码LLMs在代码生成活动中的性能,它使用自然语言LLM对齐技术和评级反馈而不是绝对奖励值。 从人类反馈中进行强化学习的方法,例如使用排名响应作为反馈而不是绝对奖励值的InstructGPT或ChatGPT等模型,为这种新颖方法提供了灵感,该方法将自然语言LLM对齐技术应用于代码LLMs。通过应用RRTF框架,该团队还引入了PanGu-Coder2模型,在OpenAI HumanEval基准测试中,该模型以出色的62.20%的一等通过率位居第一位。 通过在StarCoder 15B上使用该方法,该团队超越了PanGu-Coder并取得了所有记录的代码LLMs中最佳性能,证明了RRTF的实用性。对HumanEval、CoderEval和LeetCode三个基准的全面分析表明,代码LLMs在代码创作任务中可能能够超越相同或更大规模的自然语言模型。该研究还强调了高质量数据在提高模型遵循指令和编写代码能力方面的价值。 该团队总结了以下贡献: 引入了RRTF优化模式,该模式具有许多优点,使其成为一个与模型无关、简单直观和高效的方法。 引入了PanGu-Coder2模型,PanGu-Coder2的性能大幅超越原始模型约30%。HumanEval、CoderEval和LeetCode是一些展示这一显著速度提升的基准。 PanGu-Coder2在代码生成方面超越了所有先前发布的代码LLMs,取得了新的最先进成就。 该团队讨论了他们在构建用于代码生成的良好训练数据方面的想法和实践知识。 使用RRTF框架训练了PanGu-Coder2模型,并提供了有关该过程的有益见解。 除了提高代码生成效率,该团队还提出了PanGu-Coder2使用的优化方法,以保证快速推理。这一领域的发现有助于创建现实部署方案,因为高效的推理对于实际应用至关重要。

Leave a Comment