本文是基于以下文章的 https//www.sciencedirect.com/science/article/abs/pii/S0377221723006598 如果您正在阅读这篇文章,您可能知道人工智能(AI)的关键性…
Leave a CommentTag: Editors Pick
大型语言模型(LLMs)在过去几个月取得了巨大的进展,在许多不同领域击败了最先进的基准。人们在使用和研究大型语言模型(LLMs)方面有了明显的增长,特别是在自然语言处理(NLP)领域。除了在SAT、LSAT、医学院考试和智商测试等方面通过甚至超越,这些模型在各种自然语言任务中也显著超过了最先进技术(SOTA)。这些显著的发展引发了关于在日常任务中采用和依赖这些模型的广泛讨论,从医疗建议到安全应用再到分类工作项。 由苹果研究人员提出的一种新的测试范式之一,使用了当前LLMs正在使用的训练数据中可能被排除的表达式。他们表明,LLMs广泛使用了有性别偏见的假设。他们研究了LLMs对其决策的理由,并发现LLMs经常对刻板印象本身进行明确陈述,除了使用关于句子结构和语法的主张,这些主张在更详细的调查中并不成立。LLM的行为与西方文明的集体智慧相一致,至少在用于训练LLMs的数据中编码。找到这种行为模式、分离其原因并提出解决方案至关重要。 语言习得算法的性别偏见 关于语言模型中的性别偏见已经有了广泛的研究和记录。根据研究,无约束的语言模型反映并加剧了所处文化中的偏见。除了自动字幕、情感分析、毒性检测、机器翻译和其他NLP任务,性别偏见还在各种模型中得到了证明。性别不是唯一一个受到这种偏见影响的社会类别;宗教、肤色、国籍、残疾和职业都包括在内。 句子理解中的无意识偏见 人类句子处理文献还广泛记录了使用几种实验方法来证明性别偏见。总之,研究表明,了解文本中名词的有性别类别可以帮助理解,代词通常被认为是指主语而不是宾语。因此,在不太可能的情况下,句子得分可能会下降,阅读速度可能会降低,并且眼动实验中的回归等意外效应可能会发生。 社会对女性的偏见 鉴于性别成见和偏见在当今文化中的存在和普遍性,也许不应该奇怪语言模型的输出也会表现出偏见。从医学和经济学到教育和法律等各个领域都已经记录了性别偏见,但是这些发现的完整调查超出了本研究的范围。例如,研究发现各种学科和教育环境中存在偏见。即使是学前儿童也容易受到刻板印象的负面影响,这可能对自我认知、学业和职业选择以及其他发展领域产生持久影响。 设计 科学家们设计了一个类似于但与WinoBias不同的框架来研究性别偏见。每个研究项目都包括一对描述职业的名词,一个与男性刻板印象相关,另一个与女性刻板印象相关,以及一个男性化或女性化的代词。根据战术的不同,他们预期会有各种不同的反应。此外,根据与句子的词汇成分相关的假设和世界知识,该技术可能会从句子到句子不断变化。 由于研究人员认为WinoBias句子现在已成为多个LLMs的训练数据的一部分,他们在工作中避免使用这些句子。相反,他们按照上述模式构建了15个句子模式。此外,与WinoBias不同,他们不是根据美国劳工部的数据选择名词,而是根据衡量英语使用者对特定表示男性或女性倾向的职业名词看法的研究进行选择。 2023年,研究人员检查了四个对公众开放的LLMs。在模型有许多配置选项时,他们使用了工厂默认设置。他们提供了关于代词和职业选择之间关系的对比结果和解释。 研究人员没有考虑LLMs的行为,例如使用(和不使用)诸如单数they和新代词等性别中立代词,如何反映和影响跨性别个体的现实。鉴于这些二元范式的发现和以往研究的数据缺失,他们推测包含更多性别将对LLM的性能产生更加沉重的影响。在这里,他们承认接受这些假设可能会伤害那些不符合这些简单性别观念的边缘化群体,并且他们对未来研究专注于这些微妙关系并为其带来新的启示表示乐观。 总结 为了确定现有的大型语言模型是否存在性别偏见,研究人员设计了一个简单的场景。WinoBias是一个流行的性别偏见数据集,预计已包含在现有LLM的训练数据中,而这个范式扩展了但又有所区别于该数据集。研究人员检查了2023年第一季度发布的四个LLM。他们发现不同模型之间存在一致的结果,表明他们的发现可能适用于当前市场上的其他LLM。他们显示LLM对男性和女性存在性别偏见的假设,特别是那些符合人们对男性和女性职业的观念,而不是基于来自美国劳工局的数据揭示的情况的观念。其中一个关键发现是: (a) LLM在决定哪个代词最有可能指代哪个性别时使用了性别刻板印象;例如,LLM使用代词“他”指代男性,“她”指代女性。 (b) LLM倾向于放大关于女性的性别偏见观念,而不是男性。虽然LLM在特定提示下普遍观察到这一点,但在自由发挥时很少这样做。 (d) LLM对其决策给出似乎有权威性的理由,但这些理由往往是错误的,可能掩盖了其预测背后的真正动机。 这些模型的另一个重要特征因此被揭示出来:由于LLM是在有偏见的数据上进行训练的,即使在使用人类反馈进行强化学习时,它们也倾向于反映和加剧这些偏见。研究人员坚持认为,就像其他形式的社会偏见一样, marginalized people and…
Leave a Comment令人难以置信的大型语言模型(LLM)的引入在人工智能领域具有划时代的意义。由于这些复杂算法受到大量数据和计算能力的驱动,人类与技术的互动方式发生了变化。人工智能正在改变人与机器的互动方式,而借助于LLM的强大能力,许多领域正在得到革命性的改变。 Transformer模型需要前馈层,因为它们对模型的性能至关重要。这些层负责转换输入数据,并且对模型的性能起着核心作用。近年来,Transformer模型的规模不断扩大,其前馈层现在包含数万个隐藏神经元。因为模型规模的增长导致了推断过程中更高的计算开销,因此寻找加速前馈层计算的策略至关重要。 在非常大的网络中,只需要前馈隐藏神经元的一小部分就足以确定给定输入的输出。为了应对这一认识,人们努力创建利用这种现象的模块化网络。最近在这个领域的研究集中在鼓励前馈层稀疏性的架构布局上。这些设计要求训练一个门控层,在推断过程中选择要使用的专家,并将前馈层细分为不同的神经元块。这种方法增加了训练复杂性,缩短了推断时间,但也依赖于有噪声的门控。 作为现有方法的替代方案,来自苏黎世联邦理工学院的两位研究人员引入了快速前馈(FFF)架构。FFF使用可微分的二叉树,将输入空间分为多个区域,同时学习每个区域的边界和相关的神经元块。与传统的前馈层和模块化技术相比,FFF具有优势。它通过对数时间访问特定的神经元块,降低了推断时间。这与之前方法的前馈层宽度线性扩展形成对比。 FFF与混合专家(MoE)方法进行了比较,后者也使用专家块但包含有噪声的门控。FFF避免了这种噪声,并通过减少计算复杂性实现了更快的推断。研究人员还强调了FFF取得的令人印象深刻的速度增益。它指出,FFF比传统的前馈网络快220倍,这表明在计算效率方面有了显著改进。例如,FFF在视觉Transformer中的应用被强调,声称FFF在仅使用1%的神经元的情况下可以保持94.2%的预测性能。 总之,FFF的设计无疑是提高神经网络计算效率的一种划时代的方法。与专家混合网络相比,它表现出色,并且与典型的前馈网络相比,推断时间大大缩短。FFF的训练特性,如无噪声的条件执行以及在使用较少神经元的情况下达到良好的预测准确性,也是其主要特点。这些发展有潜力加快和提高巨型模型的性能,从而革新深度学习行业。
Leave a Comment大型语言模型(LLMs)在文本生成任务以及其他自然语言处理任务中取得了重大进展。生成能力的一个基本组成部分是生成结构化数据的能力,在先前的研究中引起了广泛关注。然而,LLMs在生成复杂的结构化输出方面仍然表现不佳,这是各种应用的关键技能,从自动报告撰写到编码帮助。此外,对LLMs生成结构化输出的能力进行的研究相对较少;大多数对LLMs的评估都集中在自发文本或代码开发上。这引发了一个问题,即LLMs能否很好地生成复杂的结构化数据。 耶鲁大学、浙江大学、纽约大学和苏黎世联邦理工学院的研究人员旨在对这些开放问题进行彻底分析并加以解决。首先,需要对LLMs生成复杂结构化数据的能力进行更全面的研究。以往评估LLMs在结构化数据上的尝试主要集中在简单的信息提取(IE)任务上,例如提取关系、识别事件和识别命名实体。在这种情况下,IE任务的目标是以井然有序的方式收集提取的数据。相比于以LLM为中心的工作,早期的工作更加任务为中心。使用像BART和T5这样的预训练模型,这些模型可以从文本中生成结构化数据,主要关注的是文本到数据的问题。其次,需要全面评估LLMs的性能或指标。 现有的基准经常使用简单的客观度量标准(如词重叠)来衡量机器生成的内容分类信息的质量。但是,可能需要更多的内容来确定LLMs是否能够提供结构化输出,因为适当的评估标准还应考虑所生成信息的格式。第三,当前的LLMs是否能更准确地遵循人类自然语言输入并提供具有准确格式和无错误内容的输出?本研究试图填补文献中的这些空白,并改进LLMs生成结构化输出的训练数据集和评估标准。 以下是他们的贡献列表:(1)他们创建了一个名为STRUCBENCH的基准,专注于生成原始文本、HTML和LaTeX形式的结构化文本。他们还仔细评估了知名LLMs的能力,发现了内容正确性、格式化、数值推理和管理冗长表格方面的重大问题。(2)他们对知名LLMs在结构化文本生成基准上进行了实证评估,包括重要数据集,并扩展到不同领域,使人们更深入地了解常见错误类型和缺陷的规模。他们的研究结果表明,GPT-3.5和GPT-4在生成准确的输出方面需要帮助,问题主要出在错误的内容、格式不佳、数值推理能力不足以及无法处理冗长表格等方面。(3)他们使用结构感知指令调整来解决这些问题,通过使用ChatGPT创建格式指令,训练LLaMA模型遵循这些格式。对可见和隐藏数据的积极结果表明,这可能显著提高LLMs提供结构化输出的能力。
Leave a Comment生成式人工智能在过去两年取得了巨大的飞跃,这要归功于大规模扩散模型的成功发布。这些模型是一种生成模型,可以用来生成逼真的图像、文本和其他数据。 扩散模型通过从随机噪声图像或文本开始,逐渐添加细节。这个过程被称为扩散,类似于现实世界中物体逐渐变得越来越详细的过程。它们通常在一个大型真实图像或文本数据集上进行训练。 另一方面,视频生成在近年来也取得了显著的进展。它包含了生成逼真和动态视频内容的令人兴奋的能力。这项技术利用深度学习和生成模型生成从超现实的梦幻景观到对我们世界的逼真模拟的视频。 利用深度学习的能力来精确控制视频的内容、空间排列和时间演化,对各种应用领域都具有巨大的潜力,从娱乐到教育等等。 在历史上,这个领域的研究主要集中在视觉线索上,严重依赖于初始帧图像来引导后续的视频生成。然而,这种方法有其局限性,特别是在预测视频的复杂时间动态方面,包括摄像机运动和复杂的物体轨迹。为了克服这些挑战,最近的研究已经转向将文本描述和轨迹数据作为额外的控制机制。虽然这些方法取得了重大进展,但它们也有自己的限制。 让我们来认识一下DragNUWA,它解决了这些限制。 DragNUWA是一个具有细粒度控制的轨迹感知视频生成模型。它无缝集成了文本、图像和轨迹信息,提供了强大和用户友好的可控性。 使用DragNUWA生成的示例视频。来源:https://arxiv.org/pdf/2308.08089.pdf DragNUWA有一个生成逼真视频的简单公式。这个公式的三个支柱是语义、空间和时间控制。这些控制分别通过文本描述、图像和轨迹来实现。 文本控制以文本描述的形式进行。这将意义和语义注入到视频生成中。它使模型能够理解和表达视频背后的意图。例如,它可以区分真实世界中的鱼游泳和一幅画中的鱼。 对于视觉控制,使用图像。图像提供了空间上下文和细节,有助于准确地表示视频中的对象和场景。它们是文本描述的重要补充,为生成的内容增加了深度和清晰度。 这些都是我们熟悉的东西,而真正的区别在于DragNUWA在最后一个组成部分中的应用:轨迹控制。 DragNUWA采用开放域轨迹控制。而以前的模型在处理轨迹复杂性方面存在困难,DragNUWA采用了轨迹采样器(TS)、多尺度融合(MF)和自适应训练(AT)来应对这一挑战。这一创新使得可以生成具有复杂的、开放域的轨迹、逼真的摄像机运动和复杂的物体交互的视频。 DragNUWA概览。来源:https://arxiv.org/pdf/2308.08089.pdf DragNUWA提供了一个端到端的解决方案,将文本、图像和轨迹三个基本的控制机制统一起来。这种整合赋予用户对视频内容的精确和直观的控制能力。它重新构想了视频生成中的轨迹控制。它的TS、MF和AT策略实现了对任意轨迹的开放域控制,使其适用于复杂和多样化的视频场景。
Leave a Comment通过显著提高广泛任务的最新性能和揭示新的新兴技能,大型语言模型(LLM)对NLP研究和应用产生了深远影响。为了将输入文本编码为表示向量,已经进行了仅编码器模型的研究;为了创建文本,已经研究了仅解码器模型;为了完成序列到序列的生成,已经研究了编码器-解码器模型。模型大小和训练数据集的指数级增长,这两者都是最大性能的扩展率所需的,是LLM卓越能力背后的主要推动力。例如,尽管BERT模型只包含几亿个参数,但更现代的基于GPT的模型现在包含数千亿个参数。 庞大的模型大小和庞大的训练数据集是提升大型语言模型(LLM)具有惊人学习能力的主要要素。随着NLP的发展,LLM已逐渐向公众开放,以鼓励进一步的研究和实际应用。然而,这些LLM的训练数据集通常只提供部分,特别是对于最新的最先进模型。需要进行大量数据清理和去重,以创建高质量的LLM训练数据。因此,对训练数据更加开放的需求,阻碍了复制发现和推进LLM中的幻觉和偏见研究领域的努力。在多语言学习场景中,这些困难在通常不充分收集和清理多语言文本集合的情况下更加复杂。因此,目前没有一个可以用于跨语言训练LLM的良好开源数据集。CulturaX是由俄勒冈大学和Adobe Research的学术界合作开发的,包括167种语言的63万亿个标记的大型多语言数据集,旨在解决这个问题。为了确保模型训练的最高质量,数据集经过严格的处理流程,包括多个清理和去重的步骤。这些过程包括识别数据集中的语言、使用URL过滤数据集、使用度量标准清理数据集、优化文档和去重数据。 CulturaX经过全面的文档级清理和去重,以确保跨语言训练LLM的最高质量。数据清理过程使用完整的流水线来消除不准确的信息。这需要消除不准确的语言识别、有毒数据和非语言材料等干扰因素。 主要特点 CulturaX是迄今为止最大的经过全面清理和去重的开源多语言数据集,可用于LLM和NLP应用。 CulturaX提供了一个多语言、开源和庞大的数据集,具有立即可用和高质量的数据,可用于训练LLM,解决当前数据集的许多问题。 虽然存在包含各种语言文本数据的多语言开源数据集,如mC4,但它们的质量和规模不符合高效训练LLM的要求,特别是生成模型如GPT。例如,如介绍中所提到的,mC4和OSCAR都没有提供文档级模糊去重。mC4的语言识别使用cld3的结果较差,这是另一个缺点。虽然CC100确实包含2018年以后的数据,但BigScience ROOTS只为46种语言提供了部分数据的样本。 HuggingFace的CulturaX的完整公开发布将有助于进一步研究多语言LLM及其应用。在这里查看https://huggingface.co/datasets/uonlp/CulturaX 您应该了解一下CulturaX,这是一个包含167种语言的新的多语言数据集。经过全面的工作流程清理和去重后,数据集中含有63万亿个标记。作为一个庞大而高质量的数据集,CulturaX可以轻松用于训练各种语言的有效LLM。这些信息对公众免费提供,并且研究人员希望它可以激发进一步的语言习得研究和实际应用。
Leave a Comment近年来,大型语言模型(LLMs)在人工智能领域获得了重要地位,但它们主要关注文本,并且在理解视觉内容方面存在困难。多模态大型语言模型(MLLMs)应运而生,用于弥合这一差距。MLLMs将视觉和文本信息结合在一个基于Transformer的模型中,使其能够从两种模态中学习和生成内容,标志着人工智能能力的重大进展。 KOSMOS-2.5是一个多模态模型,旨在在统一框架内处理两个密切相关的转录任务。第一个任务涉及生成具有空间感知的文本块,并在文本丰富的图像中为文本行分配空间坐标。第二个任务侧重于以markdown格式生成结构化文本输出,捕捉各种样式和结构。 这两个任务在单个系统下管理,利用共享的Transformer架构、任务特定的提示和可适应的文本表示。该模型的架构结合了基于ViT(Vision Transformer)的视觉编码器和基于Transformer架构的语言解码器,通过一个重采样模块连接起来。 为了训练这个模型,它在大量的文本密集图像数据集上进行了预训练,其中包括带有边界框和纯markdown文本的文本行。这种双任务训练方法增强了KOSMOS-2.5的整体多模态识字能力。 以上图片显示了KOSMOS-2.5的模型架构。KOSMOS-2.5的性能在两个主要任务中进行了评估:端到端的文档级文本识别和以markdown格式从图像生成文本。实验结果展示了它在理解文本密集图像任务方面的强大性能。此外,KOSMOS-2.5在涉及少样本和零样本学习的场景中展示了有前途的能力,使其成为处理文本丰富图像的现实应用的多功能工具。 尽管取得了这些有希望的结果,但当前模型仍面临一些限制,并提供了宝贵的未来研究方向。例如,尽管KOSMOS-2.5在输入和输出涉及文本的空间坐标的情况下进行了预训练,但目前不支持使用自然语言指令对文档元素的位置进行细粒度控制。在更广泛的研究领域中,进一步发展模型扩展能力是一个重要方向。
Leave a CommentBlindChat是由MithrilSecurity推出的开源和注重隐私的ChatGPT替代方案。BlindChat是一个开源的人工智能项目,旨在在Web浏览器中完全运行,不需要任何第三方访问。当前普遍的每日人工智能解决方案通常包括与AI服务提供商共享用户数据以换取AI模型使用。如果用户允许此类情况发生,他们的数据可能会被窃取。由于数据是提高LLM效果的宝贵资源,因此一些方法会隐含地调整用户的数据以更好地训练模型。用户以这种方式运行着有私人信息的LLMs的风险。 通过执行本地推理或使用称为安全隔离环境的安全、隔离环境,BlindChat确保用户的数据始终保持私密,并且用户完全控制数据。 BlindChat主要面向两个受众: 消费者:提供更安全的选择,优先考虑用户隐私。如今,大多数消费者将数据交给AI服务,但隐私设置通常需要明确或不存在。 BlindChat团队为了开发人员的好处,已经做了大量工作,确保平台在配置和部署方面的简单性,以便他们能够更轻松地提供以隐私为设计的对话式人工智能。 MithrilSecurity对程序进行了更改,以使浏览器执行通常由服务器执行的功能。因此,AI服务提供商不包含在信任模型中,因此隐私得到保护。 通过将功能从服务器移至用户端的浏览器,实现了透明且安全的人工智能,保护了终端用户的个人信息,并赋予他们对数据的控制权。例如,变形器允许在本地执行推理。JavaScript还可以将聊天保存在用户的浏览器历史记录中,提供了额外的便利。结果是,AI服务的管理员无法看到用户的任何信息,因此服务被称为“BlindChat”。 在激活遥远的隔离模式时,数据仅传输到服务器。此设置将服务器部署在被称为隔离区的经过验证和安全的容器中,提供了完整的周界防御,并阻止外界访问。即使是隔离区的AI提供商管理员也无法访问用户信息。 MithrilSecurity为用户提供了两种不同的隐私选项: 在设备上设置中,模型会在用户的浏览器上本地下载,并且推理是在本地处理的。 由于可用带宽和处理能力的限制,此模式最适用于较简单的模型。 使用零信任AI API时,信息会传输到一个被称为隔离区的安全位置,模型在其中存储,以便可以进行远程推理。通过强大的隔离和验证,这些设置提供了全面的安全性。任何AI服务提供商都无法以未加密的方式访问其用户的数据。 该项目由三个主要部分组成: 用户界面:用户与Chat进行交互时看到的界面。其中有一个聊天窗口,并且最终将提供用于加载文档和语音控制等功能的小部件和插件。 开发人员完全控制用于处理用户请求的私有LLM。当前的解决方案是本地模型或远程隔离区,以提供透明和机密的推理。 开发人员可配置用于保存聊天记录等数据的存储类型,将来还可配置RAG嵌入。 MithrilSecurity目前仅允许进行LaMini-Flan-T5推理。一旦370M发布,他们打算集成Microsoft phi-1.5以提高性能。客户端上也正在开发LlamaIndex-TS集成,以便在浏览器中本地查询敏感文档时可以使用RAG。
Leave a Comment近年来,人工智能(AI)取得了令人印象深刻的进展,其应用已经扩展到包括医疗保健、银行、交通运输和环境保护在内的各个行业。然而,随着AI的应用扩大,人们对其对环境的影响产生了担忧,尤其是与运行和训练AI模型所需的能源以及由此产生的温室气体排放相关的担忧。例如,目前使用的最强大的AI系统之一GPT-3,在训练过程中产生的排放量相当于五辆汽车在其使用寿命内产生的排放量。 最近的一项研究调查了多个AI系统的环境影响,重点关注它们在撰写和绘画等任务中的能力。研究人员团队将ChatGPT、BLOOM、DALL-E2和Midjourney等各种AI系统产生的排放与人类在执行相同任务时产生的排放进行了比较。撰写文本和制作图像是两个常见的任务。 目标是对比人类执行这些任务与AI执行这些任务的环境影响。该团队通过展示这些成本通常低于人类执行相同活动时支付的成本,尽管与AI相关的环境成本,强调了人类和AI的可互换性。结果显示,在创建文字方面存在明显的差异。 在创建一篇文字页面时,AI系统产生的二氧化碳当量(CO2e)比人类少130到1500倍。这种显著差异突显了AI在此情况下的环境优势。同样,当使用AI创建图像时,AI系统释放的CO2e比人类少310到2900倍。这些数字明确显示了使用AI创建图像时产生的排放量较少。 该团队分享了一个关键的认识,即单独进行排放研究不能提供全面的图景,因为还需要考虑一些重要的社会影响和因素,包括: 职业流动:在某些行业中,使用AI来完成人类过去处理的工作可能导致就业流动。必须妥善处理这种流动的潜在经济和社会影响。 合法性:确保按照道德和法律原则开发和使用AI系统至关重要。必须解决AI生成内容的合法性及其潜在滥用问题,以避免任何损害。 反弹效应:当AI引入不同行业时,可能会出现意想不到的反弹效应。这些结果可能表现为更高的使用或生产。 必须理解并非所有人类功能都可以被AI取代。AI无法完成一些需要人类创造力、同理心和决策能力的任务和职位。然而,目前的研究表明,与人类相比,AI在各种任务中极大地减少了排放的潜力。尽管从环境角度来看,这些结果是令人鼓舞的,但也需要将其纳入更广泛的伦理、经济和社会因素的背景中,以确保AI整合与共享目标和价值观一致。利用AI在完成某些任务时排放显著较少的前景是解决当前环境问题的一种可行方法。
Leave a Comment为了通过生成式AI革新协作,Bard推出了目前最先进的模型。这一创新承诺将成为一场游戏改变者,使用户能够无缝地根据自己的特定需求定制回复。无论是起草旅行计划文件、创建在线市场列表,还是向孩子们解释复杂的科学主题,Bard现在比以往任何时候都更擅长将想法变为现实。 最新的升级包括与Google应用和服务的创新整合,标志着Bard发展的重要里程碑。这个功能名为Bard扩展,使Bard能够从广泛使用的Google工具(如Gmail、Docs、Drive、Google Maps、YouTube以及Google Flights和酒店)中获取和显示相关信息。即使所需信息涉及多个应用和服务,Bard也可以在单一对话中简化过程。 例如,设想计划前往大峡谷的旅行——这往往涉及许多打开的标签页。有了Bard扩展,用户可以让Bard从Gmail中提取适当的日期,检索实时的航班和酒店数据,提供Google Maps导航到机场的路线,甚至策划展示目的地活动的YouTube视频。这种无缝整合承诺革新任务执行方式,将众多功能整合到一个简化的对话中。 在职业发展领域,Bard的能力更加出色。对于正在寻找工作的个人,Bard可以轻松地从Drive中找到特定的简历,将其总结为简明的个人陈述,并协作撰写一个引人注目的求职信。这种新的功能简化了求职过程,展示了Bard作为不可或缺的专业伙伴的潜力。 Bard对保护用户隐私的承诺始终如一。Workspace扩展确保Gmail、Docs和Drive的内容保持机密,无法被人工审核员访问。此外,这些数据不用于定向广告或模型训练。用户完全控制其隐私设置,并可以自行禁用扩展。 一个新的“谷歌一下”功能被引入,以增强对Bard回答的信心。该功能适用于英文,允许用户通过点击指定的“G”图标,让Bard分析其回答并在网上检查相应的内容。这种额外的验证层增强了Bard的贡献的可靠性和准确性。 此外,Bard通过使用户能够在共享对话中进一步开展讨论,促进了无缝协作。当通过公共链接共享Bard聊天时,接收者可以提出后续问题或将其作为自己想法的起点进行延伸。这个功能为用户交流思想和有效协作提供了一个动态和交互的环境。 最后,Bard对包括图像上传与Lens、搜索响应中的图像以及响应修改在内的40多种语言的扩展访问,彰显了该平台对包容性和可访问性的承诺。通过这些更新,Bard巩固了其作为全球用户不可或缺的多功能工具的地位。 总之,Bard的最新增强功能代表了生成式AI的重大进展。通过与Google应用的无缝整合、改进响应验证和扩展语言功能,Bard有望革新用户与AI交互和协作的方式。这些创新标志着Bard在重新定义创造性表达和问题解决方面的重要时刻。要体验最新功能,请今天访问bard.google.com。
Leave a Comment从现实场景中估计人体的三维结构是一项具有重要影响的挑战性任务,对人工智能、图形学和人机交互等领域具有重要意义。现有的用于三维人体姿势估计的数据集通常在受控条件下采集,并且具有静态背景,这不能代表现实世界场景的变异性。这种限制阻碍了为现实世界应用开发精确模型的进展。 现有的数据集,如Human3.6M和HuMMan,广泛用于三维人体姿势估计,但它们是在受控实验室环境中采集的,不能很好地捕捉到现实世界环境的复杂性。这些数据集在场景多样性、人体动作和可扩展性方面存在限制。研究人员提出了各种用于三维人体姿势估计的模型,但由于现有数据集的限制,它们在应用于现实世界场景时往往效果不佳。 中国的一支研究团队引入了“FreeMan”,这是一个新颖的大规模多视角数据集,旨在解决现实世界场景中现有数据集在三维人体姿势估计方面的局限性。FreeMan是一个重要的贡献,旨在促进更精确和更强大的模型在这一关键任务中的发展。 FreeMan是一个全面的数据集,包括来自8000个序列的1100万帧,使用8个同步智能手机在不同场景下捕捉。它涵盖了40个主体和10个不同的场景,包括室内和室外环境,具有不同的光照条件。值得注意的是,FreeMan引入了相机参数和人体尺度的变异性,使其更具代表性。研究小组开发了一个自动化注释流程,从收集的数据中高效生成准确的三维注释。该流程涉及人体检测、2D关键点检测、3D姿势估计和网格注释。由此产生的数据集对于多个任务非常有价值,包括单眼三维估计、2D到3D抬升、多视角三维估计和人体主体的神经渲染。 研究人员使用FreeMan提供了各种任务的全面评估基线。他们将在FreeMan上训练的模型与在Human3.6M和HuMMan等现有数据集上训练的模型进行了比较。值得注意的是,在3DPW数据集上进行测试时,针对FreeMan训练的模型表现出明显更好的性能,突显了FreeMan在现实世界场景中的优越性。 在多视角三维人体姿势估计实验中,与在Human3.6M上训练的模型相比,针对FreeMan训练的模型表现出更好的泛化能力,当在跨领域数据集上进行测试时,结果一致显示了FreeMan多样性和规模的优势。 在2D到3D姿势抬升实验中,FreeMan的挑战是显而易见的,因为在该数据集上训练的模型面临比其他数据集上训练的模型更大的困难等级。然而,当模型在整个FreeMan训练集上进行训练时,它们的性能得到了改善,展示了该数据集通过更大规模的训练来提升模型性能的潜力。 总之,研究团队引入了FreeMan,这是一个在现实世界场景中进行三维人体姿势估计的具有突破性的数据集。他们通过提供场景多样性、人体动作、相机参数和人体尺度的多样性,解决了现有数据集的几个限制。FreeMan的自动化注释流程和大规模数据收集过程使其成为开发更精确和更强大的三维人体姿势估计算法的宝贵资源。研究论文突出了FreeMan相对于现有数据集的优越泛化能力,展示了它在现实世界应用中提高模型性能的潜力。FreeMan的可用性预计将推动人体建模、计算机视觉和人机交互的进步,弥合受控实验室条件和现实世界场景之间的差距。
Leave a Comment最近,强化学习(Reinforcement Learning,RL)算法通过解决研究问题,如蛋白质折叠、在无人机赛车方面达到超人水平,甚至整合……,引起了广泛关注
Leave a Comment首尔国立大学的研究人员在机器人领域面临了一个根本性挑战——在动态环境下高效和适应性地控制机器人。传统的机器人控制方法通常需要大量的特定场景训练,使得计算成本昂贵且在面临输入条件变化时不灵活。这个问题在机器人必须与多样化和不断变化的环境进行交互的实际应用中尤为重要。 为了解决这个挑战,研究团队提出了一种开创性的方法,称为运动-动作-操纵(Locomotion-Action-Manipulation):LAMA。他们开发了一个针对特定输入条件进行优化的单一策略,可以处理各种输入变化。与传统方法不同,这种策略不需要针对每个独特场景进行单独训练,而是通过适应和概括其行为来显著减少计算时间,成为机器人控制的宝贵工具。 所提出的方法涉及训练一个针对特定输入条件进行优化的策略。这个策略在包括初始位置和目标动作在内的输入变化下经过严格测试。这些实验的结果证明了其鲁棒性和泛化能力。 在传统的机器人控制中,通常需要针对不同场景进行单独训练,需要大量的数据收集和训练时间。与这种方法相比,当处理不断变化的真实世界条件时,这种方法可能更加高效和适应。 研究团队的创新策略通过其高度适应性来解决这个问题。它可以处理多样化的输入条件,减少了针对每个特定场景进行大量训练的需求。这种适应性的改变不仅简化了训练过程,而且极大地提高了机器人控制器的效率。 此外,研究团队还对从该策略产生的合成运动的物理合理性进行了全面评估。结果表明,尽管该策略可以有效地处理输入变化,但合成运动的质量是保持的。这确保了机器人的运动在不同场景下保持逼真和物理上合理。 这种方法的最显著优势之一是大幅减少计算时间。在传统的机器人控制中,为不同场景训练单独的策略可能耗时且资源密集。然而,使用针对特定输入条件进行优化的预先训练策略时,无需为每个变化重新训练策略。研究团队进行了比较分析,结果显示使用预先优化的策略进行推理时计算时间显著减少,每个输入对的运动合成平均仅需要0.15秒。相反,为每个输入对从头开始训练策略平均需要6.32分钟,相当于379秒。这种计算时间上的巨大差异突出了这种方法的效率和节省时间的潜力。 这种创新的意义是巨大的。这意味着在机器人必须快速适应不同条件的真实世界应用中,这种策略可以改变游戏规则。它为更具响应性和适应性的机器人系统打开了大门,使它们在时间至关重要的情况下更加实用和高效。 总之,研究提出了一种对机器人在动态环境中进行高效和适应性控制的创新解决方案。所提出的方法,即针对特定输入条件进行优化的单一策略,为机器人控制提供了一种新的范式。 这种策略能够处理各种输入变化而无需进行大量重新训练,是一个重要的进步。它不仅简化了训练过程,而且极大地增强了计算效率。当使用预先优化的策略进行推理时,计算时间的显著减少进一步凸显了其高效性。 合成动作的评估表明,在不同的场景中,机器人运动的质量始终保持较高水平,确保它们保持物理上可行和逼真。 这项研究的影响广泛,潜在应用涵盖了从制造业到医疗保健再到自动驾驶车辆等多个行业。在这些领域中,机器人能够快速、高效地适应变化环境是一个关键特性。 总体而言,这项研究代表了机器人技术的重大进步,为其中最紧迫的挑战提供了有希望的解决方案。它为更加适应、高效、响应灵敏的机器人系统铺平了道路,使我们离一个未来更加无缝融入日常生活的机器人世界更近了一步。
Leave a Comment随着人工智能系统在具有重大影响的应用中的使用不断增加,专家们呼吁在设计这些系统时采用更加参与和价值意识的做法在这方面…
Leave a Comment多年来,跑完一英里在四分钟内被认为不仅是一项令人畏惧的挑战,而且许多人认为是不可能的壮举这是一个心理和身体的标志,许多人认为…
Leave a Comment现代大型语言模型(LLM)在很大程度上依赖于数学推理,这是本文的主要焦点。尽管在这个领域取得了一些进展,但封闭源模型(如GPT-4、PaLM-2和Claude 2)在GSM8K和MATH等流行的数学推理基准中占据主导地位,而开源模型(如Llama、Falcon和OPT)则远远落后。 解决这个差距的两种主要方法是: 持续的预训练,例如Galactica和MINERVA,现在它正在使用链接到数学的超过1000亿个网页数据上训练LLM。虽然计算代价高昂,但这种方法可以提高模型在科学推理方面的能力。 使用每个数据集独特的训练数据,使用拒绝采样微调(RFT)和WizardMath等微调方法来完善LLM。虽然这些方法在其领域内是有效的,但在需要推理的其他数学领域中无法转移。 滑铁卢大学、俄亥俄州立大学、香港科技大学、爱丁堡大学和IN.AI最近的研究探索了一种轻量级但具有普适性的数学指令调整技术,以提高LLM在数学推理能力上的表现(即不仅仅是微调任务)。 目前的方法在很大程度上依赖于思维链(CoT)方法,描述了它们如何以自然语言步骤解决数学问题。但是,当涉及到计算精度和复杂的数学或算法推理方法时,这种方法表现不佳。基于代码的技术,如PoT和PAL,使用第三方资源来简化数学求解过程。 该方法建议将计算密集型任务(例如使用sympy解二次方程或使用numpy计算矩阵特征值)委托给一个独立的Python解释器。另一方面,PoT在处理更抽象的推理场景(如常识推理、形式逻辑和抽象代数)时具有一些局限性,特别是在缺乏现有API的情况下。 为了充分利用CoT和PoT的优势,该团队提出了一个名为MathInstruct的数学混合指令调整数据集。它的主要特点包括: 全面覆盖各种数学领域和复杂程度 混合CoT和PoT的解释。 六个全新选择的和七个现有的数据集为MathInstruct的数学解释提供了基础。从建模的角度来看,研究人员训练和评估了约50个独特模型,基线范围从7B到70B,以了解各种输入输出格式和数据源的影响。 结果表明,这些模型在数学通用性方面表现出色。 研究人员在各种数据集上对MAmmoTH进行了广泛测试,从领域内(IND)到领域外(OOD),例如GSM8K、MATH、AQuA-RAT和NumGLUE。这些模型显著提高了开源LLM在数学推理上的效率,并且在OOD数据集上比最先进的方法具有更好的泛化能力。在流行的竞赛级别MATH数据集上,7B模型的结果超过了WizardMath(开源MATH SoTA)的3.5倍(35.2%对10.7%),而34B MAmmoTH-Coder(在Code Llama上进行了微调)的结果超过了GPT-4(使用CoT)。这些模型中的MAmmoTH和MAmmoTH-Coder都显著提高了以前可用的开源模型的准确性。
Leave a Comment基于Transformer的大型语言模型(LLMs),如GPT、PaLM和LLaMA,已广泛用于各种实际应用中。这些模型已应用于各种任务,包括文本生成、翻译和自然语言解释。然而,这些模型的高推理成本,特别是在对低延迟要求很高的情况下,是一个主要关注点。这些模型使用的自回归解码方法是高推理成本的主要原因。由于自回归解码过程中每个输出令牌是顺序生成的,因此存在大量的Transformer调用。每个Transformer调用的内存带宽受限,导致计算效率低下和执行时间长。 为了加速大型语言模型(LLMs)的推理过程,最近的一项研究引入了一种称为自我推测解码的独特方法,该方法不需要辅助模型。这种方法解决了快速生成推理结果并保持输出质量的问题。它的特点是一个由起草和验证组成的两阶段过程。 起草阶段 – 起草阶段的目标是更快地生成起草令牌,即使它们的质量略低于使用传统自回归方法生成的令牌。为了实现这一目标,该方法在起草过程中绕过了一些中间层。LLMs中的这些中间层通常会改进输出,但它们在推理过程中也会占用大量时间和资源。 验证阶段 – 该技术在起草阶段生成起草输出令牌,然后使用原始未经修改的LLM在单个前向传递中验证它们。使用传统的自回归解码技术,LLM会产生相同的最终结果,这由验证步骤确保。因此,即使起草阶段更快地生成了令牌,最终产品的质量也得到了保证。 自我推测解码不需要进一步的神经网络训练,这是它的主要优点之一。为了实现更快的推理,现有方法常常需要训练辅助模型或对LLM的架构进行重大改变,这可能具有挑战性且资源密集。而自我推测解码是一种“即插即用”的方法,可以在现有LLMs上添加而无需额外的训练或模型修改。 研究为自我推测解码的有效性提供了实证支持。基于LLaMA-2及其改进模型的基准结果显示,自我推测解码方法比传统的自回归方法可以更快地解码数据高达1.73倍。这具有重要的优势,使推理过程大约快两倍,同时保持输出质量,在延迟是一个问题的情况下非常重要。 总之,自我推测解码是一种革命性的方法,改善了大型语言模型推理信息的方式。它通过建立起草和验证的两步过程,选择在起草阶段跳过哪些层以更快地生成令牌,并在验证阶段验证输出质量来实现这一目标。该方法加速了LLM的推理过程,而不会增加任何额外的内存负担或神经网络的训练要求。
Leave a Comment想象一下在陌生的家中准备一杯茶的挑战。完成这个任务的一个高效策略是在几个层次上进行层次化推理,包括一个抽象层次(例如,加热茶所需的高层步骤),一个具体的几何层次(例如,他们应该如何在厨房中移动)和一个控制层次(例如,他们应该如何移动关节来举起杯子)。搜索茶壶的抽象计划在几何层面上也必须是可行的,并且在他们能够执行的行动给定的情况下是可执行的。这就是为什么每个层次上的推理相互一致是至关重要的。在这项研究中,他们调查了能够使用层次化推理的独特长期任务解决机器人的发展。 现在,大型”基础模型”已经在数学推理、计算机视觉和自然语言处理等问题上取得了领先地位。在这种范式下,创建一个能够解决独特的长期决策问题的”基础模型”是一个备受关注的问题。在之前的几项研究中,收集了匹配的视觉、语言和动作数据,并训练了一个单一的神经网络来处理长期任务。然而,扩展耦合的视觉、语言和动作数据收集是昂贵且具有挑战性的。另一方面,较早的研究线路使用特定任务的机器人演示来改进大型语言模型(LLM)在视觉和语言输入上的性能。这是一个问题,因为与互联网上丰富的材料相比,耦合视觉和语言的机器人的示例很难找到,而且编制也很昂贵。 此外,由于模型权重没有开源,目前很难对高性能的语言模型(如GPT3.5/4和PaLM)进行微调。基础模型的主要特点是,相较于从头学习工作或领域,它需要较少的数据来解决新的问题或适应新的环境。在这项工作中,他们寻求一种可扩展的替代方法,用于收集三种模态的配对数据,以构建用于长期规划的基础模型。在解决新的规划任务时,他们能否在仍然相对有效的前提下做到这一点呢? 来自Improbable AI Lab、MIT-IBM Watson AI Lab和麻省理工学院的研究人员建议使用组合式基础模型进行层次化规划(HiP),这是一个由许多在语言、视觉和动作数据上独立训练的专家模型组成的基础模型。由于这些模型是分别引入的,构建基础模型所需的数据量显著减少(图1)。HiP使用一个大型语言模型从抽象语言指令中发现一系列子任务(即规划)。然后,HiP使用一个大型视频扩散模型来收集有关环境的几何和物理信息,以形成一个更复杂的以观察为基础的轨迹规划。最后,HiP使用一个已经训练过的大型逆模型将一系列自我中心的图片转化为动作。 图1:如上所示,组合式基础模型用于层次化规划。HiP使用三个模型:一个任务模型(由LLM表示)生成一个抽象计划,一个视觉模型(由视频模型表示)生成一个图像轨迹规划;以及一个自我中心的动作模型,从图像轨迹中推断出动作。 不需要收集昂贵的跨模态配对决策数据,组合式设计选择使得不同层次的模型可以在层次结构的不同级别上进行推理,并共同做出专业的结论。三个分别训练的模型可能会产生冲突的结果,这可能导致整个规划过程失败。例如,在每个阶段选择具有最高可能性的输出是建立模型的一种简单方法。计划中的一步,例如在柜子里找茶壶,可能在一个模型下有很高的几率,但在另一个模型下可能有零几率,例如如果房子里没有柜子的话。因此,重要的是采样一种策略,该策略能够在所有专家模型中共同最大化可能性。 他们提供了一种迭代改进技术,以确保一致性,利用下游模型的反馈来开发跨多个模型的一致计划。语言模型的生成过程的输出分布包含了每个阶段的当前状态的表示所条件化的似然估计器的中间反馈。同样,动作模型的中间输入改善了开发过程中每个阶段的视频创作。这种迭代改进过程促进了多模型间的共识,创建了既符合目标又在现有状态和代理的基础上可执行的分层一致计划。他们提出的迭代改进方法不需要进行大量模型微调,从而使训练具有计算效率。 此外,他们不需要知道模型的权重,他们的策略适用于所有提供输入和输出API访问的模型。总之,他们提供了一个基于在各种互联网和自我中心机器人数据模态上独立获取的基础模型的组合来创建长程规划的层次规划的基础模型。在三个长程桌面操作情况下,他们展示了有希望的结果。
Leave a Comment大型语言模型(LLMs),如臭名昭著的ChatGPT,在各种自然语言处理任务中取得了令人印象深刻的表现,如机器翻译、文本摘要和问答。它们改变了我们与计算机的交流方式和任务处理方式。 LLMs已经成为具有变革性的实体,推动了自然语言理解和生成的界限。其中,ChatGPT是一个显著的例子,代表了一类设计用于在对话环境中与用户进行交互的LLM。这些模型是在极大的文本数据集上进行了广泛训练的结果。这使它们具备了理解和生成类似人类文本的能力。 然而,这些模型在计算和内存方面非常消耗资源,限制了它们的实际应用。顾名思义,这些模型是庞大的;当我们说庞大时,我们是指真的很大。最近的开源LLM,来自Meta的LLaMa2,包含大约700亿个参数。 减少这些要求是使它们更实用的重要一步。量化是减少LLMs计算和内存开销的一种有希望的技术。有两种主要的量化方式——训练后量化(PTQ)和量化感知训练(QAT)。虽然QAT在准确性方面具有竞争力,但在计算和时间方面代价太高。因此,对于许多量化工作来说,PTQ已经成为首选方法。 现有的PTQ技术,如仅权重和权重-激活量化,已经在内存消耗和计算开销方面取得了显著的降低。然而,它们在低位量化方面往往存在困难,而这对于高效部署至关重要。低位量化中的性能下降主要是由于依赖手工量化参数,导致结果不够优化。 让我们见识一下OmniQuant。它是一种用于LLMs的新型量化技术,在各种量化场景中实现了最先进的性能,特别是在低位设置中,同时保留了PTQ的时间和数据效率。 OmniQuant在LLaMa系列上的特性。来源:https://arxiv.org/pdf/2308.13137.pdf OmniQuant采用了一种独特的方法,冻结原始的全精度权重,并结合一组有限的可学习量化参数。与繁琐的权重优化相比,OmniQuant侧重于逐层量化过程中的每个单独层。这使得可以使用简单的算法进行高效的优化。 OmniQuant由两个关键组件组成——可学习权重剪裁(LWC)和可学习等效变换(LET)。LWC优化剪裁阈值,调节极端权重值,而LET通过学习变换来处理激活的离群值。这些组件使得全精度的权重和激活更适合量化。 OmniQuant的灵活性体现在其适用于仅权重和权重-激活量化的多样性。最好的部分是,OmniQuant对于量化模型没有额外的计算负担或参数,因为量化参数可以融合到量化权重中。 OmniQuant概览。来源:https://arxiv.org/pdf/2308.13137.pdf 与LLM中的所有参数进行联合优化不同,OmniQuant在移动到下一层之前依次量化一层的参数。这使得OmniQuant能够使用简单的随机梯度下降(SGD)算法高效地进行优化。 它是一个实用的模型,因为即使在单个GPU上也很容易实现。您可以在16小时内训练自己的LLM,这使得它们在各种实际应用中非常易于使用。此外,OmniQuant在性能上优于先前的基于PTQ的方法。 然而,尽管它是一种相对较新的方法,但它的性能还是有一些限制的。例如,它有时可能会产生比全精度模型稍差的结果。然而,这只是OmniQuant的一个小不便,因为它仍然是一种用于高效部署LLM的有前途的技术。
Leave a Comment在自然语言处理(NLP)和人工智能(AI)不断发展的领域中,大型语言模型(LLMs)已经成为强大的工具,在各种NLP任务中展示出了卓越的能力。然而,当前模型中存在一个重要的差距,即缺乏专门为IT运营设计的大型语言模型(LLMs)。由于IT运营领域具有独特的术语、程序和语境复杂性,这个差距带来了挑战。因此,迫切需要创建专门的LLMs,以有效地应对IT运营中的复杂性。 在IT领域内,NLP和LLM技术的重要性日益增长。与信息安全、系统架构和其他IT运营相关的任务需要领域特定的知识和术语。传统的NLP模型往往难以解读IT运营的复杂细微差别,从而需要专门的语言模型。 为了解决这一挑战,一个研究团队推出了一个名为“Owl”的大型语言模型,专门针对IT运营进行了定制。这个专门的LLM是在一个被称为“Owl-Instruct”的精心策划的数据集上进行训练的,该数据集涵盖了广泛的IT相关领域,包括信息安全、系统架构等等。目标是为Owl提供在IT相关任务中取得优异表现所需的领域特定知识。 研究人员采用自我教导策略,在Owl-Instruct数据集上训练了Owl。这种方法可以使模型生成多样的指令,涵盖单轮和多轮场景。为了评估模型的性能,团队引入了“Owl-Bench”基准数据集,其中包括九个不同的IT运营领域。 他们提出了一种“适配器混合”策略,允许针对不同输入的任务特定和领域特定表示,通过促进有监督微调来进一步提高模型的性能。TopK(·)是用来计算所有LoRA适配器的选择概率并选择服从概率分布的前k个LoRA专家的选择函数。适配器混合策略是通过激活前k个专家来学习不同输入句子的语言敏感表示。 尽管Owl缺乏训练数据,但在RandIndex指标和最佳F1得分(0.894)上取得了可比较的性能(0.886)。在RandIndex比较中,与在域内日志上进行了广泛训练的LogStamp相比,Owl仅表现出微小的性能下降。在细粒度F1比较领域中,Owl明显优于其他基线,能够准确识别以前未见的日志中的变量。值得一提的是,logPrompt的基础模型是ChatGPT。与在相同基本设置下的ChatGPT相比,Owl在这个任务中表现出更优异的性能,突显了我们的大型模型在运营和维护方面的强大泛化能力。 总之,Owl代表了IT运营领域的一项突破性进展。它是一个精心训练并在IT相关基准上进行严格评估的专门的大型语言模型。这个专门的LLM革新了IT运营的管理和理解方式。研究人员的工作不仅解决了领域特定LLMs的需求,还为高效的IT数据管理和分析开辟了新的途径,最终推动了IT运营管理领域的发展。
Leave a Comment对于图像的处理一直存在持久的兴趣,因为它在内容创作中有着广泛的应用。其中最广泛研究的处理之一是对象的移除和插入,通常被称为图像修复任务。虽然当前的修复模型能够生成与周围图像无缝融合的视觉上令人信服的内容,但它们的适用性传统上仅限于单个2D图像输入。然而,一些研究人员正在尝试将这些模型的应用推进到对完整3D场景的处理。 神经辐射场(NeRFs)的出现使将真实的2D照片转换为逼真的3D表示更加容易。随着算法的不断改进和计算需求的降低,这些3D表示可能会变得普遍。因此,该研究旨在实现对3D NeRF的类似处理,如同对2D图像的处理一样,并特别关注修复功能。 修复3D对象存在独特的挑战,包括3D数据的稀缺性以及必须同时考虑3D几何和外观。使用NeRF作为场景表示引入了额外的复杂性。神经表示的隐式性质使得基于几何理解直接修改底层数据结构变得不切实际。此外,由于NeRF是从图像训练的,对多个视角的一致性的保持带来了挑战。对各个组成图像的独立修复可能导致视角不一致和视觉上不真实的输出。 已经尝试了各种方法来解决这些挑战。例如,一些方法旨在事后解决不一致性,如NeRF-In,通过像素损失结合视角,或者SPIn-NeRF,利用感知损失。然而,当修复的视角存在显著的感知差异或涉及复杂外观时,这些方法可能会遇到困难。 另外,还探索了单参考修复方法,通过仅使用一个修复的视角避免视角不一致。然而,这种方法引入了一些挑战,包括非参考视角的视觉质量降低、缺乏视角相关效果以及不连续问题。 考虑到上述限制,已经开发了一种新方法,实现了对3D对象的修复。 系统的输入是N个来自不同视角的图像,以及它们的相应摄像机变换矩阵和蒙版,用于标记不需要的区域。此外,还需要一个与输入图像相关的修复参考视角,该视角提供了用户期望从3D场景的修复中获取的信息。这个参考视角可以是一个简单的替代蒙版的对象的文本描述。 https://ashmrz.github.io/reference-guided-3d/paper_lq.pdf 在上述示例中,可以通过使用单图像文本条件修复器来获得“橡皮鸭”或“花盆”参考。这样,任何用户都可以控制和驱动生成具有所需编辑的3D场景。 通过专注于视角相关效果(VDEs)的模块,作者试图考虑场景中的视角相关变化(例如镜面反射和非朗伯效应)。出于这个原因,他们通过将VDEs添加到非参考视角的蒙版区域,通过校正参考颜色以匹配其他视角的周围环境,来修复蒙版区域。 此外,他们引入了单目深度估计器,根据参考图像的深度来引导修复区域的几何形状。由于不是所有蒙版目标像素在参考图像中都是可见的,因此设计了一种方法来通过额外的修复来监督这些未遮挡的像素。 下面是所提出方法的新视角渲染与最先进的SPIn-NeRF-Lama的视觉比较。 https://ashmrz.github.io/reference-guided-3d/paper_lq.pdf 这是一个关于参考引导可控补全神经辐射场的新型AI框架的摘要。如果您对此感兴趣并且想要了解更多信息,请随时参考下面引用的链接。
Leave a Comment将视频分成许多层,每个层都有自己的阿尔法混合,并将这些层重新组合成原始视频,这就是被称为“视频抠图”的挑战。由于可以在合成之前交换或单独处理层,因此在视频编辑行业中具有许多用途,并且已经研究了几十年。需要仅关注兴趣物体的掩膜的应用包括视频制作中的描边和在线会议中的背景模糊。然而,通常希望能够生成包含不仅兴趣物体而且其相关效果(包括阴影和反射)的视频抠图。这可以提高最终剪辑影片的逼真度,同时减少对繁琐的手动分割次要效果的需求。 在对象去除等应用中,重建干净的背景是首选,而能够消除前景对象的相关影响有助于实现这一目标。尽管具有这些优势,但是由于该问题的不适定性,与标准抠图问题相比,研究较少。 Omnimatte是迄今为止解决此问题最有希望的努力。 Omnimattes是记录前景移动物体及其产生效果的RGBA层。 Omnimatte使用同伦来建模背景,这意味着它只能在背景是平面的视频或仅存在旋转运动的视频中有效。 D2NeRF通过分别使用两个辐射场对场景的动态和静态组件进行建模,努力解决这个问题。所有处理都在三个维度中进行,该系统可以处理具有大量摄像机运动的复杂场景。此外,不需要输入掩膜,使其完全是自主的。如何将定义在视频上的2D指导(如粗糙的掩膜)与之结合尚不清楚,但它确实可以有效地将所有移动物体分割出静态背景。 马里兰大学和Meta的最新研究提出了一种方法,通过使用三维背景模型和二维前景层结合了两者的优点。 难以在三维中创建的物体,动作和效果都可以通过轻量级的二维前景层来表示。同时,三维背景建模允许处理具有复杂几何形状和非旋转摄像机运动的背景,这为处理比2D方法更多样的电影铺平了道路。研究人员将这种技术称为OmnimatteRF。 实验结果表明,它在广泛的视频范围内表现出强大的性能,而无需为每个视频进行个别参数修改。 D2NeRF已经生成了一个使用Kubrics渲染的由5个视频组成的数据集,以客观分析3D环境中的背景分离。这些数据集是相对简单的内部设置,其中一些移动物体创建了实心阴影。此外,该团队还根据开源的Blender电影生成了五个视频,这些电影具有复杂的动画和照明条件,以获得更困难和逼真的场景。与过去的研究相比,两个数据集都展示了更好的性能。 如果某个部分始终位于阴影中,则背景模型将无法准确恢复该部分的颜色。由于动画层具有阿尔法通道,因此应该可以仅记录附加阴影而保留背景的原始颜色。不幸的是,目前的上下文中对此问题的边界不清晰,使得很难找到可行的解决方案。
Leave a Comment大型语言模型应用程序受到了广泛关注。凭借其惊人的能力,它们变得越来越复杂。通过结合工具使用跟踪和检索增强等功能,这些模型在人工智能社区中引起了很多关注。现有的构建此类应用程序的框架采用了一种自以为是的方法,指导开发人员如何格式化其提示,并对自定义和可重复性施加了一定的限制。 为了解决这些问题,宾夕法尼亚大学的研究团队最近推出了Kani,一种轻量级、可扩展且与模型无关的开源框架,专门用于构建语言模型应用程序。通过支持聊天交互的核心元素,Kani旨在使开发人员能够添加各种复杂的功能。模型交互、聊天管理和强大的函数调用是其中一些关键要素。 开发人员可以利用Kani的构建模块创建语言模型应用程序,而不受预定义结构或限制的限制,因为Kani以其适应性和可定制性而脱颖而出。所有Kani的基本功能都被设计为易于修改,并且研究团队还提供了广泛的文档。这使得开发人员可以根据自己的独特需求和要求修改框架的功能。 Kani是一种对学者、业余爱好者和商业人士都有用的工具。为了提高他们工作的可重复性,Kani帮助研究人员创建语言模型应用程序,同时提供了精细的控制。即使使用GPT-4或其他复杂模型,用户也可以使用Kani仅几行代码快速开始设计应用程序。Kani的灵活性和耐用性对于行业工作者尤其有利,特别是在聊天管理和函数管理等领域。 Kani需要Python 3.10+,简化了语言模型的安装和查询。通过pip安装,它提供了核心依赖项和可选的附加功能,如OpenAI引擎。Kani框架中的基本处理单元称为“Kani”。在使用Kani构建应用程序时,用户将使用和操作各种Kani对象,包括三个基本组件:推理引擎、聊天历史和函数上下文。 通过推理引擎,Kani对象与语言模型进行通信。在不更改应用程序代码的情况下,这种交互使开发人员能够轻松地在不同模型之间切换。Kani跟踪令牌总数和主题切换。它确保对话的上下文保持在模型的范围内,避免过度。最后,语言模型可以通过Kani访问可调用的函数。它验证函数调用,运行适当的代码,然后将结果发送回推理引擎。 总之,Kani被提出作为语言模型应用程序开发者所面临问题的解决方案。它允许定制、灵活性和使用开源方法创建令人难以置信的应用程序,使开发人员能够构建功能丰富的应用程序,并通过提供聊天交互的基本构建模块来保持控制和互操作性。
Leave a Comment基于Transformer构建的大型语言模型(LLM),包括ChatGPT和GPT-4,展示了惊人的自然语言处理能力。Transformer-based NLP模型的创建引发了在计算机视觉和其他模态中设计和使用基于Transformer的模型的进展。自2022年11月以来,受到ChatGPT多样化特性和广泛赞誉的启发,LLM已经在临床研究、药学、放射学、阿尔茨海默病、农业和脑科学研究中得到应用,然而,它们在专业领域如医疗保健中的应用尚未广泛采用。首先,由于隐私法律的限制,医院无法将数据交换或上传到商业模型如ChatGPT或GPT-4,因此,本地化的大型语言模型对于现实世界的医疗保健至关重要。 需要在临床上有意义的领域数据上得到充分训练的模型,因为在特定领域如放射学这样的领域中,经过ChatGPT、GPT-4和PaLM 2等广域领域训练的LLM需要更多的医学专业知识。此外,虽然像ChatGPT这样的模型的Radiology-Llama2能够准确模仿放射学家的语言模式,但它们提供的回复更像维基百科,而不是实际放射学家使用的清晰简明的语言,这加快了信息传递的速度。最后,他们的研究为根据每位医生的偏好定制放射学助手铺平了道路。 通过指令调整来为放射学提供放射学印象的Radiology-Llama2 LLM填补了文献中的这一空白。研究表明,它在生成的印象的连贯性、简洁性和临床实用性方面优于标准LLM。 • 最先进的性能:在MIMIC-CXR和OpenI数据集上,超过所有其他语言模型以生成临床印象,创立了新的标准。 • 灵活性和动态性:与基于BERT的竞争对手不同,放射学-Llama2不受特定输入结构的限制,可以适应更广泛的输入和各种放射学任务,包括复杂的推理。 • 具有对话能力的临床可用性:生成式LLM具有内置的对话能力,可以回应查询并提供类似人类的上下文信息。这提高了诊断和报告的能力,使Radiology-Llama2对医学从业者在临床背景下非常有帮助。 图1显示了Radiology-Llama2的整体结构 当适当构建时,本地化的LLM可以革命性地改变放射学,就像Radiology-Llama2所展示的那样。 如果受到适当的监管,它对于临床决策辅助和其他用途具有很大的潜力。这项研究的结果为其他医学专业领域中的专门LLM打开了大门。总之,Radiology-Llama2是在医学中使用LLM的重要进展。这样的专门LLM可以通过对模型构建和评估的持续研究促进医疗人工智能的进步。
Leave a Comment检测和诊断对于提高车辆的操作效率、安全性和稳定性至关重要。近年来,许多研究都探讨了使用可用车辆数据改进车辆诊断过程的数据驱动方法,同时采用了各种数据驱动方法来增强客户服务代理的交互。 自然语言在自动驾驶系统中扮演着重要角色,用于人车交互和车辆与行人及其他道路使用者的通信。它对于确保安全、用户体验和人类与自动系统之间的有效交互至关重要。设计应当清晰、具有上下文意识和用户友好性,以增强自动驾驶体验。 自动驾驶技术公司Wayve使用机器学习来解决自动驾驶挑战,消除了需要昂贵和复杂的机器人堆栈以及需要高度详细的地图和编程规则的需求。他们推出了一个开环驾驶评论员LINGO – 1。该技术通过从经验中学习,在任何环境和新地点进行驾驶而无需显式编程。 LINGO-1允许用户参与有意义的对话,使他们能够询问选择并了解场景理解和决策制定。它可以回答有关各种驾驶场景的问题,并澄清影响其驾驶决策的因素。乘客与自动驾驶车辆之间的这种独特对话可以增加透明度,使人们更容易理解和信任这些系统。 LINGO -1可以将来自摄像机和雷达的数据输入转换为转动方向盘或减速等驾驶输出。神经网络决策经过了全面的性能测试并进行了可靠的集成,以确保用户的安全。LINGO-1是在一个可扩展和多样化的数据集上进行训练的,该数据集包括了来自专家驾驶员在英国行驶时的图像、语言和行动数据。 LINGO -1可以执行各种活动,例如在红绿灯前减速、换道、通过注意到其他车辆的行动在交叉口停车等等。与人类水平的性能相比,LINGO-1的准确率达到了60%。这些结果是基于对其推理能力、对各种感知的问答和驾驶技能的评测。 LINGO-1还具有反馈机制,可以增强模型的适应能力并从人类反馈中学习。就像驾驶教练指导学员驾驶一样,纠正指导和用户反馈可以随时间改进模型的理解和决策过程。最后,可以得出结论,使用自然语言来增强基础驾驶模型的学习和可解释性是一个重要的第一步。
Leave a Comment计算机视觉中最具挑战和关键性的任务之一是实例分割。在图像或三维点云中精确描绘和分类对象的能力对于各种应用至关重要,从自动驾驶到医学图像分析。多年来,在开发最先进的实例分割模型方面取得了巨大进展。然而,这些模型通常需要应对与其训练分布不同的各种真实场景和数据集。将分割模型调整以处理这些分布范围之外(OOD)的情况的挑战推动了创新研究。一种引起重大关注的开创性方法是Slot-TTA(测试时间调整)。 在快速发展的计算机视觉领域中,实例分割模型取得了显著进展,使机器能够识别和精确分割图像和三维点云中的对象。这些模型已成为许多应用的基础,从医学图像分析到无人驾驶汽车。然而,它们面临着一个常见而严峻的对手-适应各种真实世界的场景和超出其训练数据范围的数据集。无法无缝地从一个领域过渡到另一个领域在有效部署这些模型方面构成了重大障碍。 卡内基梅隆大学、Google Deepmind和Google Research的研究人员推出了一种突破性解决方案,称为Slot-TTA,以解决这一挑战。这种创新方法旨在实现实例分割的测试时间调整(TTA)。Slot-TTA将基于槽位的图像和点云渲染组件的能力与最先进的分割技术相结合。Slot-TTA的核心思想是使实例分割模型能够动态适应OOD场景,从而显著提高其准确性和多功能性。 Slot-TTA基于调整的兰德指数(ARI)作为其主要分割评估指标。它在一系列数据集上进行了严格的训练和评估,包括多视图姿势的RGB图像、单视图的RGB图像和复杂的三维点云。Slot-TTA的区别特征在于其能够利用重建反馈进行测试时间调整。这一创新涉及对以前未见过的视点和数据集的分割和渲染质量进行迭代改进。 在多视图姿势的RGB图像中,Slot-TTA显示出强大的竞争力。通过对MultiShapeNetHard(MSN)数据集进行全面评估,证明了其适应性。该数据集包含超过51,000个ShapeNet对象,精心渲染在真实世界的HDR背景下。MSN数据集中的每个场景都有九个姿势RGB渲染图像,被策略性地分为Slot-TTA的训练和测试的输入和目标视图。研究人员特别注意确保训练集和测试集之间的对象实例之间没有重叠,并且场景中存在的对象数量没有重叠。这种严格的数据集构建对于评估Slot-TTA的鲁棒性至关重要。 在评估中,Slot-TTA与几个基准进行了比较,包括Mask2Former、Mask2Former-BYOL、Mask2Former-Recon和Semantic-NeRF。这些基准是用于比较Slot-TTA在训练分布内外的性能的基准。结果令人瞩目。 首先,Slot-TTA在OOD场景中使用TTA超过了Mask2Former,这是一种最先进的2D图像分割器。这表明Slot-TTA在适应各种真实场景方面的优势。 其次,在Mask2Former-BYOL中添加来自Bartler等人(2022年)的自监督损失未能带来改进,突显出并非所有TTA方法都同样有效。 第三,Slot-TTA没有分割监督,仅用于类似于OSRT(Sajjadi等人,2022a)的跨视图图像合成的变体,与像Mask2Former这样的有监督分割器相比效果显著下降。这一观察结果强调了在训练过程中进行分割监督对于有效的TTA的必要性。 Slot-TTA的强大之处还包括合成和分解新颖的未见RGB图像视图。使用与之前相同的数据集和训练-测试划分,研究人员评估了Slot-TTA的像素精确重构质量和分割ARI准确性,用于五个新颖的未见视点。此评估包括在TTA训练期间未见过的视图。结果令人震惊。 Slot-TTA在这些未知视点上的渲染质量显著提高,展示了它在新颖场景中增强分割和渲染质量的能力。相比之下,强大的竞争对手Semantic-NeRF在这些未知视点上很难推广,突出了Slot-TTA的适应性和潜力。 总之,Slot-TTA在计算机视觉领域代表了一次重大飞跃,解决了将分割模型适应多样的现实场景的挑战。通过结合以槽为中心的渲染技术、先进的分割方法和测试时适应性,Slot-TTA在分割准确性和多功能性方面取得了显著的改进。这项研究不仅揭示了模型的局限性,还为计算机视觉领域的未来创新铺平了道路。Slot-TTA承诺在不断变化的计算机视觉领域提升实例分割模型的适应性。
Leave a Comment深度生成模型在原位创造新型蛋白质方面越来越强大。扩散模型是一类最近被证明能够产生与自然界中任何实际蛋白质都不同的生理学合理蛋白质的生成模型,它们在全新蛋白质设计中提供了无与伦比的能力和控制。然而,当前最先进的模型只能构建蛋白质结构,这严重限制了它们的训练数据范围,并将生成限制在蛋白质设计空间的一个微小且有偏见的部分。微软研究员开发了EvoDiff,这是一个通用的扩散框架,它通过结合进化规模的数据和扩散模型的独特调节能力,允许在序列空间中进行可调节的蛋白质创造。EvoDiff可以使结构合理的蛋白质变化多样,涵盖了所有可能的序列和功能范围。序列为基础的公式的普适性通过EvoDiff可以构建结构为基础的模型无法访问的蛋白质,例如那些具有无序部分的蛋白质,同时能够为有用的结构基序设计支架。他们希望EvoDiff能为蛋白质工程中的可编程序列优先设计铺平道路,使他们能够超越结构-功能范式。 EvoDiff是一个新颖的生成建模系统,仅基于序列数据进行可编程蛋白质创造,通过结合进化规模的数据和扩散模型开发而成。他们使用离散扩散框架,其中正向过程通过改变氨基酸的身份,迭代地破坏蛋白质序列,而学习到的反向过程则由神经网络参数化,预测每次迭代所做的更改,利用蛋白质作为离散令牌序列的自然特征。 蛋白质序列可以使用反向方法从头开始创建。与传统用于蛋白质结构设计的连续扩散公式相比,EvoDiff所使用的离散扩散公式在数学上具有显著的改进。多重序列比对(MSAs)突出显示了相关蛋白质群体的氨基酸序列的保守性模式和变异,从而捕捉到了超出单个蛋白质序列进化规模数据集的进化联系。为了利用这种额外的进化信息深度,他们构建了在MSAs上训练的离散扩散模型,以产生新的单一序列。 为了说明他们在可调节蛋白质设计方面的有效性,研究人员对一系列生成活动进行了序列和MSA模型(EvoDiff-Seq和EvoDiff-MSA)的检验。他们首先展示了EvoDiff-Seq可靠地产生高质量、多样化的蛋白质,准确反映了自然界中蛋白质的组成和功能。通过将具有类似但独特进化历史的蛋白质与对齐,EvoDiff-MSA允许引导开发新的序列。最后,他们展示了EvoDiff可以可靠地生成具有无序区域的蛋白质,直接克服了基于结构的生成模型的一个关键限制,并且可以生成没有任何显式结构信息的功能结构基序的支架,通过利用扩散模型框架的调节能力和其在通用设计空间中的基础。 为了生成具有序列限制的多样且新颖的蛋白质,研究人员提出了EvoDiff,这是一个扩散建模框架。通过挑战基于结构的蛋白质设计范式,EvoDiff可以通过从序列数据中生成内在无序区域和支撑结构基序,无条件地采样结构合理的蛋白质多样性。在蛋白质序列进化中,EvoDiff是第一个展示扩散生成建模效果的深度学习框架。 通过引导的调节,可以在未来的研究中添加这些能力。EvoDiff-D3PM框架对于通过引导进行调节工作是自然的,因为可以在每个解码步骤中编辑序列中的每个残基的身份。然而,研究人员观察到OADM在无条件生成方面通常优于D3PM,这可能是因为OADM的去噪任务比D3PM更容易学习。不幸的是,OADM和其他现有的条件LRAR模型(如ProGen)降低了引导的效果。预计通过将EvoDiff-D3PM与序列功能分类器所描述的功能目标进行调节,可以生成新颖的蛋白质序列。 EvoDiff的数据要求很低,这意味着它可以很容易地适应未来的用途,这是结构为基础方法所无法实现的。研究人员已经证明,EvoDiff可以通过填充而无需微调来创建IDR,避免了基于结构的预测和生成模型的一个经典陷阱。获取大规模测序数据集的结构的高成本可能会阻止研究人员使用新的生物、医学或科学设计选项,这些选项可以通过在应用特定数据集上微调EvoDiff来实现,例如来自展示库或大规模筛选的数据集。尽管AlphaFold和相关算法可以预测许多序列的结构,但在指示虚假蛋白质的结构时,它们在点突变方面存在困难,并且可能过于自信。 研究人员展示了几种粗粒度的通过支架和修复来调节产物的方式;然而,EvoDiff可以根据文本、化学信息或其他形式的模态来提供对蛋白质功能的更精细调控。在未来,可调节的蛋白质序列设计的概念将以多种方式使用。例如,有条件设计的转录因子或内切酶可用于程序化调节核酸;生物制剂可优化用于体内传递和运输;而酶底物特异性的零样本调节可以打开全新的催化途径。 数据集 Uniref50是一个包含约4200万个蛋白质序列的数据集,由研究人员使用。MSAs来自OpenFold数据集,其中包括16,000,000个UniClust30聚类和401,381个MSAs,涵盖了140,000个不同的PDB链。关于IDRs(内在无序区)的信息来自Reverse Homology GitHub。 研究人员在支架结构基元挑战中使用了RFDiffusion基线。在examples/scaffolding-pdbs文件夹中,您可以找到可用于有条件生成序列的pdb和fasta文件。examples/scaffolding-msas文件夹还包含可以根据特定条件创建MSAs的pdb文件。 当前模型 研究人员研究了两种前向技术,以决定在离散数据模态上扩散的最高效技术。每个粗体的步骤中,一个氨基酸被转换为唯一的掩码标记。完整序列在一定数量的阶段后被隐藏。该组还开发了离散去噪扩散概率模型(D3PM),专门用于蛋白质序列。在EvoDiff-D3PM的前向阶段,根据过渡矩阵对行进行突变采样。这一过程会一直持续,直到序列无法与氨基酸上的均匀样本区分开为止。在所有情况下,恢复阶段涉及重新训练神经网络模型以消除损害。对于EvoDiff-OADM和EvoDiff-D3PM,训练模型可以从遮蔽标记的序列或均匀采样的氨基酸产生新的序列。他们使用CARP蛋白质遮蔽语言模型中首次出现的扩张卷积神经网络架构,在UniRef50的4200万个序列上训练了所有EvoDiff序列模型。对于每种前向损坏方案和LRAR解码,他们开发了具有3800万和6400万训练参数的版本。 关键特点 为了生成可管理的蛋白质序列,EvoDiff将进化规模的数据与扩散模型结合。 EvoDiff可以使结构合理的蛋白质多样化,覆盖了可能序列和功能的全部范围。 除了生成具有无序区段和其他结构模型无法访问的特征的蛋白质之外,EvoDiff还可以产生用于功能性结构基元的支架,证明了基于序列的公式的普适性。 总之,微软科学家发布了一组离散扩散模型,可用于在基于序列的蛋白质工程和设计中进行进一步开发。可以根据结构或功能扩展EvoDiff模型,并且可以立即用于无条件、进化引导和有条件的蛋白质序列创建。他们希望通过直接使用蛋白质语言进行阅读和写入过程,EvoDiff将为可编程蛋白质创造开辟新的可能性。
Leave a Comment大规模预训练的视觉与语言模型在众多应用中展示出了非凡的性能,使得可以用无需指定固定的支持类别,而是通过(几乎任意的)自然语言查询进行零样本开放词汇推理。然而,最近的研究揭示了这些模型的一个根本缺陷。例如,它们无法理解超越名词的视觉语言概念(VLC),如非物体词语(例如属性、动作、关系、状态等)的意义,或者它们在组合推理方面的困难,如理解句子中词语顺序的重要性。 视觉与语言模型是强大的机器学习算法,可以学习将文本与图像匹配,当被要求生成视频标题或摘要时,它们展示出了非凡的结果。尽管这些模型擅长区分物体,但它们经常需要帮助理解概念,例如物体的属性或场景中物品的排列。例如,一个视觉与语言模型可能会看到图像中的杯子和桌子,但无法理解杯子在桌子上方的概念。 麻省理工学院的研究人员展示了一种利用计算机生成数据来帮助视觉与语言模型克服这个缺陷的新技术。具体而言,他们提出增强生成的视觉和文本数据的VLC和组合性方面,然后使用这些数据来微调VL模型,指导它们更加关注这些特征。此外,与实际数据始终伴随的隐私问题相比,合成数据不仅本质上是免费和无限可扩展的,而且可以不受隐私问题的限制。创建能够有效用于增强在大量实际数据上预训练的VL模型的VLC和组合性方面的合成数据,还面临其他技术挑战。与大多数以前关于生成合成视觉数据的工作不同,他们必须开发描述场景的组合元素的图像和文本。此外,他们生成利用真实物理3D模拟的合成视频,例如多样的3D环境和多样的3D物体、人体动作和动作资产,与物体的交互以及不同的摄像机角度。 以前的工作利用动作资产生成合成数据,但视觉数据没有伴随文本标题,并且需要考虑组合性。研究人员为合成视觉概念(SyViC)做出贡献,这是一个大规模(百万级)生成的合成VL数据集,具有丰富的文本标题,可以通过数据合成代码轻松扩展,以及所有先前生成的百万级合成数据。 贡献 研究人员贡献了SyViC – 一个百万级的合成数据集,具有丰富的文本注释,旨在增强VL模型的VLC理解和组合推理能力,以及其合成和潜在可扩展性的方法和生成代码库2。 有效的通用VL模型微调,利用SyViC数据改善强大的预训练VL模型的特性,而不损害其零样本性能。 实验结果和全面的消融研究表明,在最新的VL-Checklist、ARO和Winoground基准测试中,VLC理解和组合推理有显著改善(在某些情况下超过10%),并在最流行的CLIP模型及其衍生模型(例如最新的CyCLIP)上得到验证。 结果 使用所提出的方法和SyViC合成数据生成了所有模型的变体。在对SyViC进行微调之前,将每个模型与其分别在大规模实际数据上训练的源模型进行了比较。根据研究人员的发现,无论是SyViC合成数据还是提出的微调方法,都相对于各自的源基线表现出显著的改进。此外,研究人员还展示了在VL-Checklist和ARO基准测试中为CLIP获得的个别VLC指标改进,分别达到9.1%和12.6%的绝对改进。这证明了该方法和SyViC合成数据在提高VL模型的VLC理解和组合推理能力方面的效率和潜力。 在这里尝试 https://synthetic-vic.github.io/ 局限性 尽管研究人员在三个不同的基准测试中获得了相当有希望的结果,但他们的工作还存在一些限制。例如,图形模拟器对照片亮度、传感器噪声和反射函数的模型与实际世界相比较简化,可能影响颜色恒定性的稳健性。更复杂的领域适应和渲染技术可能需要进一步提高结果。此外,对合成数据的缩放规律进行更深入的研究将是充分发挥该工作潜力的一种优秀方式。 总结 大型视觉和语言模型决定了计算机视觉和多模态感知的现状,在多个困难的基准测试中取得了尖端的成果。然而,现有模型在组合推理和理解物体名词之外的概念(如属性和关系)方面需要帮助。这是第一次研究合成数据是否可以减轻这些不足。麻省理工学院的研究人员提出了一个数据生成流水线,用于创建一个百万级的合成图像数据集和相应的标题,并提供了一种高效的微调策略和全面的分析,以提高多模态模型的组合和概念理解能力,同时不影响它们的零样本分类性能。
Leave a Comment在快节奏的软件开发世界中,编写测试通常被认为是一项繁琐的任务,会占用实际编码的时间。遇见 CodiumAI,一款革命性的工具,旨在通过在集成开发环境中生成有意义的测试来让您的生活更轻松。无论您是在处理小型脚本还是大型项目,CodiumAI 都能满足您的需求。它支持几乎所有的编程语言,让您可以编写智能代码,创造更多价值,并在推送更改时保持自信。有了 CodiumAI,您可以真正按照自己的意图编码。 CodiumAI 的关键功能 生成测试套件 CodiumAI 不仅是另一个测试工具;它是您的自动化测试助手。它允许您为各种类型的代码生成全面的测试套件,无论是类、函数还是小片段。自动化过程旨在节省您的时间和精力,让您专注于自己最擅长的——编码。 无论您是要测试特定的类、函数还是一小段代码,CodiumAI 都提供了生成有意义的测试用例的功能。这些测试确保您的代码质量和可靠性,使您的开发过程更加高效。 代码分析 质量不仅仅是通过测试,还包括理解代码的底层结构和行为。CodiumAI 提供了深入的代码分析功能,超越表面。在生成测试套件的同时,CodiumAI 的 TestGPT 模型从头到尾分析您的代码,以简单的文本输出向您提供有价值的见解。 代码建议 CodiumAI 进一步提供了“代码建议”功能。这个高级工具分析您的代码并提供有价值的改进建议。凭借 TestGPT 提供的能力,该功能将其专业知识扩展到代码质量的各个方面,从性能优化到最佳实践。 运行测试 一旦生成了全面的测试套件,运行测试就变得轻而易举。CodiumAI 通过其面板提供了无缝体验,您可以在其中执行测试以确定其是否通过。这确保您可以快速识别问题,并进行必要的调整,而无需离开开发环境。…
Leave a Comment