Press "Enter" to skip to content

Tag: Applications

一种新的人工智能(AI)研究方法将基于提示的上下文学习作为一种从统计角度看待的算法学习问题

上下文学习是一种最近的范式,其中一个大型语言模型(LLM)观察一个测试实例和一些训练示例作为其输入,并直接解码输出,而不对其参数进行任何更新。这种隐式训练与通常的训练相反,通常的训练会根据示例来改变权重。 来源: https://arxiv.org/pdf/2301.07067.pdf 那么为什么上下文学习会有益呢?你可以假设你有两个回归任务要建模,但唯一的限制是你只能使用一个模型来适应这两个任务。在这种情况下,上下文学习非常有用,因为它可以为每个任务学习回归算法,这意味着模型将为不同的输入集使用单独的适应回归。 在“Transformers as Algorithms: Generalization and Implicit Model Selection in In-context Learning”这篇论文中,他们将上下文学习问题形式化为一个算法学习问题。他们使用transformer作为学习算法,在推理时通过训练来实现另一个目标算法。在这篇论文中,他们通过transformer探索了上下文学习的统计学方面,并进行了数值评估以验证理论预测。 在这项工作中,他们研究了两种情况,第一种情况是提示由一系列i.i.d(输入、标签)对组成,而第二种情况是一个动态系统的轨迹(下一个状态取决于前一个状态:xm+1 = f(xm) + noise)。 现在问题来了,我们如何训练这样的模型? 在ICL的训练阶段,T个任务与数据分布 {Dt}t=1T相关联。他们从对应分布中独立采样训练序列St。然后他们从序列St中选择一个子序列S和一个值x,对x进行预测。这就像元学习框架一样。预测之后,我们最小化损失。ICL训练背后的直觉可以解释为在寻找适应当前任务的最优算法。 接下来,为了获得ICL的泛化界限,他们从算法稳定性文献中借用了一些稳定性条件。在ICL中,提示中的训练示例影响到从那一点起算法的未来决策。因此,为了处理这些输入扰动,他们需要对输入施加一些条件。您可以阅读[论文]以获取更多细节。图7显示了对学习算法(这里是Transformer)稳定性进行实验评估的结果。 来源:…

Leave a Comment

70%的开发者今天拥抱人工智能:深入研究大型语言模型、LangChain和向量数据库在当前技术领域的崛起

人工智能具有无限的可能性,这在其引入每个人的新产品和发展中显而易见。随着OpenAI开发的最新聊天机器人ChatGPT的发布,由于其GPT的变压器架构,AI领域已经席卷全球。从深度学习、自然语言处理(NLP)和自然语言理解(NLU)到计算机视觉,AI正将每个人推向一个拥有无尽创新的未来。几乎每个行业都在利用AI的潜力并进行革命性的改变。特别是在大规模语言模型(LLMs),LangChain和向量数据库等领域的卓越技术进步,是这一显著发展的原因。 大规模语言模型 大规模语言模型(LLMs)的发展代表了人工智能的一大步进。这些基于深度学习的模型在处理和理解自然语言时表现出令人印象深刻的准确性和流畅性。LLMs通过从各种来源(包括书籍、期刊、网页和其他文本资源)获取大量文本数据进行训练。它们通过学习语言来获取语言结构、模式和语义链接,从而帮助它们理解人类交流的复杂性。 LLMs的基本架构通常涉及具有多层的深度神经网络。根据训练数据中发现的模式和连接,该网络分析输入文本并生成预测。为了减少模型预期输出和预期输出之间的差异,模型的参数在训练阶段进行调整。LLM在训练过程中消耗文本数据,并试图根据上下文预测下一个单词或一系列单词。 LLMs的应用 回答问题:LLMs擅长回答问题,并通过搜索大量的文本语料库(如书籍、论文或网站)来提供精确而简洁的回答。 内容生成:LLMs在涉及内容生成的活动中证明了其有用性。它们能够生成语法正确、连贯的文章、博客条目和其他书面内容。 文本摘要:LLMs在文本摘要方面表现出色,能够在将冗长的文本压缩为更短、更易消化的摘要时保留重要信息。 聊天机器人:LLMs经常被用于创建聊天机器人和使用对话式AI的系统。它们使得这些系统能够用正常语言与用户进行交互,理解他们的问题并适当地回答,并在整个交互过程中保持上下文。 语言翻译:LLMs能够准确地在不同语言之间进行文本翻译,克服语言障碍,促进成功的交流。 训练LLMs的步骤 训练LLMs的初始阶段是编制一个庞大的文本数据集,模型将使用该数据集来发现语言模式和结构。 一旦收集到数据集,就需要进行预处理,以便为训练做准备。为此,必须通过删除任何不必要或冗余的条目来清理数据。 选择适当的模型架构对于训练LLMs至关重要。基于变压器的架构已经显示出在处理和生成自然语言方面非常高效,包括GPT模型。 使用反向传播等深度学习方法调整模型的参数来训练LLMs,并提高其准确性。模型在训练过程中处理输入数据并基于识别出的模式生成预测。 在初始训练之后,LLMs将进一步在特定任务或领域上进行微调,以提高其在这些领域的性能。 为了评估经过训练的LLMs的性能,使用多种指标(包括困惑度和准确性)来评估模型的性能。 经过训练和评估后,LLMs将在实际应用中的生产环境中使用于实际应用。 一些著名的语言模型 GPT(Generative Pre-trained Transformer)是OpenAI的GPT模型系列的重要成员,也是知名的ChatGPT的底层模型。它是一个仅解码器的单向自回归模型,通过根据先前生成的单词预测下一个单词来生成文本。GPT拥有1750亿个参数,广泛用于内容生成、问题回答等方面。 BERT – 双向Transformer编码器表示(BERT)是最早的基于Transformer的自监督语言模型之一。它是一个强大的模型,用于理解和处理自然语言,具有3.4亿个参数。…

Leave a Comment

微软研究员提出了一种新的框架,使用帕累托最优自监督而无需使用标记的训练数据来进行LLM校准

近期的发展使得大型语言模型(LLM)的能力显著增强,生成式预训练转换器(GPT)模型显示出了重要的潜力。从GPT-3到GPT-4的转变,以及PaLM和LLaMA等其他LLM的出现,都展示了在问题解决和自然语言理解技能方面的显著改进。此外,生成模型经常用于各个领域以生成不同应用的数据。当LLM用于需要高精度和可靠性的应用领域,如生物和医疗领域时,幻觉问题仍然是一个重大障碍。 不幸的是,目前没有系统的技术可用于准确检测幻觉或衡量输出的置信水平。特别是在使用强化学习与人类输入之后,生成LLM的内在置信度分数有时无法获得或无法有效校准以达到预期目标。启发式技术计算成本高,并受制于LLM本身的偏见,例如对LLM答案集进行采样。评估LLM回复的置信度程度的方法大致可分为两个基本类别。在第一种方法中,通过多种方式激励LLM生成多个回复,然后利用这些回复推断答案的可靠性。 自一致性和思维链激励是两个例子。这些技术不太定量,并且容易受到模型引起的偏见的影响。目前还没有标准化的测量方法,但提示技术可能对结果的质量产生重大影响。第二类选择借助外部数据源,例如雇用人工审核员验证答案或使用大量标记数据创建评估模型。目前监督模型训练的主要障碍之一是这些技术需要广泛的手动注释工作。在这方面,自我监督提供了一种可行的选择,因为它可以灵活地使用数据模式和超越常规的专业知识。 微软的研究人员在这项研究中提供了一个灵活的框架,利用帕累托最优学习将LLM响应数据和监督数据混合在一起。他们受到了程序化监督和帕累托优化研究的早期工作的启发。以下直觉指导了他们的策略。为了防止LLM自身评判的偏见,需要与LLM独立的外部监督数据源。其次,将LLM的错误视为对黄金标签的噪声扰动。当模型同时适应LLM噪声和独立的外部噪声时,实际上进行了隐式标签平滑处理,从而增强了校准能力。 在这方面,帕累托最优自我监督为整合两者提供了一个有用的框架。值得注意的是,所提出的方法只需要无标签数据,因此适用于注释成本较高的领域。他们通过帕累托最优自我监督对LLM进行校准的独特方法是该论文的关键创新。他们建议使用帕累托最优学习评估风险(POLAR)分数来计算LLM错误的可能性。他们在四个不同的自然语言处理任务上展示了实验结果,并证明所提出的POLAR分数与在黄金标签上评估的LLM错误率显著相关。他们展示了在高风险情况下通过POLAR分数确定的动态提示策略下,LLM的性能得到了提升。在不使用任何人工标记的训练数据的情况下,他们展示了他们的方法如何消除LLM的错误并提高GPT-4基线性能,超过最先进的监督模型。

Leave a Comment

这个AI工具解释了AI如何“看”图像以及为什么可能会把宇航员误认为铁锹

广泛认可的是,人工智能(AI)近年来取得了重大进展,取得了显著的成就和突破性结果。然而,AI并不能在所有任务上都取得同样令人印象深刻的结果。例如,虽然AI在某些视觉任务(如人脸识别)中可以超越人类表现,但在图像处理和分类中也可能出现令人困惑的错误,从而凸显出任务的挑战性。因此,研究人员和开发人员对了解这种系统在相关任务中的内部工作方式以及它们如何做出某些决策的兴趣日益浓厚。 众所周知,类似于人脑,AI系统采用了分析和分类图像的策略。然而,这些过程背后的精确机制仍然是个谜,导致形成了一个黑匣子模型。 因此,现代机器学习模型,特别是神经网络,对解释决策的方法的需求越来越大。在这种背景下,归因方法已经流行起来,它们生成热图,指示影响模型决策的单个像素的重要性。然而,最近的研究揭示了这些方法的局限性,因为它们往往只关注图像中最显著的区域,揭示了模型的注视点,但没有阐明模型在这些区域内感知到什么。因此,为了揭示深度神经网络的奥秘,揭示AI系统处理图像的策略,布朗大学Carney大脑科学研究所的研究人员和法国人工和自然智能图卢兹研究所的一些计算机科学家合作开发了CRAFT(概念递归激活因子化解释)。这个创新工具旨在识别AI模型在决策过程中关注的“什么”和“哪里”,从而强调人脑和计算机视觉系统在理解视觉信息方面的差异。该研究还在加拿大举办的著名计算机视觉和模式识别会议2023年上进行了展示。 正如前面提到的,使用归因方法了解AI系统如何使用图像的特定区域做出决策一直是具有挑战性的。然而,仅仅识别有影响力的区域而不澄清为什么这些区域至关重要,无法为人类提供全面的解释。CRAFT通过利用现代机器学习技术来揭示神经网络学习到的复杂多维视觉表示,克服了这一限制。为了提高理解力,研究人员开发了一个用户友好的网站,个人可以轻松地探索和可视化神经网络用于分类对象的基本概念。此外,研究人员还强调,引入CRAFT后,用户不仅可以深入了解AI系统用于构建图像和理解模型在特定区域内感知的概念,还可以了解这些概念的层次排序。这一突破性的进展为揭示AI系统的决策过程和提高其分类结果的透明度提供了宝贵的资源。 从本质上讲,研究人员的工作的关键贡献可以总结为三个主要点。首先,团队设计了一种递归方法来有效识别和分解多层次的概念。这种创新策略使我们能够全面了解神经网络内部组件。其次,引入了一种开创性的方法,通过利用Sobol指数准确估计概念的重要性。最后,实施隐式微分改变了概念归因地图的创建方式,为可视化和理解概念与像素级特征之间的关联提供了一种强大的工具。此外,团队进行了一系列实验评估,以证实他们方法的效率和重要性。结果显示,CRAFT优于所有其他归因方法,巩固了它的显著实用性,并成为进一步研究基于概念的解释方法的基石。 研究人员还强调了理解计算机如何感知图像的重要性。通过深入了解AI系统采用的视觉策略,研究人员在提高基于视觉的工具的准确性和性能方面具有竞争优势。此外,这种理解有助于研究人员了解攻击者如何通过对像素强度进行微妙的变化来欺骗AI系统,而这些变化对人类来说几乎察觉不到,从而对抗敌对和网络攻击具有益处。至于未来的工作,研究人员对计算机视觉系统能够超越人类能力的那一天感到兴奋。在解决癌症诊断、化石识别等未解决的挑战方面,这些系统有潜力改变许多领域。

Leave a Comment

什么是可编程门阵列(FPGA):FPGA与图形处理器(GPU)在人工智能(AI)中的比较

可编程门阵列(Field Programmable Gate Array,FPGA)是一种可以在制造后进行配置和定制的集成电路。由于这种能力,这些芯片被称为”可编程字段”。它们由可编程逻辑块组成,可以设置为执行各种功能或充当逻辑门,为用户在电路操作方面提供了很大的灵活性。 可编程门阵列(FPGAs)是由可配置逻辑块(CLBs)和可编程互连组成的半导体器件。这些块可以执行简单到复杂的操作,并且可以包含翻转器或存储块等存储组件。 FPGAs类似于可编程只读存储器芯片,但可以容纳更多的门,并且是可重新编程的,而ASIC是为特定任务设计的。它们可以用于定制微处理器以用于特定用途,并且在无线通信、数据中心、汽车、医疗和航空航天等各个行业中广泛应用。FPGAs的可重新编程性质允许根据需要进行灵活的设计更新。                          来源:https://allaboutfpga.com/fpga-architecture/ 来源:https://blog.samtec.com/post/new-intel-fpga-platform-features-samtec-interconnect/ FPGAs的应用 FPGAs在各个行业中得到广泛应用,并具有多样化的实施领域。它们的主要应用领域包括: 能源行业 FPGAs在智能电网技术中发挥着重要作用,可以提高性能和可扩展性,同时保持低功耗。这在传输和配电(T&D)变电站中尤为有用,需要高效的电力网络以实现最佳运行。 改进的汽车体验 Microsemi FPGAs允许原始设备制造商(OEM)和供应商为车辆创建新的安全应用程序,如定速巡航、盲点警告和碰撞避免。这些FPGAs还提供了信息保障、防篡改、硬件安全和可靠性功能,如纠错存储器和低静态功耗。 航空航天与国防 工业制造公司提供了抗辐射和抗辐射的FPGAs,这些FPGAs通常是太空级别的,以满足严苛环境下的性能、可靠性和寿命要求。这些FPGAs比传统的ASIC实现具有更高的灵活性,特别适用于处理密集型的空间系统。 计算机视觉系统 在当今世界,计算机视觉系统在视频监控摄像头、机器人和其他设备中广泛应用。通常需要使用基于FPGA的系统,使这些设备能够根据其位置、环境和面部识别能力与人们适当地进行交互。 数据中心 物联网和大数据导致获取和处理数据的数量大幅增加。使用深度学习技术进行并行计算推动了对低延迟、灵活和安全计算能力的需求。由于空间成本上升,增加更多的服务器无法满足这一需求。由于其加速处理能力、设计灵活性和硬件安全性等特点,FPGA在数据中心中得到了接受。 实时系统 FPGA被用于实时系统,响应时间至关重要,传统的CPU响应时间不可预测,很难准确预测何时触发器将会触发。 设计ASIC 首先创建电路架构,然后使用FPGA构建和测试原型,以便纠正错误。一旦原型表现符合预期,就会开发ASIC项目。这种方法节省时间,因为创建集成电路可能是费时和复杂的。…

Leave a Comment

Salesforce推出XGen-7B:一个新的7B LLM,使用高达8K序列长度进行1.5T令牌训练

随着人工智能在技术上的突破,大型语言模型(LLMs)变得越来越普遍。在过去几年中,研究人员通过在大量数据上训练这些模型以理解复杂的语言模式、生成连贯的回答等方式,在解决几个复杂的语言相关任务方面取得了快速进展。其中一个特别引起研究人员和开发人员兴趣的研究领域是在处理长篇内容时应用LLMs,以包含更广泛的上下文。这些任务的一些例子包括相对简单的文本摘要和代码生成,以及更复杂的问题陈述,如蛋白质结构预测和信息检索。长文本序列包含各种形式的信息,如段落、表格、图片等;因此,LLMs必须经过训练来处理和理解这些元素。此外,通过有效考虑长距离的结构依赖关系,LLMs可以识别文本的不同部分之间的联系,并提取最相关的信息。因此,对更广泛的知识的接触使LLMs能够为用户查询提供更准确和有关上下文的答案。 然而,尽管存在许多潜在的用例,大多数可用的开源LLMs,从Meta的LLaMA到MosaicML的MPT LLM模型,都是在最多2K个标记的序列上进行训练的。这一限制在对更长序列进行建模时带来了重大挑战。此外,以前的模型扩展研究表明,当给定一个固定的计算预算时,较小的模型在训练更多标记的情况下表现优于较大的模型。因此,受到手头问题和当前进展的启发,Salesforce Research通过引入XGen-7B取得了突破性的成就,这是一系列在1.5万亿个标记的8K序列长度上训练的7B LLMs。这一系列模型包括支持4K序列长度的XGen-7B-4K-Base,支持8K序列长度的XGen-7B-8K-Base,以及在公共领域指导数据上进行了微调的XGen-7B-8k-Inst(仅用于研究目的)。这些LLMs的显著特点是,与其他类似规模的最新LLMs(如MPT、Falcon、LLaMA等)相比,在标准NLP基准测试中,XGen取得了相当或更好的结果。 本研究所使用的XGen-7b模型是使用Salesforce的专有库JaxFormer进行训练的,该库可以利用数据和模型的并行性在TPU-v4硬件上进行高效训练。训练过程遵循LLaMA的指导方针,并进行了两项额外的研究。第一项探索集中在理解“损失峰值”,即在训练过程中,损失会突然而暂时地增加,而没有明显的根本原因。尽管这些峰值的根本原因尚不清楚,但研究人员确定了“顺序过并行电路”、“swish-GLU过GeLU”和“RMS-Norm过Layer-norm”等因素可能导致训练不稳定。第二个方面是序列长度。由于使用更长的序列进行训练会导致计算成本显著增加,因为自注意力的复杂度是二次的,因此采用了分阶段训练的方法。训练最初包括800B个标记,序列长度为2k个标记,然后是400B个标记,序列长度为4k,最后是300B个标记,序列长度为8k。 为了评估XGen-7b 8k模型在理解更长上下文方面的能力,研究人员使用三个主要任务进行评估:长篇对话生成、文本摘要和问答。研究人员针对所面临任务的难度使用了经过指导调整的模型进行评估。关于长篇对话生成,研究人员使用了三个任务进行评估:AMI会议摘要、ForeverDreaming和TVMegaSite剧本摘要。在所有指标上,XGen-7B-inst模型的得分最高,相比其他经过指导调整的模型,表现出了更好的性能。 对于长篇问答,研究人员使用ChatGPT生成了基于维基百科文档的问题,涵盖了物理学、工程学、历史学和娱乐等各种主题,以及它们对应的摘要。使用GPT-4对LLM生成的256个标记长的答案进行评估,评估标准包括结构、组织和与问题及源文档的相关性。在这种情况下,XGen-7B-8k-Inst模型胜过了只能处理2k个标记的基准模型,展示了其卓越的性能。在文本摘要方面,研究人员使用来自不同领域的两个数据集,具体是会议对话和政府报告,来评估XGen-7b模型。结果显示,XGen-7b模型在这些任务中明显优于其他基准模型,表明其在文本摘要方面的卓越性能。 评估结果显示,XGen-7b模型在理解各种任务中的较长上下文方面表现出色,包括长篇对话生成、问答和文本摘要。其性能超越了其他经过指导和基准调整的模型,展示了其在理解和生成连贯响应方面的有效性。然而,尽管其效果显著,研究人员承认XGen模型存在一定限制,因为它不能免于偏见,并有可能生成有害的响应,这是它与许多其他AI模型共同的特点。Salesforce研究还开源了其代码,以便社区探索其工作。 查看SF博客和Github链接。别忘了加入我们的2.5万+ ML SubReddit、Discord频道和电子邮件通讯,我们会分享最新的AI研究新闻、酷炫的AI项目等等。如果对上述文章有任何问题或者我们遗漏了什么,请随时发送邮件至Asif@marktechpost.com与我们联系。

Leave a Comment

转变AI互动:LLaVAR在视觉和基于文本的理解方面表现出色,标志着多模态指令跟踪模型的新时代

通过将多个活动合并为一条指令,指令调整增强了对新任务的泛化能力。这种对开放式问题的回应能力为最近的聊天机器人爆发做出了贡献,因为ChatGPT 2。最近,像CLIP-ViT这样的视觉编码器已经作为视觉指令调整模型的一部分添加到会话代理中,从而可以基于图片进行人-代理交互。然而,它们需要帮助理解图片中的文本,可能是由于训练数据中自然图像的占主导地位(例如,Conceptual Captions和COCO)。然而,阅读理解对人类的日常视觉感知至关重要。幸运的是,OCR技术使得能够从照片中识别出文字。 通过将识别到的文本添加到视觉指令调整模型的输入中(较大的上下文长度),可以(天真地)增加计算量,而不完全利用视觉编码器的编码能力。为了做到这一点,他们建议收集需要理解图片中的文字的指令遵循数据,以改进视觉指令调整模型的端到端性能。通过将手动给定的指示(例如,“识别提供的图像中可见的任何文本。”)与OCR结果相结合,他们首先使用文本丰富的图像收集了422K条嘈杂的指令遵循数据。 这些大规模的嘈杂对齐数据显著增强了语言解码器和视觉特征之间的特征对齐。此外,他们要求仅使用OCR结果和图像标题作为如何遵循指令的高质量示例,让纯文本GPT-4生成16K个对话。每个对话可能包含多轮的问答对。为了根据输入产生复杂的指令,这种方法要求GPT-4对OCR数据进行去噪,并创建独特的问题(图1)。他们使用获得的数据评估了LLaVA的预训练和微调阶段,分别使用嘈杂和高质量的示例来评估数据的有效性。 图1显示了如何收集关于遵循指令的准确统计数据。| https://arxiv.org/pdf/2306.17107.pdf 来自乔治亚理工学院、Adobe研究和斯坦福大学的研究人员开发了LLaVAR,即能够阅读的大型语言和视觉助手。为了更好地编码细微的文本特征,他们在原始LLaVA的基础上将输入分辨率从2242提高到3362进行了实验。根据评估技术,他们与四个基于文本的VQA数据集以及ScienceQA微调结果一起给出了研究结果。此外,他们在基于GPT-4的指令遵循评估中使用了来自LAION的50张文本丰富图片和来自COCO的30张自然图片。此外,他们还提供了定性分析,以衡量更复杂的指令遵循能力(例如海报、网站截图和推文)。 总之,他们的贡献包括: • 他们收集了16K条高质量和422K条嘈杂的指令遵循数据。两者都被证明可以改善视觉指令调整。这种改进的能力使得他们的模型LLaVAR能够基于多样的在线材料(包括文本和图片)进行端到端交互,同时仅在自然照片上略微提高模型的性能。 • 训练和评估数据以及模型里程碑都已公开提供。 这篇文章的英文原文发表在MarkTechPost网站上。

Leave a Comment

认识ToolQA:一个评估大型语言模型(LLMs)使用外部工具进行问答能力的新数据集

大型语言模型(LLMs)在自然语言处理(NLP)和自然语言理解(NLU)领域已被证明非常有效。著名的LLMs如GPT,BERT,PaLM等被研究人员用于为教育、社交媒体、金融和医疗保健等各个领域提供解决方案。通过大规模数据集的训练,这些LLMs获得了大量的知识。LLMs在问题回答、内容生成、文本摘要、语言翻译等方面显示出了能力。尽管LLMs最近展示了令人印象深刻的能力,但在生成合理且无根据的信息以及在数值推理方面存在困难。 最近的研究表明,将LLMs与外部工具(包括检索增强、数学工具和代码解释器)相结合是克服上述挑战的更好方法。评估这些外部工具的有效性存在困难,因为当前的评估方法需要帮助确定模型是否仅仅是回忆预训练信息,还是真正利用外部工具进行问题解决。为了克服这些限制,来自佐治亚理工学院计算学院的研究团队引入了ToolQA,这是一个用于问题回答的基准测试,用于评估LLMs在使用外部资源方面的熟练程度。 ToolQA包含来自八个领域的数据,并定义了13种可以从外部参考语料库中获取信息的工具类型。每个ToolQA实例中都包含一个问题、一个答案、参考语料库和可用工具列表。ToolQA的独特之处在于,所有问题只能通过使用适当的工具从参考语料库中提取信息来回答,从而最大程度地减少LLMs仅基于内部知识回答问题的可能性,并允许对其工具利用能力进行忠实评估。 ToolQA涉及三个自动化阶段:参考数据收集、人工引导的问题生成和程序化答案生成。在第一阶段,从不同领域收集各种类型的公共语料库,包括文本、表格和图表,作为基于工具的问题回答的参考语料库。在第二阶段,创建只能通过工具而不是参考语料库解决的问题。这是通过基于模板的问题生成方法实现的,该方法还涉及使用工具属性进行问题实例化和人工引导的模板制作和验证。第三阶段为生成的问题提供准确的答案,实现与工具对应的运算符,并从参考语料库中以程序化方式获取答案。 团队使用标准LLMs和工具增强的LLMs回答ToolQA中的问题进行了实验。结果显示,仅依赖内部知识的LLMs(如ChatGPT和Chain-of-thoughts prompting)的成功率较低,易问题约为5%,难问题约为2%。另一方面,通过使用外部工具,工具增强的LLMs(如Chameleon和ReAct)表现更好,易问题的最佳表现为43.15%,难问题为8.2%。 结果和错误分析显示,ToolQA对于当前的工具增强的LLM方法来说是一个具有挑战性的基准测试,尤其对于需要更复杂的工具组合推理的困难问题。这是人工智能发展中的一个有希望的补充。

Leave a Comment

Contextual AI推出LENS:一种用于视觉增强语言模型的AI框架,其在VQAv2上的表现比Flamingo高出9%(从56%提升至65%)

大型语言模型(LLMs)近年来在自然语言理解方面取得了重大突破,尤其在零样本和少样本环境下,展示出卓越的语义理解、查询解决和文本生成能力。如图1(a)所示,已经提出了多种方法来使用LLMs处理涉及视觉的任务。光学编码器可以被训练成将每张图片表示为一系列连续的嵌入,让LLM能够理解它。另一种方法是使用对比训练的冻结视觉编码器,同时在冻结的LLM上添加额外的层,然后从头开始学习。 另一种方法建议训练一个轻量级的Transformer来对齐一个冻结的视觉编码器(经过对比训练的预训练)和一个冻结的LLM。尽管在上述研究中取得了进展,但仍然难以证明额外的预训练阶段的计算成本是合理的。此外,为了将视觉和语言模态与现有的LLM同步,需要大量的数据库,包括文本、照片和视频。Flamingo在预训练的LLM中增加了新的跨注意力层,以增加视觉特征。 图1:比较协调视觉和语言模态的方法。多模态预训练有两个选择:(a)使用配对或网络数据集;(b)LENS,一种无需额外多模态数据集就可以与任何现成的LLM一起使用的无预训练技术。与LENS不同,以前的方法需要在大规模多模态数据集上进行联合对齐预训练,以完成视觉任务。 多模态预训练阶段需要惊人的20亿个图片-文本对和4300万个网站,即使使用预训练的图像编码器和预训练的冻结LLM,也可能需要15天的时间。相反,他们可以使用各种“视觉模块”从视觉输入中提取信息,并生成详细的文本表示(如标签、属性、动作和关系等),然后直接将其馈送给LLM,避免了额外的多模态预训练的需要,如图1(b)所示。Contextual AI和斯坦福大学的研究人员引入了LENS(Large Language Models Enhanced to See),这是一种模块化策略,将LLM作为“推理模块”使用,并在不同的“视觉模块”之间运行。 他们首先使用预训练的视觉模块(如对比模型和图像字幕模型)在LENS技术中提取丰富的文本信息。然后将文本发送到LLM,使其能够进行对象识别、视觉和语言(V&L)等任务。LENS通过消除对额外多模态预训练阶段或数据的需求,免费地弥合了模态之间的差距。此外,这种整合使我们能够立即利用计算机视觉和自然语言处理领域的最新进展,最大限度地发挥两个学科的优势。 他们提供了以下贡献: • 他们提出了LENS,一种通过使用语言模型的少样本、上下文学习能力来处理计算机视觉挑战的模块化方法。 • LENS使任何现成的LLM都能够在不经过进一步的训练或数据的情况下进行视觉处理。 • 他们使用冻结的LLM来处理对象识别和视觉推理任务,无需额外的视觉和语言对齐或多模态数据。实验结果表明,他们的方法在零样本性能上与Kosmos和Flamingo等端到端联合预训练模型相媲美或更优。他们的论文的部分实现已经在GitHub上可用。

Leave a Comment

Web规模训练释放:Deepmind推出OWLv2和OWL-ST,这是一种开创性的工具,用于开放词汇的目标检测,采用前所未有的自我训练技术驱动

开放词汇物体检测是各种实际计算机视觉任务的关键方面。然而,检测训练数据的有限可用性和预训练模型的脆弱性经常导致表现不佳和可扩展性问题。 为了解决这个挑战,DeepMind研究团队在他们的最新论文“Scaling Open-Vocabulary Object Detection”中介绍了OWLv2模型。这种优化的架构提高了训练效率,并采用了OWL-ST自训练方法,大大增强了检测性能,并在开放词汇检测任务中取得了最先进的结果。 这项工作的主要目标是优化标签空间、注释过滤和开放词汇检测自训练方法的训练效率,最终在有限的标记数据下实现稳健且可扩展的开放词汇性能。 所提出的自训练方法包括三个关键步骤: 团队使用现有的开放词汇检测器对WebLI数据集进行开放框检测。 他们利用OWL-ViT CLIP-L/14对所有WebLI图像进行边界框伪注释。 他们使用人工注释的检测数据对经过训练的模型进行微调,进一步改进其性能。 值得注意的是,研究人员采用了OWL-ViT架构的变体来训练更有效的检测器。该架构利用对比训练的图像-文本模型来初始化图像和文本编码器,而检测头部则是随机初始化的。 在训练阶段,团队使用相同的损失函数,并从OWL-ViT架构中添加“伪负样本”来增强查询,以优化训练效率,最大限度地利用可用的标记图像。 他们还结合了先前提出的大规模Transformer训练方法,进一步提高了训练效率。结果,OWLv2模型将训练FLOPS降低了约50%,训练吞吐量提高了2倍,相比原始的OWL-ViT模型。 团队在实证研究中将他们提出的方法与先前最先进的开放词汇检测器进行了比较。OWL-ST技术将LVIS罕见类别的平均准确率(AP)从31.2%提高到44.6%。此外,将OWL-ST自训练方法与OWLv2架构结合起来,实现了新的最先进性能。 总体而言,本文提出的OWL-ST自训练方法通过利用大规模网络数据的弱监督,显著提高了检测性能,实现了面向开放世界的规模化训练。这种方法解决了标记检测数据稀缺性带来的局限,并展示了以可扩展的方式实现稳健的开放词汇物体检测的潜力。

Leave a Comment

瑞士苏黎世联邦理工学院和马克斯·普朗克研究所的研究人员提出了HOOD:一种利用图神经网络、多级消息传递和无监督训练来实现高效预测逼真服装动力学的新方法

遠程會議、虛擬試穿、視頻遊戲等許多依賴於高保真數字人類的應用都需要模擬具有吸引力和逼真的服裝行為能力。基於物理法則的模擬是生成自然動態運動的一種常用方法。儘管物理模擬可以提供驚人的結果,但計算成本高、對初始情況敏感,並且需要有經驗的動畫師;頂尖的方法不能滿足實時應用所需的嚴格計算預算。基於深度學習的技術開始產生高效且高質量的結果。 然而,迄今為止,一些限制阻礙了這些方法充分發揮潛力。首先,目前的技術主要通過身體姿勢計算服裝變形並依賴線性混合蒙皮。雖然基於蒙皮的計劃可以為緊身衣物(如襯衫和運動服)提供令人印象深刻的結果,但對於連衣裙、裙子和其他寬鬆服裝等不完全模仿身體運動的服裝,它們需要幫助。重要的是,許多頂尖的基於學習的技術是特定於服裝的,只能預測捕捉到的特定服裝的變形。應用受到每件服裝都需要重新訓練這些技術的限制。 本研究由ETH蘇黎世聯邦理工學院和智能系統馬克斯·普朗克研究所的研究人員提供了一種獨特的方法,用於預測動態服裝變形的圖神經網絡(GNN)。通過對局部變形、壓力和加速度之間的關係進行邏輯推斷,他們的方法學習預測物理逼真的布料行為。由於其局部性,他們的方法直接推廣到任意身體形狀和運動,與服裝的整體結構和形狀無關。儘管GNN在取代基於物理的模擬方面表現出潛力,但將此思想應用於服裝模擬會產生不滿意的結果。使用GNN(實現為MLP)將給定網格的特徵向量和其一環鄰域進行本地轉換,然後使用每個轉換的消息來更新特徵向量。此過程的循環使信號在整個網格中傳播。然而,固定數量的消息傳遞階段將信號傳輸限制在一定半徑內。在建模服裝時,彈性波通過拉伸迅速流經材料,這導致頂點之間具有准全局和瞬間的長程耦合。步驟太少會減慢信號傳輸速度,並產生令人不舒服的過度拉伸瑕疵,使服裝看起來不自然且有彈性。增加計算時間是愚蠢地增加迭代的代價。 由於無法事先知道模擬網格的最大大小和分辨率,以便選擇保守且適當高的迭代次數,這只會加劇這個問題。他們建議在分層網絡上進行消息傳遞系統,交替在不同解析度的傳播階段中解決此問題。這允許在大尺寸下有效處理由於硬拉伸模態引起的快速移動波,同時在更細的尺度上提供描述褶皺和皺紋等局部細節所需的關鍵。通過測試,他們展示了他們的圖表示如何在相同的計算預算下提高預測。 通過採用隱式時間步進的增量潛力作為損失函數,他們將基於圖的神經網絡的思想與不同的模擬方法結合起來,以增加他們方法的泛化能力。由於這種形式,他們不再需要任何地面真實(GT)註釋。這使得他們的網絡可以完全無監督地訓練,同時學習多尺度服裝動力學、材料參數的影響、碰撞反應以及與底層身體的摩擦接觸。圖形表示還使我們能夠模擬運動中的襯衫解扣和具有不同和變化的拓撲的服裝。 他們的HOOD方法結合了圖神經網絡、多層消息傳遞和無監督訓練,可以實時預測各種服裝風格和身體類型的逼真服裝動態。他們實驗性地證明,與頂尖方法相比,他們的方法在靈活性和廣泛性方面具有戰略優勢。特別是,他們展示了單一訓練網絡: 有效預測了各種服裝的物理逼真動態運動。 對於在訓練期間未見過的新款式和形狀具有泛化能力。 允許運行時更改材料屬性和服裝尺寸。 支持開啟拉鍊或解扣襯衫等動態拓撲變化。 研究人員已在GitHub上提供了模型和代碼,供研究使用。

Leave a Comment

赋予机器人复杂任务执行能力:Meta AI利用人类行为的互联网视频开发视觉适应模型

Meta AI,一家领先的人工智能(AI)研究机构,最近发布了一种具有突破性的算法,承诺将彻底改变机器人领域。在他们的研究论文《从人类视频中获取作为机器人多功能表示的可供性》中,作者探讨了将YouTube视频应用于机器人学习和复制人类动作的强大训练工具。通过利用在线教学视频的丰富资源,这种尖端算法旨在弥合静态数据集和真实世界机器人应用之间的差距,使机器人能够以更大的多样性和适应性执行复杂任务。 这种创新方法的核心是“可供性”概念。可供性代表对象或环境提供的潜在行为或互动。通过通过分析人类视频来训练机器人理解和利用这些可供性,Meta AI的算法为机器人提供了一个多功能表示,用于执行各种复杂任务。这一突破提高了机器人模仿人类动作的能力,并赋予它们在新的和不熟悉的环境中应用所获得的知识的能力。 为了确保将这种基于可供性的模型无缝集成到机器人的学习过程中,Meta AI的研究人员将其纳入了四种不同的机器人学习范式中。这些范式包括离线模仿学习,探索,目标条件学习和强化学习的动作参数化。通过将可供性识别的能力与这些学习方法相结合,机器人可以获得新的技能,并以更高的精度和效率执行任务。 为了有效地训练可供性模型,Meta AI利用大规模的人类视频数据集,如Ego4D和Epic Kitchens。通过分析这些视频,研究人员使用现成的手-物体交互检测器来识别接触区域并跟踪接触后手腕的轨迹。然而,当场景中的人物存在时,会出现一个重要挑战,即分布转移。为了克服这个障碍,研究人员利用可用的相机信息将接触点和接触后轨迹投影到一个与人无关的框架中,然后将其作为输入提供给他们的模型。 在这一突破之前,机器人在模仿动作方面的能力有限,主要局限于复制特定环境。然而,通过Meta AI的最新算法,在泛化机器人动作方面取得了重大进展。这意味着机器人现在可以在新的和不熟悉的环境中应用所获得的知识,展示出更高的适应性。 Meta AI致力于推进计算机视觉领域的发展,并促进研究人员和开发人员之间的合作。根据这一承诺,该组织计划共享其项目的代码和数据集。通过使这些资源对其他人可访问,Meta AI旨在鼓励对这项技术进行进一步的探索和开发。这种开放的方法将促进自学习机器人的发展,它们可以从YouTube视频中获得新的技能和知识,推动机器人领域进入新的创新领域。

Leave a Comment

认识全新的Zeroscope v2模型:一种免费的文本到视频模型,可在现代显卡上运行

在一系列前所未有的事件中,一种名为Zeroscope的下一代开源AI模型已经在市场上推出,具备在现代图形卡上运行最先进的文本到视频服务的能力,并且以相对较低的成本提供给用户。中国的Modelscope旗下的Zeroscope旨在通过解锁新的AI用例,彻底改变媒体和视频创作领域。 了解Zeroscope的功能组成对于理解它如何通过文本革新视频生成领域非常重要。这个开源模型的独特之处在于它的两个关键组件,Zeroscope V2和Zeroscope V2XL;Zeroscope_v2 567w,用于以576×320像素的分辨率快速创建内容以探索视频概念。然后可以使用zeroscope_v2_XL将高质量视频升级到“高清”分辨率1024×576,因此用户可以使用ZeroScope V2快速创建视频,然后使用V2XL进行升级。 除此之外,由于多级模型的17亿个参数,Zeroscope的要求令人惊讶地易于管理。Zeroscope在较低分辨率下的VRAM需求为7.9千兆字节,而在较高分辨率下为15.3千兆字节。较小的模型可以在许多标准图形卡上执行,使其可供更广泛和更一般的用户使用。 Zeroscope通过对近10,000个剪辑和近30,000个帧进行偏移噪声的战略训练。这种非传统的行为组合为Zeroscope开启了新的机遇和可能性。通过引入随机物体移动、帧时序的微小变化和轻微扭曲等变化,模型改善了对数据分布的理解,从而帮助模型以多样化的尺度生成更真实的视频,并有效地解释文本描述中微妙的变化。凭借所有这些功能,Zerscope迅速成为商业文本到视频模型提供商Runway的有力竞争对手。 文本到视频作为一项工作仍在进展中,生成的视频片段往往较短且存在一些视觉缺陷。然而,如果我们看一下图像AI模型的发展历程,它们在达到照片逼真质量之前也面临了类似的挑战。主要挑战是视频生成在训练和生成阶段都需要更多的资源。 Zeroscope作为一种强大的文本到视频模型的出现为许多新的数字进展和用例铺平了道路,例如: 个性化游戏、虚拟现实和元宇宙:Zeroscope的转换能力可以重新定义视频游戏中的故事叙述。玩家可以通过他们的话语实时影响剪辑和游戏玩法,实现难以想象的互动和个性化。此外,游戏开发者可以快速原型和可视化游戏场景,加快开发速度。 个性化电影:Zeroscope的技术通过基于用户描述生成个性化内容来颠覆媒体行业。用户可以输入情节或场景描述,并根据其回应创建个性化视频。此功能可以实现观众的积极参与,并为定制内容创作开辟了新的途径,例如个性化视频广告或用户定制的电影场景。 合成创作者:Zeroscope为依靠AI将其想法编写、制作和编辑成现实的新一代创作者铺平了道路。它消除了视频创作中的技术技能障碍,并有可能为自动化、高质量的视频内容建立新的标准。人类和AI创作者之间的界限变得模糊,拓宽了创造力的领域。 Zeroscope旨在成为一种轻量级的突破性模型,可以轻松进行微调,并且不需要特殊的资源设置,使其不仅成为多个普通用户可以使用的工具,而且许多缺乏大型实验室资源的新兴研究人员现在可以使用此类算法来更好地理解它们并以合理的成本推进整个领域的发展。看到激烈竞争将激励Zeroscope的创作者创新并占据强劲的市场地位将是令人惊叹的。

Leave a Comment

微软研究员推出KOSMOS-2:一种能够与视觉世界相连接的多模态大语言模型

多模态大型语言模型(MLLMs)在各种活动中已经展示了成功,包括语言、视觉和视觉语言任务。在零样本和少样本条件下,MLLMs可以感知文本、图片和音频等通用模态,并使用自由形式的文本生成答案。在本研究中,它们使多模态大型语言模型具备自我定位的能力。对于视觉语言任务,定位能力可以提供更实用和有效的人工智能界面。该模型可以解释图片区域及其地理坐标,让用户可以直接指向图像中的物品或区域,而不是输入冗长的文本描述来引用它。 图1:展示了使用KOSMOS-2生成的选定样本。视觉定位、定位问题回答、使用边界框的多模态引用、定位图片字幕和视觉定位都是一些例子。 该模型的定位功能还使其能够提供视觉响应(即边界框),这可以帮助其他视觉语言任务,如理解指代表达式。与仅基于文本的响应相比,视觉响应更精确,能够消除指代模糊。生成的自由形式文本响应的定位能力可以将名词短语和指代术语与图片区域连接起来,以产生更准确、丰富和详尽的响应。微软研究的研究人员介绍了具备定位能力的多模态大型语言模型KOSMOS-2,该模型基于Transformer通过下一个单词预测任务进行训练。 他们构建了一个基于网络规模的数据集,其中包含了图片和文本的定位配对,并将其与KOSMOS-1中的多模态语料库进行整合,以充分利用定位的潜力训练模型。定位的图片和文本配对是来自LAION-2B和COYO-700M的子集。他们提供了一个流程,从字幕中提取和连接文本片段(如名词短语和指代表达式)到图片中相应对象或区域的空间位置(如边界框)。他们将边界框的地理坐标转化为一串位置标记,并在相应的文本片段之后添加。数据格式充当了将图像元素与字幕链接起来的“超链接”。 实验结果表明,KOSMOS-2在定位任务(短语定位和指代表达理解)和指代任务(指代表达式生成)上表现优秀,并且在KOSMOS-1评估的语言和视觉语言任务上也表现出竞争力。图1说明了通过定位功能,KOSMOS-2可以用于更多的下游任务,如定位图片字幕和定位视觉问题回答。GitHub上提供了在线演示。

Leave a Comment

2023年要关注的十位人工智能影响者

介绍 在一个由尖端技术和令人难以置信的可能性驱动的世界中,跟上不断发展的人工智能领域既令人兴奋又至关重要。当我们踏入充满希望的2023年时,是时候踏上一段令人激动的旅程,探索最具影响力和远见卓识的人工智能先驱者们的思想。系好安全带,准备好见证2023年跟随的十大人工智能影响者,这些前卫的思想家和创造者正在塑造人工智能领域的格局,推动着可能性的界限。 从突破性的研究到引人入胜的见解,这些人工智能影响者是指引你穿越令人兴奋的人工智能世界的明星。所以,拿起你的虚拟笔记本,系好安全带,因为我们即将踏上一场关于当代最聪明的人工智能思想家思维的激动人心的探索之旅。准备好在2023年及以后重新定义人工智能未来的那些有远见的人们的启发、信息和赋能。 但在你深入阅读这个前十名单之前,我们想向你介绍一个令人惊叹的机会,让你开阔视野,提升技能。我们为所有数据科学和人工智能爱好者提供了一个独家邀请,参加备受期待的2023年DataHack峰会。这一盛事将于8月2日至5日在班加罗尔著名的NIMHANS会议中心举行。这个活动将提供丰富的实践学习、宝贵的行业洞察和无与伦比的网络机会。在这里查看有关DataHack Summit 2023的更多信息,并加入我们的数据革命。 人工智能影响者的定义 人工智能影响者是通过他们的专业知识、思想领导力和贡献在人工智能领域获得认可和影响力的个人。他们积极与人工智能社区互动,并利用社交媒体平台。 人工智能影响者并不局限于单一的社交媒体平台。除了Instagram之外,他们在Twitter、YouTube、LinkedIn和博客等各种平台上都拥有强大的存在感,以分享关于人工智能的见解、研究成果、行业趋势和发人深省的内容。这些影响者拥有庞大的粉丝群体,并与他们的听众互动,促进讨论,提供指导,并激发人工智能领域的创新。从组织黑客马拉松到进行直播编码会议,这些影响者展示了他们的专业知识,并获得了显著的人气和关注。他们的互动会议和活动为人才迸发提供了宝贵的学习机会,鼓励有抱负的人工智能专业人士提升他们的技能,并与最新的进展保持同步。 人工智能影响者在人工智能领域的重要性 人工智能影响者在人工智能领域的重要性不容忽视。他们在以下几个方面发挥着关键作用: 知识传播 人工智能影响者帮助向广大受众传播知识、洞见和行业更新。他们简化复杂的人工智能概念,使其更易于被有抱负的人工智能专业人士、爱好者甚至普通大众所理解。 引领潮流和意见领袖 人工智能影响者通常对最新的人工智能趋势、突破和技术了如指掌。他们的观点和建议具有重要影响力,可以影响人工智能研究、应用和行业实践的方向。 网络和合作 人工智能影响者为人工智能社区提供了一个网络和合作的平台。他们连接专业人士、研究人员和组织,促进了一个加速创新、推动人工智能技术发展的合作环境。 值得关注的顶级人工智能影响者 1. Andrew Ng Andrew Ng在Twitter上拥有超过210万的粉丝,他是人工智能社区中的知名人物。他是在线学习平台Coursera和以人工智能为重点的教育平台deeplearning.ai的共同创始人。他曾任百度首席科学家,并创办并领导了“Google Brain”项目,该项目开发了大规模深度学习算法。最近,他继续研究深度学习及其在语音识别和计算机视觉中的应用,包括自动驾驶。 来源:维基百科…

Leave a Comment

LangFlow | 使用LLMs开发应用程序的LangChain用户界面

介绍 大型语言模型席卷全球。随着ChatGPT、GPT3、Bard和其他大型语言模型的出现,开发人员不断使用这些模型来创建新的产品解决方案。每一天都会有一个新的大型语言模型或现有LLM的新版本。跟上这些新版本或新模型可能会有问题,因为人们必须阅读每个大型语言模型的文档。LangChain是一个包装所有不同LLM的库,使事情变得更容易。此外,基于LangChain的UI——LangFlow也被引入,可以直接与之交互和创建应用程序,使事情变得更好。 学习目标 了解LangFlow UI 安装和使用LangFlow 了解LangFlow的内部工作原理 使用LangFlow创建应用程序 通过LangFlow共享创建的应用程序 本文是Data Science Blogathon的一部分。 什么是LangFlow和为什么使用LangFlow? LangFlow是一个基于Python包LangChain和react-flow设计的图形用户界面(UI)。LangChain是一个用于创建大型语言模型应用程序的Python包。它由不同的组件组成,如代理、LLMs、链、内存和提示。开发人员将这些模块链在一起以创建应用程序。LangChain包含几乎所有流行的大型语言模型的包装器。现在,要使用LangChain,必须编写代码来创建应用程序。编写代码有时可能耗时甚至容易出错。 这就是LangFlow的作用。它是基于LangChain的图形用户界面(UI)。它包含LangChain中的所有组件。LangFlow提供了拖放功能,您可以将组件拖放到屏幕上并开始从大型语言模型构建应用程序。它甚至包含了丰富的示例供每个人开始使用。在本文中,我们将介绍这个UI,并看看如何使用它构建应用程序。 让我们从LangFlow开始 现在,我们已经了解了LangFlow是什么,以及它的作用,让我们深入了解其功能,以更好地理解其功能。LangFlow UI适用于JavaScript和Python。您可以选择其中一种并开始使用。对于Python版本,需要在系统中安装Python和LangChain库。 如果您想使用LangFlow,您需要安装以下软件包 pip install langchain pip install langflow…

Leave a Comment

MosaicML刚刚以Apache 2.0协议发布了他们的MPT-30B

在MosaicML-7B取得巨大成功之后,MosaicML再次超越了他们之前设定的基准。在这个新的突破性发布中,MosaicML推出了MosaicML-30B。 MosaicML是一个非常精确和强大的预训练transformer。MosaicML声称,MosaicML-30B甚至比ChatGPT3更好。 MosaicML-30B发布之前,MosaicML-7B已经席卷了人工智能界。MPT-7B的基础指导、基础聊天和故事创作都取得了巨大的成功。公司声称,这些模型在全球下载了300多万次。推动MosaicML推出更好的引擎(如MPT-30B)的最大原因之一是社区对他们之前发布的模型的热衷。 令人难以置信的是,社区如何运用这些MPT引擎构建出更好的调整并提供具体的使用案例。一些有趣的案例包括LLaVA-MPT。LLaVa-MPT将视觉理解添加到预训练的MPT-7B中。 类似地,GGML优化MPT引擎以在Apple Silicon和CPU上更好地运行。GPT4ALL是另一个使用案例,它让您使用MPT作为基础引擎运行类似于GPT4的聊天选项。 仔细观察,MosaicML能够给大公司带来激烈竞争和更好的替代品的最大原因之一是他们提供的竞争性特性列表以及他们的模型相对于不同用例的适应性和相对简单的集成。 在这个发布中,MosaicML还声称他们的MPT-30B比现有的ChatGPT3表现更好,但使用的参数数量只有ChatGPT的三分之一,使其成为相对于现有生成解决方案来说非常轻量级的模型。 它比MosaicML现有的MPT-7B更好,并且这个MPT-30B可以在商业许可下进行商业使用。 不仅如此,MPT-30B还带有两个预训练模型,即MPT-30B-Instruct和MPT-30B-Chat,这两个模型能够受到单个指令的影响,并且能够进行较长时间的多轮对话。 它之所以更好的原因还有很多。MosaicML设计MPT-30B采用自下而上的方法,确保每个移动部件都能更好地执行和更高效地运行。MPT-30B通过8k个标记上下文窗口进行训练。它通过ALiBi支持更长的上下文。 借助FlashAttention,它改进了训练和推断性能。MPT-30B还具备更强的编码能力,这要归功于他们所处理的数据的多样性。该模型在Nvidia的H100上扩展到了8K的上下文窗口。该公司声称,就他们所知,这是在H100上进行训练的第一个LLM模型,而这些模型对于客户来说是随时可用的。 MosaicML还保持了模型的轻量级,这有助于新兴组织降低运营成本。 MPT-30B的大小也是特意选择的,以便在单个GPU上轻松部署。1xA100-80GB以16位精度或1xA100-40GB以8位精度可以运行该系统。其他相当的LLMs,如Falcon-40B,具有更大的参数数量,并且不能在单个数据中心GPU上提供服务(今天);这就需要2个或更多的GPU,从而增加了最低推理系统成本。

Leave a Comment

微软研究院推出phi-1:一款专门针对Python编码的大型语言模型,比竞争模型更小,具有显著的优势

自从Transformer设计被发现以来,训练大型人工神经网络的技术已经取得了巨大进展,但支撑这一成就的科学仍处于萌芽阶段。在Transformer发布的同时,一种秩序感逐渐形成,这种秩序在同一时间的大量复杂结果中展现出来,表明性能随着计算量或网络规模的增加而可预测地提高,这种现象现在被称为缩放定律。这些缩放规则成为后续深度学习规模研究的指南,而对这些定律变化的发现导致了性能的大幅提升。 在本文中,研究者探讨了如何通过不同的方式提高数据质量。高质量的数据可以产生更好的结果;例如,数据清洗是创建当前数据集的关键步骤,可以使数据集相对较小或能够通过更多迭代运行数据。最近针对TinyStories的研究表明,高质量数据的好处远不止于此。通过大幅改变缩放定律,改善数据质量可能使得能够用更瘦的训练/模型匹配大规模模型的性能。 在本研究中,微软研究的作者证明了高质量的数据可以进一步提高大型语言模型的最先进技术,同时显著减少数据集的大小和训练计算量。较小的模型需要更少的训练,可以大大减少LLM的环境成本。他们从文档字符串中构建了特定的Python函数,使用LLM进行编码训练。HumanEval是后一篇论文中建议使用的评估标准,常用于比较LLM在代码上的性能。 他们通过对1.3B参数模型进行大约8次7B令牌(略大于50B总令牌数)的预训练,然后对少于2亿个令牌进行微调,展示了高质量数据违反现有缩放规则的能力。总的来说,他们在“课本质量”的数据上进行预训练,包括人工创造的(使用GPT-3.5)和从网络来源筛选的,然后在“类似于课本的练习”数据上进行微调。尽管数据集和模型大小都比竞争模型小几个数量级,但他们在HumanEval上获得了50.6%的pass@1准确率,在MBPP(Mostly Basic Python Programs)上获得了55.5%的pass@1准确率,这是仅使用一个LLM生成的最佳自我报告数字之一。 通过对1.3B参数模型进行大约8次7B令牌的预训练(观察总令牌数略大于50B),然后对少于2亿个令牌进行微调,他们展示了高质量数据违反现有缩放规则的能力。总的来说,他们在“课本质量”的数据上进行预训练,包括人工创造的(使用GPT-3.5)和从网络来源筛选的,然后在“类似于课本的练习”数据上进行微调。尽管数据集和模型大小都比竞争模型小几个数量级,但他们在HumanEval上获得了50.6%的pass@1准确率,在MBPP(Mostly Basic Python Programs)上获得了55.5%的pass@1准确率,这是仅使用一个LLM生成的最佳自我报告数字之一。

Leave a Comment

8个关于大型语言模型LLMs的潜在惊人事实

近几个月,由于大规模语言模型(LLMs)的广泛公开部署,倡导者、政治家和来自各个学科的学者都表现出了极大的兴趣和活动。虽然这种关注是有道理的,因为新技术带来了紧迫的问题,但它也可能忽略了一些关键因素。 最近,大规模语言模型以及基于它们构建的产品,例如ChatGPT,引起了来自记者、政策制定者和跨学科学者的广泛关注。然而,由于这种技术在很多方面都是出人意料的,简明扼要的解释很容易忽略关键细节。 这其中有八个意想不到的方面: LLMs的能力将随着更多的投资而可预测地增加,即使没有刻意的创新。 LLMs的研究和投资的最近增加可以在很大程度上归因于规模定律的结果。当研究人员增加将来模型中输入的数据量、模型的大小(以参数为单位)以及用于训练它们的计算量时,规模定律允许他们精确地预测这些模型将具有多么有能力(以FLOP为单位)的某些粗略但相关的指标。因此,他们可能做出一些关键的设计决策,例如在特定预算内的最佳模型大小,而无需进行大量昂贵的实验。 在当代人工智能研究的背景下,预测的准确率是前所未有的。由于它使研发团队能够提供数百万美元的模型培训计划,并确信这些项目将成功开发出经济上有益的系统,因此它也是推动投资的有力工具。 尽管最先进的LLMs的训练方法尚未公开,但最近的深入报告暗示这些系统的基本架构甚至没有改变。 随着资源不断注入LLMs,常常会出现意想不到的关键行为。 在大多数情况下,模型正确预测未完成文本的延续能力(根据其预训练测试损失衡量)只能通过缩放规则来预测。 尽管这个指标平均上与模型在许多实际活动中的实用性相关,但很难预测模型何时开始展示特定的才能或成为执行特定任务的能力。 更具体地说,GPT-3的能力执行少量样本学习——也就是在单次交互中从少量示例中学习新任务——以及思维链推理——也就是在请求时写出其推理,如同学生在数学考试上所做的那样,并展示出更好的表现——使其成为第一个现代LLM。 未来的LLMs可能会开发出所需的任何功能,并且很少有被普遍接受的界限。 然而,LLMs所取得的进展有时比专家预期的要少。 LLMs经常获取并使用外部世界的表示。 越来越多的证据表明,LLMs建立了世界的内部表示,使它们能够以对文本的特定语言形式不敏感的抽象层次进行推理。这种现象的证据在最大和最新的模型中最为强烈,因此应该预计在更大规模的系统中,这种现象将变得更加强大。 然而,当前的LLMs需要更加有效地做到这一点。 以下发现基于各种实验技术和理论模型,支持这种说法。 模型的内部颜色表示与人类感知颜色的实证发现高度一致。 模型可以推断作者的知识和信念,预测文档的未来走向。 故事用于告诉模型,然后模型会改变其对故事中所代表的对象的特征和位置的内部表示。 有时,模型可以提供如何在纸上描绘奇怪事物的信息。 许多常识推理测试都被模型通过了,即使是像Winograd Schema Challenge这样的测试,也没有任何文本提示答案。 这些发现反驳了传统智能模型仅仅是统计下一个词的预测器,并且无法推广其学习或推理超越文本的普遍观点。…

Leave a Comment

什么是AI幻觉?AI聊天机器人出了什么问题?如何识别出幻觉的人工智能?

AI幻觉并非新问题。人工智能(AI)在过去几年取得了显著进展,变得更加熟练,可以执行以前只能由人类完成的活动。然而,幻觉是一个对AI构成了巨大障碍的问题。开发者已经警告,AI模型产生完全错误的事实并用虚构的答案回答问题,似乎这些答案是真实的,这可能会危及应用程序的准确性、可靠性和信任度,因此幻觉是开发和部署AI系统的严重障碍。因此,从事AI工作的人正在积极寻求解决这个问题的方法。本文将探讨AI幻觉的影响和影响,以及用户可能采取的减少接受或传播不正确信息的危险的措施。 什么是AI幻觉? 所谓人工智能幻觉的现象是指AI模型产生了预期之外的结果。请注意,一些AI模型已经被教导了有意地制造没有与现实世界输入(数据)相关联的输出。 幻觉是用来描述当AI算法和深度学习神经网络创建结果不是真实的、不匹配算法接受过的任何数据或没有遵循任何其他可辨别的模式的情况。 AI幻觉可以采取许多不同的形式,从制造虚假新闻报道到虚假的关于人、历史事件或科学事实的断言或文件。例如,像ChatGPT这样的AI程序可以制造一个有完整传记和从未真实存在的成就的历史人物。在当前社交媒体和即时通信的时代,一个单一的推文或Facebook帖子可以在几秒钟内达到数百万人,这种不正确信息传播的潜力尤其令人担忧。 为什么会发生AI幻觉? 具有欺骗AI程序使其误分类的输入数据——对抗性示例——可能会导致AI幻觉。例如,开发人员使用数据(例如图像、文本或其他类型)来训练AI系统;如果数据被改变或扭曲,应用程序将以不同的方式解释输入并产生不正确的结果。 使用编码器-解码器(输入-输出)序列,AI中的变压器是一种深度学习模型,它利用自我关注(语句中单词之间的语义联系)创建类似于人类写作的文本。对于幻觉而言,如果语言模型的训练数据和资源充足且准确,那么预期输出将是虚构的和错误的。语言模型可能会产生一个故事或叙述,没有不合逻辑的间隙或模糊的联系。 发现AI幻觉的方法 作为人工智能的一个子领域,计算机视觉旨在教会计算机从视觉输入(例如图片、绘画、电影和现实生活)中提取有用的数据,它正在培训计算机像人类一样看待世界。但是,由于计算机不是人类,它们必须依靠算法和模式来“理解”图片,而不是直接接触人类感知。因此,人工智能可能无法区分薯片和落叶。这种情况也经过了常识测试:与人类可能看到的相比,AI生成的图像。当然,随着AI变得更加先进,这变得越来越困难。 如果人工智能没有迅速融入日常生活,这一切都会显得荒谬和有趣。自动驾驶汽车已经采用了人工智能,其中幻觉可能导致死亡。虽然这还没有发生,但在实际世界中开车时误认物品是一场灾难,只等发生。 在使用流行的AI应用程序时,以下是几种识别AI幻觉的技术: 1. 大型语言处理模型 像ChatGPT这样的大型处理模型生成的信息中的语法错误是罕见的,但当它们发生时,你应该对幻觉持怀疑态度。同样,当生成的文本内容不合理、不符合提供的上下文或与输入数据不匹配时,应该对幻觉持怀疑态度。 2. 计算机视觉 人工智能有一个子领域叫做计算机视觉,机器学习和计算机科学,它使机器能够像人眼一样检测和解释图像。它们依赖于卷积神经网络中的大量视觉训练数据。 如果用于训练的视觉数据模式发生变化,就会出现幻觉。例如,如果计算机还没有接受过网球的图像训练,它可能会错误地将网球识别为绿色或橙色。如果计算机错误地将站在人类雕像旁的马识别为真实的马,它也可能会产生AI幻觉。 将产生的输出与人类预期观察到的输出进行比较,将帮助您识别计算机视觉幻觉。 3.   自动驾驶汽车 由于人工智能的推动,自动驾驶汽车在汽车工业中越来越受欢迎。自动驾驶汽车的先驱们,如福特的BlueCruise和特斯拉的Autopilot,推动了这一计划。通过查看特斯拉Autopilot感知的方式和内容,您可以了解一些关于人工智能如何支持自动驾驶汽车的知识。 幻觉对人类和人工智能模型的影响是不同的。人工智能幻觉是错误的结果,与现实极不一致或在提供的提示的情况下毫无意义。例如,AI聊天机器人可能会因噪声或其他结构问题而以语法或逻辑上不正确的方式回答,或错误地识别一个对象。…

Leave a Comment

认识PyRCA:一个开源的Python机器学习库,专为AIOps中的根本原因分析(RCA)而设计

人工智能和机器学习领域正在快速发展,这要归功于它们在几乎所有行业中的惊人能力和用例。随着人工智能逐渐被整合到不同领域中,并且愈发受到欢迎,也出现了与之相关的问题和限制。根本原因分析(RCA)是一种发现问题根本原因以找到最佳解决方案的方法。它有助于确定模型中事件或故障的深层原因。在IT运营、电信等领域,尤其是在人工智能领域,模型的复杂性经常导致事件降低了产品系统的可靠性和有效性。通过RCA的帮助,该方法寻找多个因素并建立它们之间的因果关系,以期为这些情况提供解释。 最近,Salesforce AI的一组研究人员推出了PyRCA,这是一个针对人工智能运维(AIOps)领域的根本原因分析(RCA)的开源Python机器学习库。PyRCA提供了一个全面的框架,使用户能够独立地找到指标和事件根本原因之间的复杂因果关系。该库提供了图形构建和评分操作,并具有支持多种广泛使用的RCA模型的统一接口,同时提供了快速模型创建、测试和部署的简化方法。 这个根本原因分析的全面Python库提供了一个端到端的框架,包括数据加载、因果图发现、根本原因定位和RCA结果可视化。它支持多个模型来创建图形和评分根本原因,并帮助用户快速加载相关数据并识别各种系统组件之间的因果联系。PyRCA带有一个GUI仪表板,使交互式RCA更加容易,从而提供了更流畅的用户体验,并更好地与实际情况相适应。该GUI的点和点击接口具有直观性,并赋予用户与库进行交互并将他们的专业知识注入RCA过程的能力。 有了PyRCA,工程师和研究人员现在可以轻松地分析结果、可视化因果联系,并通过GUI仪表板在RCA过程中前进。该团队分享的PyRCA的一些关键功能如下: PyRCA旨在提供一个标准化和高度适应性的框架,以流行的pandas.DataFrame格式加载度量数据并基准测试各种RCA模型。 通过一个单一的接口,PyRCA提供了访问各种模型的机会,用于发现因果网络和定位根本原因。用户也可以选择完全自定义每个模型以适应其独特的要求,包括GES、PC、随机漫步和假设测试模型。 通过结合用户提供的领域知识,库中提供的RCA模型可以被加强,使其在处理嘈杂的度量数据时更具韧性。 通过实现一个从RCA基类继承的单个类,开发人员可以快速将新的RCA模型添加到PyRCA中。 PyRCA包提供了一个可视化工具,使用户能够比较多个模型、审查RCA结果,并快速包含领域知识,而无需任何代码。 该团队详细解释了PyRCA的架构和主要功能。它提供了该库设计和核心能力的概述。

Leave a Comment

将其变为数字木偶:GenMM是一种可以使用单个示例合成动作的AI模型

计算机生成的动画每天都变得更加逼真。这种进步最能体现在视频游戏中。想想《古墓丽影》系列中的第一个Lara Croft和最近的Lara Croft。我们从一个只有230个多边形的木偶做出了怪异的动作,到了一个在屏幕上平滑移动的逼真角色。 在计算机动画中生成自然且多样化的动作长期以来一直是一个具有挑战性的问题。传统的方法,如动作捕捉系统和手动动画制作,已知是昂贵和耗时的,导致缺乏风格、骨骼结构和模型类型多样性的有限动作数据集。动画生成的手动和耗时特性需要在行业中寻找一种自动化解决方案。 现有的数据驱动运动合成方法在其效果方面受到限制。然而,近年来,深度学习已经成为计算机动画中一种强大的技术,能够在大型和全面的数据集上训练时合成多样化和逼真的动作。 深度学习方法在运动合成方面表现出色,但它们存在局限性,限制了它们的实际适用性。首先,它们需要长时间的训练时间,这可能是动画制作流程中的重要瓶颈。其次,它们容易出现视觉伪影,如抖动或过度平滑,影响合成动作的质量。最后,它们很难适应大型和复杂的骨架结构,限制了它们在需要复杂动作时的使用。 我们知道有一种可靠的运动合成方法在实际场景中有需求。然而,这些问题并不容易克服。那么,什么是解决方案?是时候见识一下GenMM了。 GenMM是一种基于运动最近邻和运动匹配的替代方法。它使用运动匹配,这是工业界广泛使用的角色动画技术,并产生高质量的动画,看起来自然并适应不同的局部环境。 GenMM可以使用单个输入生成动作。来源:http://weiyuli.xyz/GenMM/ GenMM是一种生成模型,可以从单个或少量示例序列中提取多样化的动作。它通过利用广泛的运动捕捉数据库来近似整个自然运动空间来实现这一点。 GenMM将双向相似性作为一种新的生成成本函数。这种相似性度量确保合成的运动序列只包含所提供的示例的运动补丁,反之亦然。这种方法保持了运动匹配的质量,同时实现了生成能力。为了进一步增强多样性,它使用了一个多阶段框架,逐步合成运动序列,这些运动序列与示例相比具有最小的分布差异。此外,还引入了一个无条件的噪声输入到管道中,受到基于GAN的图像合成方法成功的启发,以实现高度多样化的合成结果。 GenMM概述。来源:https://arxiv.org/pdf/2306.00378.pdf 除了其多样化运动生成能力外,GenMM还证明了它是一种可扩展的框架,可以扩展到超出仅使用运动匹配的能力的各种场景。这些场景包括运动完成、关键帧引导生成、无限循环和运动重组,展示了生成运动匹配方法所能实现的广泛应用范围。

Leave a Comment

一项来自斯坦福、康奈尔和牛津的新人工智能研究,引入了一种生成模型,它可以从单张图像中仅有的几个实例中发现物体内在属性

玫瑰的本质由其独特的几何形状、纹理和材料组成。这可以用来创建不同大小和形状的玫瑰,并在各种位置和具有广泛的照明效果。即使每朵玫瑰都有独特的像素值,我们仍然可以将它们识别为同一类的成员。 研究人员来自斯坦福大学、牛津大学和康奈尔技术学院,他们希望利用来自单张照片的数据,创建一个可以用于从不同角度和照明下生成新形状和图像的模型。 解决这个问题陈述有三个障碍: 由于训练数据集中只有一张图像,而且只有几百个实例,因此推断问题非常松散。 在这些情况下可能会有广泛的可能像素值,因为不知道姿态或照明条件。 没有两朵玫瑰是相同的,需要捕捉它们的形状、纹理和材料的分布,以利用底层的多视角信息。因此,旨在推断的对象固有属性是概率的,而不是确定的。与当前用于静态对象或场景的多视角重建或神经渲染方法相比,这是一个重要的变化。 所提出的方法以物体固有属性为起点,用于诱导模型创建中的偏差。这些规则有两个部分: 要呈现的实例应该都具有相同的物体固有属性或几何、纹理和材料的分布。 固有属性不是相互独立的,而是以一种特定的方式交织在一起,由渲染引擎定义,最终由物理世界定义。 更具体地说,他们的模型采用单个输入图像,并使用一组实例掩模和实例的特定姿态分布,学习物体三维形状、表面反射率和光泽度的分布的神经表示,从而消除了姿态和照明波动的影响。这种基于物理的、明确的解缠可以帮助他们简要解释实例。它使模型能够获取物体固有属性,而不会过度拟合由单个图像提供的稀疏观察数据。 正如研究人员所提到的,由此产生的模型可以实现多种用途。例如,可以通过从学习的物体固有属性中随机采样来生成具有不同身份的新实例。可以通过调整这些外部元素来重新渲染具有新的相机角度和照明设置的合成实例。 团队进行了彻底的测试,以展示模型的改进形状重建和生成性能、创新的视图合成和重照。

Leave a Comment

微软AI介绍了一种基于ZeRO的高级通信优化策略,用于高效的大模型训练,不受批量大小或带宽限制的阻碍

微软研究人员推出了一个名为ZeRO++的新系统,该系统已经被开发用于优化大型AI模型的训练,解决了高数据传输开销和带宽有限的挑战。ZeRO++在现有的ZeRO优化基础上进行了扩展,提供了增强的通信策略,以提高训练效率,缩短训练时间和降低训练成本。 如Turing-NLG、ChatGPT和GPT-4等大型模型的训练需要跨多个GPU设备使用大量存储器和计算资源。DeepSpeed开发的ZeRO++引入了通信优化策略,以克服在每个GPU上使用小批量大小或在低带宽集群上训练时ZeRO的局限性。 ZeRO优化的家族,包括ZeRO-Inference,使模型状态在GPU之间进行分区,而不是复制,利用集体GPU内存和计算能力。然而,在训练过程中,ZeRO可能会产生高通信开销。ZeRO++通过融合三组通信优化解决了这个问题:量化权重通信(qwZ)、分层权重分区(hpZ)和量化梯度通信(qgZ)。 为了减少参数通信量,ZeRO++对权重进行了量化,利用基于块的量化来保留训练精度。这个优化的量化过程比基本的量化更快,更准确。为了在反向传播期间最小化通信开销,ZeRO++通过在每台机器内维护一个完整的模型副本来以GPU内存为代价进行通信。对于梯度通信,ZeRO++引入了一种新颖的量化梯度通信范式qgZ,以减少跨节点的流量和延迟。 这些通信优化导致通信量的大幅度减少。与ZeRO相比,ZeRO++实现了高达4倍的减少,提高了训练吞吐量和效率。当每个GPU使用小批量大小时,在高带宽集群中,ZeRO++比ZeRO-3提高了28%至36%的吞吐量。在低带宽集群中,ZeRO++与ZeRO-3相比实现了平均2倍的加速,使大型模型训练更加普及。 ZeRO++不仅限于训练场景,还扩展到使用人类反馈(RLHF)训练的对话模型中的强化学习。通过将ZeRO++与DeepSpeed-Chat集成,可以使RLHF训练受益于改进的生成和训练阶段,实现比ZeRO更高达2.25倍的更好的生成吞吐量和1.26倍的更好的训练吞吐量。 DeepSpeed发布了ZeRO++,以使大型模型训练更加高效和适用于AI社区。该系统旨在加速训练,减少通信开销并实现更大的批量大小,从而节省时间和资源。研究人员和实践者可以利用ZeRO++更有效地训练像ChatGPT这样的模型,并探索AI中的新可能性。

Leave a Comment

解决人工智能的泛化差距:来自伦敦大学学院的研究人员提出Spawrious——一个包含类别和背景之间虚假相关性的图像分类基准套件

随着人工智能的日益普及,几乎每天都会发布带有全新功能和解决能力的新模型。最近,研究人员一直在努力提出方法来加强人工智能模型对未知测试分布的抵抗力,并减少对虚假特征的依赖。考虑到自动驾驶汽车和自主厨房机器人的例子,它们尚未被广泛部署,因为它们在分布外(OOD)环境中的行为所带来的挑战,这些环境与模型接触到的训练数据有很大的差异。 许多研究已经探讨了虚假相关性(SCs)的问题,并提出了减少其对模型性能的负面影响的方法。已经证明,在像ImageNet这样的知名数据集上训练的分类器依赖于背景数据,这些数据与类标签存在虚假关联,但不一定具有预测性。尽管在开发解决SC问题的方法方面已经取得了进展,但仍需要解决现有基准的局限性。目前的基准测试,如Waterbirds和CelebA发色基准测试,存在局限性,其中之一是它们专注于简单的一对一(O2O)虚假相关性,而实际上,许多对多(M2M)虚假相关性更常见,涉及类和背景的群组。 最近,来自伦敦大学学院的研究人员介绍了一个名为Spawrious数据集的图像分类基准套件,其中包含类和背景之间的虚假相关性。它包括一对一(O2O)和一对多(M2M)虚假相关性,这些已经被分类为三个难度级别:简单,中等和困难。该数据集包含约152,000张高质量的照片逼真图像,使用文本到图像模型生成,采用图像字幕模型过滤不适合的图像,确保数据集的质量和相关性。 评估Spawrious数据集后,表现出了不可思议的性能,因为该数据集对当前的最先进(SOTA)组鲁棒性方法提出了挑战,例如Hard-splits,其中没有一种测试方法使用在ImageNet上预训练的ResNet50模型实现了70%以上的准确性。该团队提到,模型的性能问题是由于它们依赖虚假背景而导致的,通过查看其错误分类的分类,说明了Spawrious数据集如何成功地测试分类器并揭示它们在错误相关性方面的弱点。 为了说明O2O和M2M基准测试之间的差异,该团队使用了一个夏季收集训练数据的例子,其中包括来自两个不同位置的两组动物物种,每个动物组都与特定的背景组相关联。然而,随着季节的变化和动物的迁移,群组交换位置,导致动物组和背景之间的虚假相关性以无法一对一匹配的方式发生变化。这凸显了捕捉M2M虚假相关性中复杂关系和相互依赖性的必要性。 Spawrious似乎是一套有前途的基准套件,用于OOD,领域通用算法,以及评估和提高模型在存在虚假特征的情况下的鲁棒性。

Leave a Comment

颠覆性的文本到图像合成:加州大学伯克利分校研究人员利用大型语言模型,在两阶段生成过程中增强了空间和常识推理能力

最近,文本到图像生成方面取得了一些进展,出现了可以合成高度逼真和多样化图像的扩散模型。然而,尽管这些模型具有令人印象深刻的能力,像Stable Diffusion这样的扩散模型在需要空间或常识推理的提示方面仍然需要帮助,导致生成的图片不准确。 为了解决这个挑战,加州大学伯克利分校和加州大学旧金山分校的研究团队提出了一种新的基于LLM的扩散(LMD)方法,可以增强文本到图像生成中的提示理解。他们已经确定了场景,包括否定、数字、属性分配和空间关系,在这些场景中,Stable Diffusion与LMD相比存在不足。 研究人员采用了一种成本效益的解决方案,避免了训练大型语言模型(LLMs)和扩散模型的昂贵和耗时过程。他们将现成的冻结LLMs集成到扩散模型中,形成了一个两阶段的生成过程,提供了增强的空间和常识推理能力。 在第一阶段,LLM被调整为文本引导的布局生成器,通过上下文学习。当给出一个图像提示时,LLM会产生一个由边界框和相应描述组成的场景布局。在第二阶段,扩散模型通过使用一个新颖的控制器来生成图像,由生成的布局进行引导。两个阶段都使用冻结的预训练模型,没有对LLM或扩散模型进行任何参数优化。 LMD除了改进提示理解外,还提供了几个优点。它可以实现基于对话的多轮场景规定,允许用户为每个提示提供额外的澄清和修改。此外,LMD可以处理不受基础扩散模型支持的语言提示。通过将支持多轮对话的LLM纳入其中,用户可以在初始布局生成后查询LLM,并为随后的图像生成接收更新的布局,便于请求添加对象或更改它们的位置或描述等。 此外,通过在上下文学习过程中提供非英语提示的示例和英语布局和背景描述,LMD接受非英语提示,即使基础扩散模型不支持给定的语言也能生成带有英语描述的布局。 研究人员通过与LMD利用的基础扩散模型Stable Diffusion 2.1进行比较,验证了LMD的优越性。他们邀请读者探索他们的工作,进行全面评估和进一步比较。 总之,LMD提出了一种新的方法,以解决扩散模型在准确遵循需要空间或常识推理的提示方面的局限性。通过集成冻结LLMs并采用两阶段生成过程,LMD显著增强了文本到图像生成任务中的提示理解能力。它提供了其他功能,如基于对话的场景规定和处理不支持的语言提示。研究团队的工作为通过集成现成的冻结模型来改善合成图像的准确性和多样性开辟了新的可能性。

Leave a Comment

见识vLLM:一个开源的LLM推理和服务库,可以将HuggingFace Transformers加速24倍

大型语言模型(LLMs)是人工智能(AI)领域的一项重大突破性进展。这些模型(例如 GPT-3)彻底改变了自然语言理解。由于这些模型具有解释大量现有数据和生成类似人类的文本的能力,因此这些模型具有巨大的潜力,可以塑造人机交互和通信的未来并开启新的可能性。然而,尽管 LLMs 取得了巨大的成功,但与此类模型通常相关的一个显著挑战是它们的计算效率低下,即使在最强大的硬件上也会导致性能缓慢。由于这些模型包含数百万乃至数十亿个参数,因此训练此类模型需要广泛的计算资源,内存和处理能力,并非总是可用。此外,这些具有缓慢响应时间的复杂体系结构可能使 LLMs 无法实用于实时或交互式应用程序。因此,解决这些挑战变得至关重要,以释放 LLMs 的全部潜力并使其好处更广泛地可用。 针对这个问题陈述,加州大学伯克利分校的研究人员开发了 vLLM,这是一个开源库,是 LLM 推理和服务的一个更简单,更快速,更便宜的替代方案。目前,大型模型系统组织(LMSYS)正在使用该库来驱动其Vicuna和 Chatbot Arena。通过切换到 vLLM 作为其后端,与最初基于 HuggingFace 转换器的后端相比,研究组织已成功高效地处理峰值流量(比以前多 5 倍),同时使用有限的计算资源并降低高运营成本。目前,vLLM 支持几个 HuggingFace 模型,如 GPT-2,GPT BigCode…

Leave a Comment

来自领英和加州大学伯克利分校的研究人员提出了一种检测人工智能生成的个人资料照片的新方法

随着人工智能(AI)生成的合成和文本到图像生成媒体的大量增加,虚假个人资料的复杂性也随之增加。领英与加州大学伯克利分校合作研究了尖端的检测方法。他们最近的检测方法能够准确地识别人工生成的个人资料图片,正确率达到99.6%,同时将真实图片误判为虚假图片的概率仅为1%。 有两种类型的取证方法可以用于调查这个问题。  基于假设的方法可以发现人工合成的面孔中的异常。这些方法通过学习显著的语义离群值来受益。然而,学习能力合成引擎似乎已经拥有了这些特征,这是一个问题。 基于数据驱动的方法,如机器学习,可以将自然面孔与 CGI 面孔区分开来。当出现在其专业领域之外的图像时,训练过的系统经常会在分类方面遇到困难。  所提出的方法采用混合方法,首先识别计算机生成的面孔中的独特几何属性,然后采用数据驱动的方法来测量和检测它。该方法使用轻量级、易于训练的分类器,并需要对一小组合成面孔进行培训。使用了五种不同的合成引擎来构建41,500个合成面孔,并使用了100,000个真实的领英个人资料图片作为额外的数据。 为了查看实际(公开可用的)LinkedIn个人资料图片与合成生成的(StyleGAN2)面孔的差异,他们将每个平均400张图片并排放置。由于人们的实际照片彼此非常不同,大多数个人资料图片只是普通的头像照片。相比之下,典型的 StyleGAN 面孔具有非常清晰的特征和锐利的眼睛。这是因为 StyleGAN 面孔的眼部位置和瞳距被标准化了。真实的个人资料图片通常关注上半身和肩膀,而 StyleGAN 面孔一般是从脖子以下合成的。他们希望利用社交群体内部和之间存在的相似性和差异。 为了识别 FaceForensics++ 数据集中的深度伪造面孔交换,研究人员将一个单类变分自动编码器(VAE)与一个基线单类自动编码器结合起来。与以前的面孔交换深伪造工作不同,这项工作强调了合成面孔(例如 StyleGAN)。研究人员还使用了一个相当简单且易于训练的分类器,并在相对较少的合成图像上实现了可比的总体分类性能。 他们使用 Generated.photos 和 Stable Diffusion 生成的图像评估了模型的泛化能力。使用生成对抗网络(GAN)生成的 Generated.photos…

Leave a Comment

彻底改变癌症检测:萨里大学在机器学习中推出具有革命性意义的基于草图的物体检测工具

自史前时代以来,人们一直使用素描进行交流和记录。在过去的十年中,研究人员在理解如何使用分类和合成的素描方面取得了巨大的进展,以及更新颖的应用,如建模视觉抽象、样式转移和连续笔画拟合。然而,只有基于素描的图像检索(SBIR)及其细粒度对应物(FGSBIR)研究了素描的表现潜力。最近的系统已经成熟,可用于商业应用,这是素描表现力可能产生重大影响的极好证明。 素描非常引人入胜,因为它们自动捕捉微妙和个人的视觉线索。然而,对人类素描的这些内在特质的研究一直局限于图像检索领域。科学家们首次训练系统使用素描的表现力来完成视觉中最基本的任务:检测场景中的物体。最终产品是一个基于素描检测物体的框架,因此可以将注意力集中在一群斑马中的特定“斑马”(例如吃草的斑马)。此外,研究人员要求模型在以下情况下成功: 在没有预期结果的情况下进入测试(零射击)。 不需要额外的边界框或类标签(如完全监督)。 研究人员进一步规定,基于素描的检测器也以零射击的方式运作,增加了系统的新颖性。在接下来的部分中,他们详细介绍了如何将物体检测从封闭集转换为开放词汇配置。例如,物体检测器使用原型学习而不是分类头,编码查询素描特征作为支持集。然后,在弱监督物体检测(WSOD)环境中,通过所有可想象的类别或实例的原型之间的多类交叉熵损失进行模型训练。物体检测在图像级别上操作,而SBIR是通过对单个对象的素描和照片进行配对训练的。因此,SBIR对象检测器训练需要在对象级别和图像级别特征之间建立桥梁。 研究人员的贡献是: 培养人类素描表现力对物体检测的影响。 基于素描构建的物体检测器可以理解试图传达的信息。 用于传统类别级别和实例级别检测的物体检测器。 一种新的提示学习配置,将CLIP和SBIR结合起来生成一个素描感知的检测器,可以在没有边界框注释或类标签的情况下以零射击方式运行。 结果优于零射击设置中的SOD和WSOD。 研究人员没有从头开始,而是展示了基础模型(如CLIP)和为基于素描的图像检索(SBIR)构建的现有素描模型之间的直观协同作用,它们已经可以优雅地解决该任务。特别是,他们首先在SBIR模型的素描和照片分支上分别进行单独的提示,然后使用CLIP的泛化能力构建高度可泛化的素描和照片编码器。为了确保检测到的框的区域嵌入与SBIR素描和照片的嵌入匹配,他们设计了一种训练范式来调整学习的编码器以进行项目检测。在工业标准物体检测数据集(包括PASCAL-VOC和MS-COCO)上进行测试时,该框架在零射击设置中的表现优于监督(SOD)和弱监督(WSOD)物体检测器。 总之 为了改进物体检测,研究人员积极倡导人类素描表现力。建议的素描启用物体识别框架是一个实例感知和部件感知的物体检测器,可以理解素描中试图表达的信息。因此,他们设计了一种创新的提示学习设置,将CLIP和SBIR结合起来,教育一个不需要边界框注释或类标签的素描奖励检测器。该检测器还被指定为可以在各种用途中以零射击方式运行。另一方面,SBIR是通过对单个物品的素描和照片进行配对训练的。他们使用数据增强方法来增加对破坏的抵抗力和对词汇外的泛化能力,以帮助弥合物体和图像级别之间的差距。在零射击设置中,所得框架的表现优于监督和弱监督物体检测器。

Leave a Comment

认识 MeLoDy:一种高效的文本到音频扩散模型,用于音乐合成

音乐是由和谐、旋律和节奏组成的艺术,渗透到人类生活的各个方面。随着深度生成模型的蓬勃发展,音乐生成近年来受到了广泛关注。作为一类重要的生成模型,语言模型(LMs)在建模复杂的长期上下文关系方面表现出了非凡的建模能力。基于此,AudioLM和许多后续工作成功地将LMs应用于音频合成。与基于LM的方法相似,扩散概率模型(DPMs)作为另一类竞争性的生成模型,也表现出了合成语音、声音和音乐的卓越能力。 然而,从自由形式文本生成音乐仍然具有挑战性,因为允许的音乐描述可以是多种多样的,与流派、乐器、节奏、情境,甚至一些主观感受有关。 传统的文本到音乐生成模型通常关注于特定的属性,如音频延续或快速采样,而有些模型则优先考虑稳健的测试,这有时是由领域内的专家(例如音乐制作人)进行的。此外,大多数模型都是在大规模的音乐数据集上训练的,并且展示了最新的生成性能,具有高保真度和对文本提示各种方面的忠实度。 然而,这些方法的成功,如MusicLM或Noise2Music,带来了高计算成本,这将严重妨碍它们的实用性。相比之下,基于DPMs构建的其他方法使高质量音乐的有效采样成为可能。然而,他们所展示的案例相对较小,并且显示了有限的内部动态。为了实现可行的音乐创作工具,生成模型的高效性至关重要,因为它有助于与人类反馈进行交互式创作,正如先前的研究所述。 尽管LMs和DPMs都显示出了很好的结果,但相关问题并不是是否应该优先选择其中一种,而是是否可能同时利用两种方法的优势。 根据上述动机,提出了一种称为MeLoDy的方法。该策略的概述如下图所示。 在分析MusicLM的成功后,作者利用MusicLM中最高级别的LM,称为语义LM,来模拟音乐的语义结构,确定旋律、节奏、动态、音色和节奏的整体安排。在这种语义LM的条件下,他们利用DPMs的非自回归性质,借助成功的采样加速技术,高效有效地模拟声学。 此外,作者提出了所谓的双通道扩散(DPD)模型,而不是采用经典的扩散过程。事实上,对原始数据进行处理会指数增加计算费用。提出的解决方案是将原始数据降低到低维潜在表示。减少数据的维数会减少对操作的影响,从而减少模型运行时间。随后,原始数据可以通过预先训练的自编码器从潜在表示中重构出来。 模型产生的一些输出样本可在以下链接中获得:https://efficient-melody.github.io/。目前该代码尚未发布,这意味着目前无法在线或本地尝试它。 这就是MeLoDy的概述,这是一种生成最先进音质的高效LM引导扩散模型。如果您有兴趣,可以在下面的链接中了解更多关于这种技术的信息。

Leave a Comment