Press "Enter" to skip to content

Tag: Large Language Model

北京大学的研究人员推出了ChatLaw:一个集成外部知识库的开源法律大型语言模型

由于人工智能的持续增长和发展,大规模语言模型现在已经广泛可用。像ChatGPT、GPT4、LLaMA、Falcon、Vicuna和ChatGLM这样的模型在各种传统任务中表现出色,为法律行业打开了一个机遇的世界。然而,收集可靠、当前、高质量的数据对于创建规模可观的语言模型至关重要。因此,创建既有效又高效的开源法律语言模型变得至关重要。 人工智能在大规模模型开发方面对多个行业产生了影响,包括医疗保健、教育和金融:BloombergGPT、FinGPT、Huatuo和ChatMed;这些模型在处理复杂问题和生成深入数据方面证明了其有用性和有效性。另一方面,法律领域由于其固有的相关性和准确性需求,需要进行深入调查和创建独特的法律模型。法律对于形成社区、调节人际关系和确保正义至关重要。法律从业人员依赖准确和当前的信息来做出明智的判断、理解法律并提供法律咨询。 法律术语的微妙之处、复杂的解释以及法律的动态性提供了特殊问题,需要专门的解决方案。即使是像GPT4这样最先进的模型,也经常出现幻觉现象和与法律相关的令人难以置信的结果。人们经常认为通过相关领域的专业知识来改进模型会产生积极的结果。然而,早期的法律LLM(LawGPT)仍然存在许多幻觉和不准确的结果,所以情况并非如此。起初,他们了解到对中文法律LLM的需求。然而,当时没有商业可获取的大于130亿参数的中文模型。通过结合MOSS等来源的训练数据和扩充中文词汇表,改善了OpenLLAMA的基础,这是一个经济可行的模型。这使得北京大学的研究人员能够构建一个基础的中文语言模型,然后添加法律特定数据来训练他们的法律模型ChatLaw。 以下是该论文的主要贡献: 1. 减少幻觉的成功方法:他们提出了一种通过改进模型的训练过程并在推理过程中包含“咨询”、“参考”、“自我建议”和“回应”四个模块的方法来减少幻觉。通过参考模块将垂直模型和知识库整合在一起,幻觉变得更少,这个模块将领域特定知识融入模型,并使用知识库中的可靠数据。 2. 训练了一个能从用户的日常语言中提取法律特征词的模型。这个模型基于LLM,并且可以快速有效地识别和分析用户输入中的法律情况。 3. 使用BERT训练了一个模型,用于衡量用户普通语言与包含93万个相关法庭案例文本的数据集之间的相似度。这使得可以建立一个向量数据库,快速检索具有类似法律背景的文稿,以进行额外的研究和引用。 4. 开发了一个中文法律考试评估数据集:他们创建了一个评估中国人法律专业知识的数据集。他们还制定了一个ELO竞技场评分系统,以确定不同模型在法律多项选择测试中的表现如何。 他们还指出,单一的通用法律LLM可能只在某些任务中表现良好。因此,他们针对不同情况开发了多个模型,包括多项选择题、关键词提取和问答。他们使用HuggingGPT技术,将一个大型LLM作为控制器来管理这些模型的选择和部署。根据每个用户的请求,该控制器模型动态选择特定的模型进行激活,以确保任务使用最佳模型。

Leave a Comment

关于向量数据库的一切 – 它们的重要性、向量嵌入和大型语言模型(LLMs)的顶级向量数据库

大型语言模型在最近取得了巨大的增长和进展。人工智能领域随着这些模型的每一次新发布而蓬勃发展。从教育、金融到医疗保健和媒体,大型语言模型几乎在每个领域都有贡献。像GPT、BERT、PaLM和LLaMa这样的著名大型语言模型通过模仿人类正在改变人工智能行业。基于GPT架构并由OpenAI开发的著名聊天机器人ChatGPT通过生成准确而富有创意的内容、回答问题、总结大量文本段落和语言翻译来模仿人类。 什么是向量数据库? 在人工智能和机器学习领域中,一种新颖而独特的数据库类型——向量数据库正变得越来越受欢迎。与最初用于以行和列的形式存储表格数据的传统关系型数据库以及像MongoDB这样将数据存储在JSON文档中的较新的NoSQL数据库不同,向量数据库在性质上有所不同。这是因为向量嵌入是向量数据库旨在存储和检索的唯一一种数据类型。 大型语言模型和所有新应用都依赖于向量嵌入和向量数据库。这些数据库是专门为有效存储和操作向量数据而设计的数据库。向量数据使用点、线和多边形来描述空间中的对象,在计算机图形、机器学习和地理信息系统等各个行业中经常使用。 向量数据库基于向量嵌入,它是一种携带语义信息的数据编码方式,有助于AI系统解释数据并保持长期记忆。这些嵌入是作为机器学习过程的一部分生成的训练数据的压缩版本。它们作为过程中新数据的过滤器,用于运行机器学习的推理阶段。 在向量数据库中,数据的几何特性被用于组织和存储数据。每个项目通过在空间中的坐标和其他赋予其特征的属性来标识。例如,向量数据库可以用于在地理信息系统应用程序中记录有关城镇、高速公路、河流和其他地理特征的详细信息。 向量数据库的优势 空间索引 – 向量数据库使用R树和四叉树等空间索引技术,可以基于地理关系(如接近和约束)进行数据检索,这使得向量数据库优于其他数据库。 多维索引 – 除了空间索引,向量数据库还可以支持对其他向量数据特性进行索引,以实现基于非空间属性的高效搜索和过滤。 几何操作 – 向量数据库通常具有内置的支持几何操作(如交集、缓冲和距离计算),这对于空间分析、路由和地图可视化等任务非常重要。 与地理信息系统(GIS)的集成 – 向量数据库经常与GIS软件和工具一起使用,以高效地处理和分析空间数据。 构建大型语言模型的最佳向量数据库 在大型语言模型的情况下,向量数据库越来越受欢迎,其主要应用是存储由LLM训练产生的向量嵌入。 Pinecone – Pinecone是一款强大的向量数据库,以其出色的性能、可扩展性和处理复杂数据的能力脱颖而出。它非常适合需要即时访问向量和实时更新的应用程序,因为它专为快速高效的数据检索而构建。 DataStax…

Leave a Comment

Google AI开源Flan-T5:一种基于Transformer的语言模型,使用文本到文本的方法进行自然语言处理任务

大型语言模型,例如PaLM、Chinchilla和ChatGPT,为从阅读教学线索执行自然语言处理(NLP)任务开辟了新的可能性。先前的研究表明,指令调整,即在各种带有指令的NLP任务上微调语言模型,进一步提高了语言模型在给定指令的情况下执行未知任务的能力。通过比较它们的微调过程和策略,本文评估了开源指令泛化倡议的方法和结果。 该工作关注指令调整方法的细节,对各个因素进行剔除并直接进行比较。他们在“Flan 2022 Collection”中确定并评估了方法论改进,该术语用于数据收集以及适用于数据和指令调整过程的方法,重点关注将Flan 2022与PaLM 540B结合的新兴和最先进的结果。Flan 2022 Collection目前是公开可用的最全面的指令调整作业和技术集合,它已经通过数千个高级模板和更好的格式模式进行了扩充。 他们证明,在所有评估的评估基准上,训练在该集合上的模型优于其他公开集合,包括原始的Flan 2021、T0++、Super-Natural Instructions和OPT-IML的当代工作。对于具有相同大小的模型,MMLU和BIG-Bench Hard评估基准上的改进分别达到4.2%+和8.5%。根据对Flan 2022方法的分析,这些稳健的结果是由于更大更多样的任务集合以及用于微调和数据增强的几种简单策略。特别是,使用零样式、少样式和思考链的模板进行训练改善了所有这些上下文中的性能。 例如,少样式提示的增加10%可以将零样式提示的结果提高2%或更多。此外,已经证明,通过倒置输入-输出对,在任务来源的平衡和任务多样性的增强方面都对性能至关重要。在单任务微调中,得到的Flan-T5模型收敛更快,表现优于T5模型,表明经过指令调整的模型为后续应用提供了更具计算效率的起点。他们预计,公开提供这些结果和工具将简化用于指令定制的可用资源,并加快更通用的语言模型的发展。 本研究的主要贡献如下列举:• 方法论:证明混合使用零样式和少样式提示进行训练在两种环境中都能产生显著优越的结果。• 测量和展示有效指令调整的关键方法,包括缩放第3.3节,使用输入倒置增强任务多样性,添加思考链训练数据以及平衡各种数据来源。• 结果:这些技术决策相对于现有的开源指令调整集合,提高了保留任务性能3-17% • 发现:Flan-T5 XL为单任务微调提供了更稳健和有效的计算起点。• 公开提供新的Flan 2022任务集合、模板和研究方法供公众使用。源代码可在GitHub上获取。

Leave a Comment

什么是大型语言模型(LLMs)?LLMs的应用和类型是什么?

被称为大型语言模型的计算机程序为软件提供了分析和创建文本的新选项。大型语言模型通常使用千兆字节甚至更多的文本数据进行训练,使其大小达到几十兆字节。模型的参数是从先前的训练数据中学到的组件,从本质上来说,它们确定了模型在任务(如文本生成)上的熟练程度。自然语言处理(NLP)活动,包括语音转文字、情感分析、文本摘要、拼写检查、令牌分类等,都依赖于语言模型作为其基础。语言模型可以分析文本并预测大多数自然语言处理任务中下一个令牌出现的可能性。Unigram、N-gram、指数和神经网络都是语言模型的有效形式。 LLM的应用 下图总结了目前大型语言模型(LLM)的功能、产品和支持软件方面的现状。 图片来源:https://cobusgreyling.medium.com/the-large-language-model-landscape-9da7ee17710b Shell命令生成 下一代终端Warp利用GPT-3将自然语言转化为可执行的shell指令,类似于GitHub Copilot,但用于终端。 即使对于经验丰富的程序员来说,shell命令的语法可能也需要解释。 正则表达式生成 开发人员编写正则表达式是一项耗时的任务,然而Autoregex.xyz利用GPT-3自动化这个过程。 文案撰写 这项任务最常用的模型是GPT-3,但也有开源替代方案,如BigScience的BLOOM和Eleuther AI的GPT-J。Copy ai、Copysmith、Contenda、Cohere和Jasper ai是在这一领域开发应用程序的一些初创公司,它们的工具可以更快、更轻松地编写博客文章、销售内容、数字广告和网站文案。 分类 将文本分类到预定类别是一种监督学习的例子。通过使用聚类这种无监督学习技术,可以将具有相似含义的文本聚类在一起,而无需使用预定义的类别。 回应生成 回应生成是使用示例对话生成对话流的思路,并采用机器学习方法。在这种方法中,下一次呈现给用户的对话取决于模型,考虑到用户的过去回答和最有可能的未来对话,这被称为预测式对话。 文本生成 LLM的能力从简要描述中生成测试,无论是否有示例数据,都可以被视为其“元能力”。 几乎所有LLM都能扮演生成的角色。少样本学习数据不仅显著提升了生成能力,而且数据的构造也影响着数据的使用方式。 知识回答 知识回答是知识密集型自然语言处理(KI-NLP)的应用,它允许对通用和跨领域的问题进行回答,而无需查询应用程序接口(API)或依赖传统的知识存储。 知识密集型自然语言处理不是网络搜索,而是基于语义搜索的知识库。…

Leave a Comment

一种新的人工智能(AI)研究方法将基于提示的上下文学习作为一种从统计角度看待的算法学习问题

上下文学习是一种最近的范式,其中一个大型语言模型(LLM)观察一个测试实例和一些训练示例作为其输入,并直接解码输出,而不对其参数进行任何更新。这种隐式训练与通常的训练相反,通常的训练会根据示例来改变权重。 来源: https://arxiv.org/pdf/2301.07067.pdf 那么为什么上下文学习会有益呢?你可以假设你有两个回归任务要建模,但唯一的限制是你只能使用一个模型来适应这两个任务。在这种情况下,上下文学习非常有用,因为它可以为每个任务学习回归算法,这意味着模型将为不同的输入集使用单独的适应回归。 在“Transformers as Algorithms: Generalization and Implicit Model Selection in In-context Learning”这篇论文中,他们将上下文学习问题形式化为一个算法学习问题。他们使用transformer作为学习算法,在推理时通过训练来实现另一个目标算法。在这篇论文中,他们通过transformer探索了上下文学习的统计学方面,并进行了数值评估以验证理论预测。 在这项工作中,他们研究了两种情况,第一种情况是提示由一系列i.i.d(输入、标签)对组成,而第二种情况是一个动态系统的轨迹(下一个状态取决于前一个状态:xm+1 = f(xm) + noise)。 现在问题来了,我们如何训练这样的模型? 在ICL的训练阶段,T个任务与数据分布 {Dt}t=1T相关联。他们从对应分布中独立采样训练序列St。然后他们从序列St中选择一个子序列S和一个值x,对x进行预测。这就像元学习框架一样。预测之后,我们最小化损失。ICL训练背后的直觉可以解释为在寻找适应当前任务的最优算法。 接下来,为了获得ICL的泛化界限,他们从算法稳定性文献中借用了一些稳定性条件。在ICL中,提示中的训练示例影响到从那一点起算法的未来决策。因此,为了处理这些输入扰动,他们需要对输入施加一些条件。您可以阅读[论文]以获取更多细节。图7显示了对学习算法(这里是Transformer)稳定性进行实验评估的结果。 来源:…

Leave a Comment

70%的开发者今天拥抱人工智能:深入研究大型语言模型、LangChain和向量数据库在当前技术领域的崛起

人工智能具有无限的可能性,这在其引入每个人的新产品和发展中显而易见。随着OpenAI开发的最新聊天机器人ChatGPT的发布,由于其GPT的变压器架构,AI领域已经席卷全球。从深度学习、自然语言处理(NLP)和自然语言理解(NLU)到计算机视觉,AI正将每个人推向一个拥有无尽创新的未来。几乎每个行业都在利用AI的潜力并进行革命性的改变。特别是在大规模语言模型(LLMs),LangChain和向量数据库等领域的卓越技术进步,是这一显著发展的原因。 大规模语言模型 大规模语言模型(LLMs)的发展代表了人工智能的一大步进。这些基于深度学习的模型在处理和理解自然语言时表现出令人印象深刻的准确性和流畅性。LLMs通过从各种来源(包括书籍、期刊、网页和其他文本资源)获取大量文本数据进行训练。它们通过学习语言来获取语言结构、模式和语义链接,从而帮助它们理解人类交流的复杂性。 LLMs的基本架构通常涉及具有多层的深度神经网络。根据训练数据中发现的模式和连接,该网络分析输入文本并生成预测。为了减少模型预期输出和预期输出之间的差异,模型的参数在训练阶段进行调整。LLM在训练过程中消耗文本数据,并试图根据上下文预测下一个单词或一系列单词。 LLMs的应用 回答问题:LLMs擅长回答问题,并通过搜索大量的文本语料库(如书籍、论文或网站)来提供精确而简洁的回答。 内容生成:LLMs在涉及内容生成的活动中证明了其有用性。它们能够生成语法正确、连贯的文章、博客条目和其他书面内容。 文本摘要:LLMs在文本摘要方面表现出色,能够在将冗长的文本压缩为更短、更易消化的摘要时保留重要信息。 聊天机器人:LLMs经常被用于创建聊天机器人和使用对话式AI的系统。它们使得这些系统能够用正常语言与用户进行交互,理解他们的问题并适当地回答,并在整个交互过程中保持上下文。 语言翻译:LLMs能够准确地在不同语言之间进行文本翻译,克服语言障碍,促进成功的交流。 训练LLMs的步骤 训练LLMs的初始阶段是编制一个庞大的文本数据集,模型将使用该数据集来发现语言模式和结构。 一旦收集到数据集,就需要进行预处理,以便为训练做准备。为此,必须通过删除任何不必要或冗余的条目来清理数据。 选择适当的模型架构对于训练LLMs至关重要。基于变压器的架构已经显示出在处理和生成自然语言方面非常高效,包括GPT模型。 使用反向传播等深度学习方法调整模型的参数来训练LLMs,并提高其准确性。模型在训练过程中处理输入数据并基于识别出的模式生成预测。 在初始训练之后,LLMs将进一步在特定任务或领域上进行微调,以提高其在这些领域的性能。 为了评估经过训练的LLMs的性能,使用多种指标(包括困惑度和准确性)来评估模型的性能。 经过训练和评估后,LLMs将在实际应用中的生产环境中使用于实际应用。 一些著名的语言模型 GPT(Generative Pre-trained Transformer)是OpenAI的GPT模型系列的重要成员,也是知名的ChatGPT的底层模型。它是一个仅解码器的单向自回归模型,通过根据先前生成的单词预测下一个单词来生成文本。GPT拥有1750亿个参数,广泛用于内容生成、问题回答等方面。 BERT – 双向Transformer编码器表示(BERT)是最早的基于Transformer的自监督语言模型之一。它是一个强大的模型,用于理解和处理自然语言,具有3.4亿个参数。…

Leave a Comment

微软研究员提出了一种新的框架,使用帕累托最优自监督而无需使用标记的训练数据来进行LLM校准

近期的发展使得大型语言模型(LLM)的能力显著增强,生成式预训练转换器(GPT)模型显示出了重要的潜力。从GPT-3到GPT-4的转变,以及PaLM和LLaMA等其他LLM的出现,都展示了在问题解决和自然语言理解技能方面的显著改进。此外,生成模型经常用于各个领域以生成不同应用的数据。当LLM用于需要高精度和可靠性的应用领域,如生物和医疗领域时,幻觉问题仍然是一个重大障碍。 不幸的是,目前没有系统的技术可用于准确检测幻觉或衡量输出的置信水平。特别是在使用强化学习与人类输入之后,生成LLM的内在置信度分数有时无法获得或无法有效校准以达到预期目标。启发式技术计算成本高,并受制于LLM本身的偏见,例如对LLM答案集进行采样。评估LLM回复的置信度程度的方法大致可分为两个基本类别。在第一种方法中,通过多种方式激励LLM生成多个回复,然后利用这些回复推断答案的可靠性。 自一致性和思维链激励是两个例子。这些技术不太定量,并且容易受到模型引起的偏见的影响。目前还没有标准化的测量方法,但提示技术可能对结果的质量产生重大影响。第二类选择借助外部数据源,例如雇用人工审核员验证答案或使用大量标记数据创建评估模型。目前监督模型训练的主要障碍之一是这些技术需要广泛的手动注释工作。在这方面,自我监督提供了一种可行的选择,因为它可以灵活地使用数据模式和超越常规的专业知识。 微软的研究人员在这项研究中提供了一个灵活的框架,利用帕累托最优学习将LLM响应数据和监督数据混合在一起。他们受到了程序化监督和帕累托优化研究的早期工作的启发。以下直觉指导了他们的策略。为了防止LLM自身评判的偏见,需要与LLM独立的外部监督数据源。其次,将LLM的错误视为对黄金标签的噪声扰动。当模型同时适应LLM噪声和独立的外部噪声时,实际上进行了隐式标签平滑处理,从而增强了校准能力。 在这方面,帕累托最优自我监督为整合两者提供了一个有用的框架。值得注意的是,所提出的方法只需要无标签数据,因此适用于注释成本较高的领域。他们通过帕累托最优自我监督对LLM进行校准的独特方法是该论文的关键创新。他们建议使用帕累托最优学习评估风险(POLAR)分数来计算LLM错误的可能性。他们在四个不同的自然语言处理任务上展示了实验结果,并证明所提出的POLAR分数与在黄金标签上评估的LLM错误率显著相关。他们展示了在高风险情况下通过POLAR分数确定的动态提示策略下,LLM的性能得到了提升。在不使用任何人工标记的训练数据的情况下,他们展示了他们的方法如何消除LLM的错误并提高GPT-4基线性能,超过最先进的监督模型。

Leave a Comment

转变AI互动:LLaVAR在视觉和基于文本的理解方面表现出色,标志着多模态指令跟踪模型的新时代

通过将多个活动合并为一条指令,指令调整增强了对新任务的泛化能力。这种对开放式问题的回应能力为最近的聊天机器人爆发做出了贡献,因为ChatGPT 2。最近,像CLIP-ViT这样的视觉编码器已经作为视觉指令调整模型的一部分添加到会话代理中,从而可以基于图片进行人-代理交互。然而,它们需要帮助理解图片中的文本,可能是由于训练数据中自然图像的占主导地位(例如,Conceptual Captions和COCO)。然而,阅读理解对人类的日常视觉感知至关重要。幸运的是,OCR技术使得能够从照片中识别出文字。 通过将识别到的文本添加到视觉指令调整模型的输入中(较大的上下文长度),可以(天真地)增加计算量,而不完全利用视觉编码器的编码能力。为了做到这一点,他们建议收集需要理解图片中的文字的指令遵循数据,以改进视觉指令调整模型的端到端性能。通过将手动给定的指示(例如,“识别提供的图像中可见的任何文本。”)与OCR结果相结合,他们首先使用文本丰富的图像收集了422K条嘈杂的指令遵循数据。 这些大规模的嘈杂对齐数据显著增强了语言解码器和视觉特征之间的特征对齐。此外,他们要求仅使用OCR结果和图像标题作为如何遵循指令的高质量示例,让纯文本GPT-4生成16K个对话。每个对话可能包含多轮的问答对。为了根据输入产生复杂的指令,这种方法要求GPT-4对OCR数据进行去噪,并创建独特的问题(图1)。他们使用获得的数据评估了LLaVA的预训练和微调阶段,分别使用嘈杂和高质量的示例来评估数据的有效性。 图1显示了如何收集关于遵循指令的准确统计数据。| https://arxiv.org/pdf/2306.17107.pdf 来自乔治亚理工学院、Adobe研究和斯坦福大学的研究人员开发了LLaVAR,即能够阅读的大型语言和视觉助手。为了更好地编码细微的文本特征,他们在原始LLaVA的基础上将输入分辨率从2242提高到3362进行了实验。根据评估技术,他们与四个基于文本的VQA数据集以及ScienceQA微调结果一起给出了研究结果。此外,他们在基于GPT-4的指令遵循评估中使用了来自LAION的50张文本丰富图片和来自COCO的30张自然图片。此外,他们还提供了定性分析,以衡量更复杂的指令遵循能力(例如海报、网站截图和推文)。 总之,他们的贡献包括: • 他们收集了16K条高质量和422K条嘈杂的指令遵循数据。两者都被证明可以改善视觉指令调整。这种改进的能力使得他们的模型LLaVAR能够基于多样的在线材料(包括文本和图片)进行端到端交互,同时仅在自然照片上略微提高模型的性能。 • 训练和评估数据以及模型里程碑都已公开提供。 这篇文章的英文原文发表在MarkTechPost网站上。

Leave a Comment

认识ToolQA:一个评估大型语言模型(LLMs)使用外部工具进行问答能力的新数据集

大型语言模型(LLMs)在自然语言处理(NLP)和自然语言理解(NLU)领域已被证明非常有效。著名的LLMs如GPT,BERT,PaLM等被研究人员用于为教育、社交媒体、金融和医疗保健等各个领域提供解决方案。通过大规模数据集的训练,这些LLMs获得了大量的知识。LLMs在问题回答、内容生成、文本摘要、语言翻译等方面显示出了能力。尽管LLMs最近展示了令人印象深刻的能力,但在生成合理且无根据的信息以及在数值推理方面存在困难。 最近的研究表明,将LLMs与外部工具(包括检索增强、数学工具和代码解释器)相结合是克服上述挑战的更好方法。评估这些外部工具的有效性存在困难,因为当前的评估方法需要帮助确定模型是否仅仅是回忆预训练信息,还是真正利用外部工具进行问题解决。为了克服这些限制,来自佐治亚理工学院计算学院的研究团队引入了ToolQA,这是一个用于问题回答的基准测试,用于评估LLMs在使用外部资源方面的熟练程度。 ToolQA包含来自八个领域的数据,并定义了13种可以从外部参考语料库中获取信息的工具类型。每个ToolQA实例中都包含一个问题、一个答案、参考语料库和可用工具列表。ToolQA的独特之处在于,所有问题只能通过使用适当的工具从参考语料库中提取信息来回答,从而最大程度地减少LLMs仅基于内部知识回答问题的可能性,并允许对其工具利用能力进行忠实评估。 ToolQA涉及三个自动化阶段:参考数据收集、人工引导的问题生成和程序化答案生成。在第一阶段,从不同领域收集各种类型的公共语料库,包括文本、表格和图表,作为基于工具的问题回答的参考语料库。在第二阶段,创建只能通过工具而不是参考语料库解决的问题。这是通过基于模板的问题生成方法实现的,该方法还涉及使用工具属性进行问题实例化和人工引导的模板制作和验证。第三阶段为生成的问题提供准确的答案,实现与工具对应的运算符,并从参考语料库中以程序化方式获取答案。 团队使用标准LLMs和工具增强的LLMs回答ToolQA中的问题进行了实验。结果显示,仅依赖内部知识的LLMs(如ChatGPT和Chain-of-thoughts prompting)的成功率较低,易问题约为5%,难问题约为2%。另一方面,通过使用外部工具,工具增强的LLMs(如Chameleon和ReAct)表现更好,易问题的最佳表现为43.15%,难问题为8.2%。 结果和错误分析显示,ToolQA对于当前的工具增强的LLM方法来说是一个具有挑战性的基准测试,尤其对于需要更复杂的工具组合推理的困难问题。这是人工智能发展中的一个有希望的补充。

Leave a Comment

Contextual AI推出LENS:一种用于视觉增强语言模型的AI框架,其在VQAv2上的表现比Flamingo高出9%(从56%提升至65%)

大型语言模型(LLMs)近年来在自然语言理解方面取得了重大突破,尤其在零样本和少样本环境下,展示出卓越的语义理解、查询解决和文本生成能力。如图1(a)所示,已经提出了多种方法来使用LLMs处理涉及视觉的任务。光学编码器可以被训练成将每张图片表示为一系列连续的嵌入,让LLM能够理解它。另一种方法是使用对比训练的冻结视觉编码器,同时在冻结的LLM上添加额外的层,然后从头开始学习。 另一种方法建议训练一个轻量级的Transformer来对齐一个冻结的视觉编码器(经过对比训练的预训练)和一个冻结的LLM。尽管在上述研究中取得了进展,但仍然难以证明额外的预训练阶段的计算成本是合理的。此外,为了将视觉和语言模态与现有的LLM同步,需要大量的数据库,包括文本、照片和视频。Flamingo在预训练的LLM中增加了新的跨注意力层,以增加视觉特征。 图1:比较协调视觉和语言模态的方法。多模态预训练有两个选择:(a)使用配对或网络数据集;(b)LENS,一种无需额外多模态数据集就可以与任何现成的LLM一起使用的无预训练技术。与LENS不同,以前的方法需要在大规模多模态数据集上进行联合对齐预训练,以完成视觉任务。 多模态预训练阶段需要惊人的20亿个图片-文本对和4300万个网站,即使使用预训练的图像编码器和预训练的冻结LLM,也可能需要15天的时间。相反,他们可以使用各种“视觉模块”从视觉输入中提取信息,并生成详细的文本表示(如标签、属性、动作和关系等),然后直接将其馈送给LLM,避免了额外的多模态预训练的需要,如图1(b)所示。Contextual AI和斯坦福大学的研究人员引入了LENS(Large Language Models Enhanced to See),这是一种模块化策略,将LLM作为“推理模块”使用,并在不同的“视觉模块”之间运行。 他们首先使用预训练的视觉模块(如对比模型和图像字幕模型)在LENS技术中提取丰富的文本信息。然后将文本发送到LLM,使其能够进行对象识别、视觉和语言(V&L)等任务。LENS通过消除对额外多模态预训练阶段或数据的需求,免费地弥合了模态之间的差距。此外,这种整合使我们能够立即利用计算机视觉和自然语言处理领域的最新进展,最大限度地发挥两个学科的优势。 他们提供了以下贡献: • 他们提出了LENS,一种通过使用语言模型的少样本、上下文学习能力来处理计算机视觉挑战的模块化方法。 • LENS使任何现成的LLM都能够在不经过进一步的训练或数据的情况下进行视觉处理。 • 他们使用冻结的LLM来处理对象识别和视觉推理任务,无需额外的视觉和语言对齐或多模态数据。实验结果表明,他们的方法在零样本性能上与Kosmos和Flamingo等端到端联合预训练模型相媲美或更优。他们的论文的部分实现已经在GitHub上可用。

Leave a Comment

微软研究员推出KOSMOS-2:一种能够与视觉世界相连接的多模态大语言模型

多模态大型语言模型(MLLMs)在各种活动中已经展示了成功,包括语言、视觉和视觉语言任务。在零样本和少样本条件下,MLLMs可以感知文本、图片和音频等通用模态,并使用自由形式的文本生成答案。在本研究中,它们使多模态大型语言模型具备自我定位的能力。对于视觉语言任务,定位能力可以提供更实用和有效的人工智能界面。该模型可以解释图片区域及其地理坐标,让用户可以直接指向图像中的物品或区域,而不是输入冗长的文本描述来引用它。 图1:展示了使用KOSMOS-2生成的选定样本。视觉定位、定位问题回答、使用边界框的多模态引用、定位图片字幕和视觉定位都是一些例子。 该模型的定位功能还使其能够提供视觉响应(即边界框),这可以帮助其他视觉语言任务,如理解指代表达式。与仅基于文本的响应相比,视觉响应更精确,能够消除指代模糊。生成的自由形式文本响应的定位能力可以将名词短语和指代术语与图片区域连接起来,以产生更准确、丰富和详尽的响应。微软研究的研究人员介绍了具备定位能力的多模态大型语言模型KOSMOS-2,该模型基于Transformer通过下一个单词预测任务进行训练。 他们构建了一个基于网络规模的数据集,其中包含了图片和文本的定位配对,并将其与KOSMOS-1中的多模态语料库进行整合,以充分利用定位的潜力训练模型。定位的图片和文本配对是来自LAION-2B和COYO-700M的子集。他们提供了一个流程,从字幕中提取和连接文本片段(如名词短语和指代表达式)到图片中相应对象或区域的空间位置(如边界框)。他们将边界框的地理坐标转化为一串位置标记,并在相应的文本片段之后添加。数据格式充当了将图像元素与字幕链接起来的“超链接”。 实验结果表明,KOSMOS-2在定位任务(短语定位和指代表达理解)和指代任务(指代表达式生成)上表现优秀,并且在KOSMOS-1评估的语言和视觉语言任务上也表现出竞争力。图1说明了通过定位功能,KOSMOS-2可以用于更多的下游任务,如定位图片字幕和定位视觉问题回答。GitHub上提供了在线演示。

Leave a Comment

微软研究院推出phi-1:一款专门针对Python编码的大型语言模型,比竞争模型更小,具有显著的优势

自从Transformer设计被发现以来,训练大型人工神经网络的技术已经取得了巨大进展,但支撑这一成就的科学仍处于萌芽阶段。在Transformer发布的同时,一种秩序感逐渐形成,这种秩序在同一时间的大量复杂结果中展现出来,表明性能随着计算量或网络规模的增加而可预测地提高,这种现象现在被称为缩放定律。这些缩放规则成为后续深度学习规模研究的指南,而对这些定律变化的发现导致了性能的大幅提升。 在本文中,研究者探讨了如何通过不同的方式提高数据质量。高质量的数据可以产生更好的结果;例如,数据清洗是创建当前数据集的关键步骤,可以使数据集相对较小或能够通过更多迭代运行数据。最近针对TinyStories的研究表明,高质量数据的好处远不止于此。通过大幅改变缩放定律,改善数据质量可能使得能够用更瘦的训练/模型匹配大规模模型的性能。 在本研究中,微软研究的作者证明了高质量的数据可以进一步提高大型语言模型的最先进技术,同时显著减少数据集的大小和训练计算量。较小的模型需要更少的训练,可以大大减少LLM的环境成本。他们从文档字符串中构建了特定的Python函数,使用LLM进行编码训练。HumanEval是后一篇论文中建议使用的评估标准,常用于比较LLM在代码上的性能。 他们通过对1.3B参数模型进行大约8次7B令牌(略大于50B总令牌数)的预训练,然后对少于2亿个令牌进行微调,展示了高质量数据违反现有缩放规则的能力。总的来说,他们在“课本质量”的数据上进行预训练,包括人工创造的(使用GPT-3.5)和从网络来源筛选的,然后在“类似于课本的练习”数据上进行微调。尽管数据集和模型大小都比竞争模型小几个数量级,但他们在HumanEval上获得了50.6%的pass@1准确率,在MBPP(Mostly Basic Python Programs)上获得了55.5%的pass@1准确率,这是仅使用一个LLM生成的最佳自我报告数字之一。 通过对1.3B参数模型进行大约8次7B令牌的预训练(观察总令牌数略大于50B),然后对少于2亿个令牌进行微调,他们展示了高质量数据违反现有缩放规则的能力。总的来说,他们在“课本质量”的数据上进行预训练,包括人工创造的(使用GPT-3.5)和从网络来源筛选的,然后在“类似于课本的练习”数据上进行微调。尽管数据集和模型大小都比竞争模型小几个数量级,但他们在HumanEval上获得了50.6%的pass@1准确率,在MBPP(Mostly Basic Python Programs)上获得了55.5%的pass@1准确率,这是仅使用一个LLM生成的最佳自我报告数字之一。

Leave a Comment

8个关于大型语言模型LLMs的潜在惊人事实

近几个月,由于大规模语言模型(LLMs)的广泛公开部署,倡导者、政治家和来自各个学科的学者都表现出了极大的兴趣和活动。虽然这种关注是有道理的,因为新技术带来了紧迫的问题,但它也可能忽略了一些关键因素。 最近,大规模语言模型以及基于它们构建的产品,例如ChatGPT,引起了来自记者、政策制定者和跨学科学者的广泛关注。然而,由于这种技术在很多方面都是出人意料的,简明扼要的解释很容易忽略关键细节。 这其中有八个意想不到的方面: LLMs的能力将随着更多的投资而可预测地增加,即使没有刻意的创新。 LLMs的研究和投资的最近增加可以在很大程度上归因于规模定律的结果。当研究人员增加将来模型中输入的数据量、模型的大小(以参数为单位)以及用于训练它们的计算量时,规模定律允许他们精确地预测这些模型将具有多么有能力(以FLOP为单位)的某些粗略但相关的指标。因此,他们可能做出一些关键的设计决策,例如在特定预算内的最佳模型大小,而无需进行大量昂贵的实验。 在当代人工智能研究的背景下,预测的准确率是前所未有的。由于它使研发团队能够提供数百万美元的模型培训计划,并确信这些项目将成功开发出经济上有益的系统,因此它也是推动投资的有力工具。 尽管最先进的LLMs的训练方法尚未公开,但最近的深入报告暗示这些系统的基本架构甚至没有改变。 随着资源不断注入LLMs,常常会出现意想不到的关键行为。 在大多数情况下,模型正确预测未完成文本的延续能力(根据其预训练测试损失衡量)只能通过缩放规则来预测。 尽管这个指标平均上与模型在许多实际活动中的实用性相关,但很难预测模型何时开始展示特定的才能或成为执行特定任务的能力。 更具体地说,GPT-3的能力执行少量样本学习——也就是在单次交互中从少量示例中学习新任务——以及思维链推理——也就是在请求时写出其推理,如同学生在数学考试上所做的那样,并展示出更好的表现——使其成为第一个现代LLM。 未来的LLMs可能会开发出所需的任何功能,并且很少有被普遍接受的界限。 然而,LLMs所取得的进展有时比专家预期的要少。 LLMs经常获取并使用外部世界的表示。 越来越多的证据表明,LLMs建立了世界的内部表示,使它们能够以对文本的特定语言形式不敏感的抽象层次进行推理。这种现象的证据在最大和最新的模型中最为强烈,因此应该预计在更大规模的系统中,这种现象将变得更加强大。 然而,当前的LLMs需要更加有效地做到这一点。 以下发现基于各种实验技术和理论模型,支持这种说法。 模型的内部颜色表示与人类感知颜色的实证发现高度一致。 模型可以推断作者的知识和信念,预测文档的未来走向。 故事用于告诉模型,然后模型会改变其对故事中所代表的对象的特征和位置的内部表示。 有时,模型可以提供如何在纸上描绘奇怪事物的信息。 许多常识推理测试都被模型通过了,即使是像Winograd Schema Challenge这样的测试,也没有任何文本提示答案。 这些发现反驳了传统智能模型仅仅是统计下一个词的预测器,并且无法推广其学习或推理超越文本的普遍观点。…

Leave a Comment

什么是AI幻觉?AI聊天机器人出了什么问题?如何识别出幻觉的人工智能?

AI幻觉并非新问题。人工智能(AI)在过去几年取得了显著进展,变得更加熟练,可以执行以前只能由人类完成的活动。然而,幻觉是一个对AI构成了巨大障碍的问题。开发者已经警告,AI模型产生完全错误的事实并用虚构的答案回答问题,似乎这些答案是真实的,这可能会危及应用程序的准确性、可靠性和信任度,因此幻觉是开发和部署AI系统的严重障碍。因此,从事AI工作的人正在积极寻求解决这个问题的方法。本文将探讨AI幻觉的影响和影响,以及用户可能采取的减少接受或传播不正确信息的危险的措施。 什么是AI幻觉? 所谓人工智能幻觉的现象是指AI模型产生了预期之外的结果。请注意,一些AI模型已经被教导了有意地制造没有与现实世界输入(数据)相关联的输出。 幻觉是用来描述当AI算法和深度学习神经网络创建结果不是真实的、不匹配算法接受过的任何数据或没有遵循任何其他可辨别的模式的情况。 AI幻觉可以采取许多不同的形式,从制造虚假新闻报道到虚假的关于人、历史事件或科学事实的断言或文件。例如,像ChatGPT这样的AI程序可以制造一个有完整传记和从未真实存在的成就的历史人物。在当前社交媒体和即时通信的时代,一个单一的推文或Facebook帖子可以在几秒钟内达到数百万人,这种不正确信息传播的潜力尤其令人担忧。 为什么会发生AI幻觉? 具有欺骗AI程序使其误分类的输入数据——对抗性示例——可能会导致AI幻觉。例如,开发人员使用数据(例如图像、文本或其他类型)来训练AI系统;如果数据被改变或扭曲,应用程序将以不同的方式解释输入并产生不正确的结果。 使用编码器-解码器(输入-输出)序列,AI中的变压器是一种深度学习模型,它利用自我关注(语句中单词之间的语义联系)创建类似于人类写作的文本。对于幻觉而言,如果语言模型的训练数据和资源充足且准确,那么预期输出将是虚构的和错误的。语言模型可能会产生一个故事或叙述,没有不合逻辑的间隙或模糊的联系。 发现AI幻觉的方法 作为人工智能的一个子领域,计算机视觉旨在教会计算机从视觉输入(例如图片、绘画、电影和现实生活)中提取有用的数据,它正在培训计算机像人类一样看待世界。但是,由于计算机不是人类,它们必须依靠算法和模式来“理解”图片,而不是直接接触人类感知。因此,人工智能可能无法区分薯片和落叶。这种情况也经过了常识测试:与人类可能看到的相比,AI生成的图像。当然,随着AI变得更加先进,这变得越来越困难。 如果人工智能没有迅速融入日常生活,这一切都会显得荒谬和有趣。自动驾驶汽车已经采用了人工智能,其中幻觉可能导致死亡。虽然这还没有发生,但在实际世界中开车时误认物品是一场灾难,只等发生。 在使用流行的AI应用程序时,以下是几种识别AI幻觉的技术: 1. 大型语言处理模型 像ChatGPT这样的大型处理模型生成的信息中的语法错误是罕见的,但当它们发生时,你应该对幻觉持怀疑态度。同样,当生成的文本内容不合理、不符合提供的上下文或与输入数据不匹配时,应该对幻觉持怀疑态度。 2. 计算机视觉 人工智能有一个子领域叫做计算机视觉,机器学习和计算机科学,它使机器能够像人眼一样检测和解释图像。它们依赖于卷积神经网络中的大量视觉训练数据。 如果用于训练的视觉数据模式发生变化,就会出现幻觉。例如,如果计算机还没有接受过网球的图像训练,它可能会错误地将网球识别为绿色或橙色。如果计算机错误地将站在人类雕像旁的马识别为真实的马,它也可能会产生AI幻觉。 将产生的输出与人类预期观察到的输出进行比较,将帮助您识别计算机视觉幻觉。 3.   自动驾驶汽车 由于人工智能的推动,自动驾驶汽车在汽车工业中越来越受欢迎。自动驾驶汽车的先驱们,如福特的BlueCruise和特斯拉的Autopilot,推动了这一计划。通过查看特斯拉Autopilot感知的方式和内容,您可以了解一些关于人工智能如何支持自动驾驶汽车的知识。 幻觉对人类和人工智能模型的影响是不同的。人工智能幻觉是错误的结果,与现实极不一致或在提供的提示的情况下毫无意义。例如,AI聊天机器人可能会因噪声或其他结构问题而以语法或逻辑上不正确的方式回答,或错误地识别一个对象。…

Leave a Comment

微软AI介绍了一种基于ZeRO的高级通信优化策略,用于高效的大模型训练,不受批量大小或带宽限制的阻碍

微软研究人员推出了一个名为ZeRO++的新系统,该系统已经被开发用于优化大型AI模型的训练,解决了高数据传输开销和带宽有限的挑战。ZeRO++在现有的ZeRO优化基础上进行了扩展,提供了增强的通信策略,以提高训练效率,缩短训练时间和降低训练成本。 如Turing-NLG、ChatGPT和GPT-4等大型模型的训练需要跨多个GPU设备使用大量存储器和计算资源。DeepSpeed开发的ZeRO++引入了通信优化策略,以克服在每个GPU上使用小批量大小或在低带宽集群上训练时ZeRO的局限性。 ZeRO优化的家族,包括ZeRO-Inference,使模型状态在GPU之间进行分区,而不是复制,利用集体GPU内存和计算能力。然而,在训练过程中,ZeRO可能会产生高通信开销。ZeRO++通过融合三组通信优化解决了这个问题:量化权重通信(qwZ)、分层权重分区(hpZ)和量化梯度通信(qgZ)。 为了减少参数通信量,ZeRO++对权重进行了量化,利用基于块的量化来保留训练精度。这个优化的量化过程比基本的量化更快,更准确。为了在反向传播期间最小化通信开销,ZeRO++通过在每台机器内维护一个完整的模型副本来以GPU内存为代价进行通信。对于梯度通信,ZeRO++引入了一种新颖的量化梯度通信范式qgZ,以减少跨节点的流量和延迟。 这些通信优化导致通信量的大幅度减少。与ZeRO相比,ZeRO++实现了高达4倍的减少,提高了训练吞吐量和效率。当每个GPU使用小批量大小时,在高带宽集群中,ZeRO++比ZeRO-3提高了28%至36%的吞吐量。在低带宽集群中,ZeRO++与ZeRO-3相比实现了平均2倍的加速,使大型模型训练更加普及。 ZeRO++不仅限于训练场景,还扩展到使用人类反馈(RLHF)训练的对话模型中的强化学习。通过将ZeRO++与DeepSpeed-Chat集成,可以使RLHF训练受益于改进的生成和训练阶段,实现比ZeRO更高达2.25倍的更好的生成吞吐量和1.26倍的更好的训练吞吐量。 DeepSpeed发布了ZeRO++,以使大型模型训练更加高效和适用于AI社区。该系统旨在加速训练,减少通信开销并实现更大的批量大小,从而节省时间和资源。研究人员和实践者可以利用ZeRO++更有效地训练像ChatGPT这样的模型,并探索AI中的新可能性。

Leave a Comment

颠覆性的文本到图像合成:加州大学伯克利分校研究人员利用大型语言模型,在两阶段生成过程中增强了空间和常识推理能力

最近,文本到图像生成方面取得了一些进展,出现了可以合成高度逼真和多样化图像的扩散模型。然而,尽管这些模型具有令人印象深刻的能力,像Stable Diffusion这样的扩散模型在需要空间或常识推理的提示方面仍然需要帮助,导致生成的图片不准确。 为了解决这个挑战,加州大学伯克利分校和加州大学旧金山分校的研究团队提出了一种新的基于LLM的扩散(LMD)方法,可以增强文本到图像生成中的提示理解。他们已经确定了场景,包括否定、数字、属性分配和空间关系,在这些场景中,Stable Diffusion与LMD相比存在不足。 研究人员采用了一种成本效益的解决方案,避免了训练大型语言模型(LLMs)和扩散模型的昂贵和耗时过程。他们将现成的冻结LLMs集成到扩散模型中,形成了一个两阶段的生成过程,提供了增强的空间和常识推理能力。 在第一阶段,LLM被调整为文本引导的布局生成器,通过上下文学习。当给出一个图像提示时,LLM会产生一个由边界框和相应描述组成的场景布局。在第二阶段,扩散模型通过使用一个新颖的控制器来生成图像,由生成的布局进行引导。两个阶段都使用冻结的预训练模型,没有对LLM或扩散模型进行任何参数优化。 LMD除了改进提示理解外,还提供了几个优点。它可以实现基于对话的多轮场景规定,允许用户为每个提示提供额外的澄清和修改。此外,LMD可以处理不受基础扩散模型支持的语言提示。通过将支持多轮对话的LLM纳入其中,用户可以在初始布局生成后查询LLM,并为随后的图像生成接收更新的布局,便于请求添加对象或更改它们的位置或描述等。 此外,通过在上下文学习过程中提供非英语提示的示例和英语布局和背景描述,LMD接受非英语提示,即使基础扩散模型不支持给定的语言也能生成带有英语描述的布局。 研究人员通过与LMD利用的基础扩散模型Stable Diffusion 2.1进行比较,验证了LMD的优越性。他们邀请读者探索他们的工作,进行全面评估和进一步比较。 总之,LMD提出了一种新的方法,以解决扩散模型在准确遵循需要空间或常识推理的提示方面的局限性。通过集成冻结LLMs并采用两阶段生成过程,LMD显著增强了文本到图像生成任务中的提示理解能力。它提供了其他功能,如基于对话的场景规定和处理不支持的语言提示。研究团队的工作为通过集成现成的冻结模型来改善合成图像的准确性和多样性开辟了新的可能性。

Leave a Comment

见识vLLM:一个开源的LLM推理和服务库,可以将HuggingFace Transformers加速24倍

大型语言模型(LLMs)是人工智能(AI)领域的一项重大突破性进展。这些模型(例如 GPT-3)彻底改变了自然语言理解。由于这些模型具有解释大量现有数据和生成类似人类的文本的能力,因此这些模型具有巨大的潜力,可以塑造人机交互和通信的未来并开启新的可能性。然而,尽管 LLMs 取得了巨大的成功,但与此类模型通常相关的一个显著挑战是它们的计算效率低下,即使在最强大的硬件上也会导致性能缓慢。由于这些模型包含数百万乃至数十亿个参数,因此训练此类模型需要广泛的计算资源,内存和处理能力,并非总是可用。此外,这些具有缓慢响应时间的复杂体系结构可能使 LLMs 无法实用于实时或交互式应用程序。因此,解决这些挑战变得至关重要,以释放 LLMs 的全部潜力并使其好处更广泛地可用。 针对这个问题陈述,加州大学伯克利分校的研究人员开发了 vLLM,这是一个开源库,是 LLM 推理和服务的一个更简单,更快速,更便宜的替代方案。目前,大型模型系统组织(LMSYS)正在使用该库来驱动其Vicuna和 Chatbot Arena。通过切换到 vLLM 作为其后端,与最初基于 HuggingFace 转换器的后端相比,研究组织已成功高效地处理峰值流量(比以前多 5 倍),同时使用有限的计算资源并降低高运营成本。目前,vLLM 支持几个 HuggingFace 模型,如 GPT-2,GPT BigCode…

Leave a Comment

认识 MeLoDy:一种高效的文本到音频扩散模型,用于音乐合成

音乐是由和谐、旋律和节奏组成的艺术,渗透到人类生活的各个方面。随着深度生成模型的蓬勃发展,音乐生成近年来受到了广泛关注。作为一类重要的生成模型,语言模型(LMs)在建模复杂的长期上下文关系方面表现出了非凡的建模能力。基于此,AudioLM和许多后续工作成功地将LMs应用于音频合成。与基于LM的方法相似,扩散概率模型(DPMs)作为另一类竞争性的生成模型,也表现出了合成语音、声音和音乐的卓越能力。 然而,从自由形式文本生成音乐仍然具有挑战性,因为允许的音乐描述可以是多种多样的,与流派、乐器、节奏、情境,甚至一些主观感受有关。 传统的文本到音乐生成模型通常关注于特定的属性,如音频延续或快速采样,而有些模型则优先考虑稳健的测试,这有时是由领域内的专家(例如音乐制作人)进行的。此外,大多数模型都是在大规模的音乐数据集上训练的,并且展示了最新的生成性能,具有高保真度和对文本提示各种方面的忠实度。 然而,这些方法的成功,如MusicLM或Noise2Music,带来了高计算成本,这将严重妨碍它们的实用性。相比之下,基于DPMs构建的其他方法使高质量音乐的有效采样成为可能。然而,他们所展示的案例相对较小,并且显示了有限的内部动态。为了实现可行的音乐创作工具,生成模型的高效性至关重要,因为它有助于与人类反馈进行交互式创作,正如先前的研究所述。 尽管LMs和DPMs都显示出了很好的结果,但相关问题并不是是否应该优先选择其中一种,而是是否可能同时利用两种方法的优势。 根据上述动机,提出了一种称为MeLoDy的方法。该策略的概述如下图所示。 在分析MusicLM的成功后,作者利用MusicLM中最高级别的LM,称为语义LM,来模拟音乐的语义结构,确定旋律、节奏、动态、音色和节奏的整体安排。在这种语义LM的条件下,他们利用DPMs的非自回归性质,借助成功的采样加速技术,高效有效地模拟声学。 此外,作者提出了所谓的双通道扩散(DPD)模型,而不是采用经典的扩散过程。事实上,对原始数据进行处理会指数增加计算费用。提出的解决方案是将原始数据降低到低维潜在表示。减少数据的维数会减少对操作的影响,从而减少模型运行时间。随后,原始数据可以通过预先训练的自编码器从潜在表示中重构出来。 模型产生的一些输出样本可在以下链接中获得:https://efficient-melody.github.io/。目前该代码尚未发布,这意味着目前无法在线或本地尝试它。 这就是MeLoDy的概述,这是一种生成最先进音质的高效LM引导扩散模型。如果您有兴趣,可以在下面的链接中了解更多关于这种技术的信息。

Leave a Comment

谷歌研究人员推出了AudioPaLM:一款改变语音技术的游戏规则——一种新的大型语言模型,具有史无前例的准确听、说和翻译能力

大型语言模型(LLMs)近几个月来备受瞩目。作为人工智能领域最好的进展之一,这些模型正在改变人类与机器交互的方式。由于每个行业都在采用这些模型,它们是人工智能接管世界的最佳例证。 LLM在生成文本方面表现出色,尤其是在涉及复杂交互和知识检索的任务中,最著名的例子是OpenAI开发的基于GPT 3.5和GPT 4转换器架构的ChatGPT聊天机器人。除了文本生成外,像CLIP(对比性语言-图像预训练)这样的模型也已经被开发出来,用于图像生成,可以根据图像内容创建文本。 为了在音频生成和理解方面取得进展,谷歌的研究人员介绍了AudioPaLM,这是一个大型语言模型,可以处理语音理解和生成任务。 AudioPaLM结合了两个现有模型的优点,即PaLM-2模型和AudioLM模型,以产生一个统一的多模态架构,可以处理和生成文本和语音。这使得AudioPaLM可以处理各种应用,从语音识别到语音转文本。 虽然AudioLM擅长维护诸如讲话者身份和语气之类的语言信息,但是PaLM-2,即基于文本的语言模型,专门处理文本特定的语言知识。通过结合这两个模型,AudioPaLM利用了PaLM-2的语言专业知识和AudioLM的语言信息保留,从而更全面地理解和创建文本和语音。 AudioPaLM利用联合词汇表,可以使用有限的离散标记表示语音和文本。将这个联合词汇表与标记任务描述相结合,可以在各种基于语音和文本的任务上训练单个仅解码器模型。传统上,语音识别,文本到语音合成和语音到语音翻译等任务是由分开的模型处理的,现在可以统一到单个架构和训练过程中。 在评估中,AudioPaLM在语音翻译方面的表现超过了现有系统。它展示了零-shot语音到文本翻译的能力,可以准确地将语音翻译为以前未遇到过的语言,从而为更广泛的语言支持开辟了可能性。AudioPaLM还可以基于简短的语音提示跨语言传递声音,并可以捕捉和复制不同语言中的不同声音,从而实现语音转换和适应。 该团队提到的关键贡献是: AudioPaLM利用了文本预训练中PaLM和PaLM-2s的能力。 它在自动语音翻译和语音到语音翻译基准方面取得了SOTA结果,并在自动语音识别基准方面表现出色。 该模型通过声音传递实现了声音到声音的翻译,超越了现有方法在语音质量和声音保留方面。 AudioPaLM通过执行未见过的语言组合的自动语音翻译来展示了零-shot能力。 总之,AudioPaLM是一个统一的LLM,通过利用基于文本的LLM的能力和结合音频提示技术来处理语音和文本,是LLM列表中值得期待的新成员。

Leave a Comment

ChatGPT的哲学课程:这项AI研究探讨LLMs在对话代理中的行为

2023年是LLMs的年份。ChatGPT,GPT-4,LLaMA等新的LLM模型正在接连抢占聚光灯。这些模型已经彻底改变了自然语言处理领域,并越来越广泛地应用于各个领域。 LLMs具有展现广泛行为的显著能力,包括进行对话,这可以导致与类似人类的谈话者进行交谈的引人注目的幻觉。然而,重要的是要认识到,基于LLM的对话代理在几个方面与人类存在显着差异。 我们的语言技能是通过与世界的具体互动发展起来的。我们作为个体,通过社交化和沉浸在语言用户社区中获得认知能力和语言能力。这一过程在婴儿身上发生得更快,随着我们长大,我们的学习过程变慢,但基础仍然相同。 相比之下,LLMs是在大量人类生成的文本上进行训练的无体神经网络,其主要目标是基于给定的上下文预测下一个单词或标记。它们的训练围绕着从语言数据中学习统计模式,而不是通过直接体验物理世界。 尽管存在这些差异,但我们倾向于用LLMs来模仿人类。我们在聊天机器人、助手等方面使用这种方法。然而,这种方法带来了一个具有挑战性的困境。我们如何描述和理解LLMs的行为? 使用熟悉的民间心理学语言是很自然的,像使用“知道”、“理解”和“思考”这样的术语来描述对话代理,就像我们对待人类一样。然而,当这些语言被过分字面地理解时,这种语言会促进拟人化,夸大了AI系统和人类之间的相似之处,同时掩盖了它们的深刻差异。 那么我们如何应对这个困境?我们如何为AI模型描述“理解”和“知道”这些术语?让我们来看看“角色扮演”论文。 在这篇论文中,作者提出采用替代概念框架和隐喻来有效地思考和谈论基于LLM的对话代理。他们主张使用两个主要隐喻:将对话代理视为扮演单一角色或作为可能角色的多元超定位的模拟集合。这些隐喻提供了不同的角度来理解对话代理的行为,并具有其独特的优势。 自回归采样的示例。来源:https://arxiv.org/pdf/2305.16367.pdf 第一个隐喻将对话代理描述为扮演具体角色。当给定提示时,代理尝试以与分配的角色或人物相匹配的方式继续对话。它旨在根据与该角色相关联的期望进行回应。 第二个隐喻将对话代理视为来自各种来源的不同角色的集合。这些代理已经接受了广泛的材料培训,如书籍、脚本、采访和文章,这使它们对不同类型的角色和情节有很多了解。随着对话的进行,代理根据其训练数据调整其角色和人物,使其能够适应并以角色回应。 对话代理中的轮流发言的示例。来源:https://arxiv.org/pdf/2305.16367.pdf 通过采用这个框架,研究人员和用户可以探索对话代理人的重要方面,如欺骗和自我意识,而不会错误地将这些概念归因于人类。相反,重点转向理解对话代理人在角色扮演场景中的行为以及它们可以模仿的各种角色。 总之,基于LLM的对话代理人具有模拟人类对话的能力,但它们与实际人类语言用户有很大的不同。通过使用替代隐喻,比如将对话代理人视为角色扮演者或模拟的组合,我们可以更好地理解和讨论它们的行为。这些隐喻为基于LLM的对话系统的复杂动态提供了洞见,使我们能够欣赏它们的创造潜力,同时认识到它们与人类的根本区别。

Leave a Comment

解决ChatGPT偏见的背包:背包语言模型是变压器的替代AI方法

AI语言模型正在成为我们生活中必不可少的一部分。几十年来,我们一直使用谷歌来获取信息,但现在,我们正慢慢地转向ChatGPT。它提供简洁的答案、清晰的解释,通常更快地找到我们所寻找的信息。 这些模型从我们多年来产生的数据中学习。因此,我们将我们的偏见传递给了AI模型,这是该领域的一个争议话题。一个特别引起关注的偏见是代词分布中的性别偏见,其中模型倾向于根据上下文喜欢使用带有性别色彩的代词,如“他”或“她”。 解决这种性别偏见对于确保公平和包容的语言生成至关重要。例如,如果你以“CEO认为…”开头的句子,模型会继续使用他,如果你用护士代替CEO,下一个标记就变成了她。这个例子是一个有趣的案例研究,可以研究偏见并探索缓解偏见的方法。 事实证明,上下文在塑造这些偏见方面起着至关重要的作用。通过用与不同性别相关联的职业代替CEO,实际上可以翻转观察到的偏见。但是,这里的挑战在于:实现在CEO出现的所有不同上下文中的一致去偏见并不容易。我们希望的是可靠和可预测的干预措施,无论特定情况如何,它们都能起作用。毕竟,在理解和改善语言模型方面,可解释性和控制性是关键。不幸的是,当前的Transformer模型虽然在性能方面令人印象深刻,但并不完全符合这些标准。他们的上下文表示引入了各种复杂和非线性的影响,这些影响取决于手头的上下文。 那么,我们该如何克服这些挑战?我们如何解决我们在大型语言模型中引入的偏见?我们应该改进Transformer,还是应该提出新的结构?答案是Backpack Language Models。 Backpack LM通过利用称为感觉向量的非上下文表示来解决去偏见代词分布的挑战。这些向量捕捉单词意义的不同方面以及其在不同上下文中的角色,使单词具有多种个性。 Backpack LM概述。来源:https://arxiv.org/pdf/2305.16765.pdf 在Backpack LMs中,预测是非上下文表示的对数线性组合,称为感觉向量。词汇表中的每个单词都由多个感觉向量表示,编码单词在不同上下文中的不同学习方面。这些感觉向量在特定上下文中具有特定的专业性,并且可以具有预测性。序列中单词的感觉向量的加权和形成每个单词的Backpack表示,权重由作用于整个序列的上下文化函数确定。通过利用这些感觉向量,Backpack模型实现了在所有上下文中表现出可预测干预的精度。 这意味着我们可以对模型进行非上下文的更改,以始终影响其行为。与Transformer模型相比,Backpack模型提供了一个更透明和可管理的接口。它们提供了更易于理解和控制的精确干预措施。此外,Backpack模型在性能方面也不会有所妥协。事实上,它们在提供增强可解释性的同时也能够达到与Transformers相当的结果。 感觉向量示例。来源:https://backpackmodels.science/ Backpack模型中的意义向量编码了丰富的词义概念,在词汇相似性任务上表现优于最先进的Transformer模型中的词嵌入。此外,对意义向量的干预,例如减少专业词汇中的性别偏见,展示了Backpack模型提供的控制机制。通过缩小与性别偏见相关联的意义向量,在有限的场景中可以实现显著降低上下文预测差异。

Leave a Comment

了解LLM-Blender:一种新的集成框架,通过利用多个开源大型语言模型(LLMs)的多样强项,实现持续优异的性能

大型语言模型在各种任务中表现出了卓越的性能。从生产独特且有创意的内容和提出问题答案,到翻译语言和概括文本段落,LLM在模拟人类方面非常成功。一些知名的LLM,如GPT、BERT和PaLM,因准确遵循指令和访问大量高质量数据而成为头条新闻。像GPT4和PaLM这样的模型不是开源的,这阻止了任何人了解其架构和训练数据。另一方面,像Pythia、LLaMA和Flan-T5这样的开源LLM提供了一个机会,让研究人员在自定义指令数据集上微调和改进模型。这使得像Alpaca、Vicuna、OpenAssistant和MPT这样的更小更高效的LLM得以开发。 市场上没有一个单一的开源LLM处于领先地位,而不同例子的最佳LLM可能会有很大的差异。因此,为了不断为每个输入产生改进的答案,动态整合这些LLM是必要的。通过整合各种LLM的独特贡献,可以减少偏见、误差和不确定性,从而产生更符合人类偏好的结果。为了解决这个问题,来自艾伦人工智能研究所、南加州大学和浙江大学的研究人员提出了LLM-BLENDER,这是一个集成框架,通过利用多个开源大型语言模型的许多优势,始终获得卓越的性能。 LLM-BLENDER由两个模块组成——PAIRRANKER和GENFUSER。这些模块表明,不同例子的最佳LLM可能会有很大的差异。第一个模块PAIRRANKER被开发出来,用于识别潜在输出之间微小的变化。它使用先进的成对比较技术,其中原始文本和来自各种LLM的两个候选输出作为输入。为了共同编码输入和候选对,它利用交叉注意力编码器,如RoBERTa,PAIRRANKER可以使用这种编码来确定两个候选的质量。 第二个模块GENFUSER专注于合并排名靠前的候选项以生成更好的输出。它最大程度地利用所选候选项的优点,同时最小化它们的缺点。GENFUSER旨在通过合并各种LLM的输出来开发优于任何一个LLM的输出。 为了评估,团队提供了一个称为MixInstruct的基准数据集,它结合了Oracle成对比较和各种指令数据集。该数据集使用11个流行的开源LLM为各种遵循指令的任务生成多个输入的候选项。它包括训练、验证和测试示例,具有自动评估的Oracle比较。这些Oracle比较已用于为候选输出排名,从而可以评估LLM-BLENDER和其他基准技术的性能。 实验结果表明,LLM-BLENDER在各种评估参数上的表现要比单独的LLM和基准技术好得多。它建立了一个相当大的性能差距,并表明采用LLM-BLENDER集成方法可以产生比单个LLM或基准方法更高质量的输出。PAIRRANKER的选择在基于参考的度量和GPT-Rank方面的表现优于单个LLM模型。通过高效的融合,GENFUSER通过利用PAIRRANKER的首选项显著提高了响应质量。 LLM-BLENDER还优于像Vicuna这样的单个LLM,因此展示了通过集成学习来改进LLM部署和研究的巨大潜力。

Leave a Comment

一组来自中国的研究人员开发了WebGLM:一种基于通用语言模型(GLM)的网络增强问答系统

大型语言模型(LLMs),包括GPT-3、PaLM、OPT、BLOOM和GLM-130B,极大地推动了计算机在语言理解和生成方面的可能性。其中最基本的语言应用之一,即问答,由于最近LLM的突破而得到了显着改进。根据现有研究,LLMs的闭书QA和上下文学习QA的表现与受监督模型相当,这有助于我们对LLMs的记忆能力的理解。但即使是LLMs也有限制,当面对需要大量特殊知识的问题时,它们无法达到人类的期望。因此,最近的尝试集中在构建增强了外部知识(包括检索和在线搜索)的LLMs上。 例如,WebGPT能够进行在线浏览,对复杂问题提供详细的答案和有用的参考。尽管它很受欢迎,但原始的WebGPT方法尚未被广泛采用。首先,它依赖于对浏览轨迹、精心撰写的响应和答案偏好标注的许多专家级注释,所有这些都需要昂贵的资源、大量的时间和广泛的培训。其次,通过告诉系统与Web浏览器交互,给出操作指令(如“搜索”、“阅读”和“引用”),然后从在线来源收集相关材料,行为克隆方法(即模仿学习)需要其基本模型GPT-3类似于人类专家。 最后,Web浏览的多轮结构需要大量的计算资源,并且对于用户体验来说可能过于缓慢,例如,WebGPT-13B需要大约31秒才能回答一个500个标记的查询。清华大学、北京航空航天大学和智普AI的研究人员在本研究中介绍了WebGLM,这是一个基于100亿参数的通用语言模型(GLM-10B)构建的稳健的Web增强质量保证系统。图1展示了其中的一个示例。它是有效、经济、对人类偏好敏感,最重要的是,它与WebGPT的水平相当。为了获得良好的性能,该系统使用了几种新颖的方法和设计,包括LLM增强检索器,一种将细粒度的LLM蒸馏检索与粗粒度的Web搜索相结合的两阶段检索器。 像GPT-3这样的LLMs自然接受正确的引用的能力是这种技术的灵感来源,这可以通过适当的基于引文的过滤来改进较小的密集检索器。基于LLM上下文学习引导并在引用的长形QA样本上进行训练的基于GLM-10B的响应生成器被称为引导生成器。LLMs可以通过足够的基于引文的过滤来提供高质量的数据,而不是依靠昂贵的人类专家在WebGPT中编写。一个得分器,通过在线QA论坛上的用户点赞信号进行教学,可以了解人类多数人对各种答复的偏好。 图1显示了WebGLM对样本查询的回答快照,附带了在线资源的链接。 他们展示了一种合适的数据集架构可以产生与WebGPT的专家标注相比的高质量评分器。他们的定量消融测试和深入的人类评估结果显示了WebGLM系统的高效和有效。特别是,WebGLM(10B)在他们的图灵测试中优于WebGPT(175B),并且优于大小相似的WebGPT(13B)。WebGLM是目前最好的公开可用的Web增强QA系统之一,得益于对唯一公开可用系统Perplexity.ai的改进。总之,在本文中,他们提供了以下内容:•他们建立了WebGLM,这是一个有效的带有人类偏好的Web增强质量保证系统。它的性能类似于WebGPT(175B),并且比类似大小的WebGPT(13B)要好得多。 它还超越了由LLMs和搜索引擎驱动的流行系统Perplexity.ai。•他们在现实世界的部署中确定了WebGPT的局限性。他们提出了一组新的设计和策略,以在实现基线系统的高准确性的同时实现高效和具有成本效益的优势。•他们制定了人类评估指标,用于评估Web增强型QA系统。广泛的人类评估和实验证明了WebGLM的强大能力,并为系统未来的发展产生了见解。代码实现可在GitHub上找到。

Leave a Comment

遇见Otter:一款尖端的AI模型,利用名为MIMIC-IT的大规模数据集,在感知和推理基准测试中实现最先进的表现

多方面的模型致力于整合来自不同来源的数据,包括书面语言、图片和视频,以执行各种功能。这些模型在理解和生成融合视觉和文本数据的内容方面展示了相当大的潜力。 多方面模型的一个关键组成部分是指令调整,它涉及基于自然语言指令对模型进行微调。这使得模型可以更好地理解用户的意图并生成精确而相关的响应。指令调整已经在大型语言模型(LLMs)如GPT-2和GPT-3中得到有效应用,使它们能够遵循指令以完成现实任务。 现有的多模态模型方法可以分为系统设计和端到端可训练模型两个方面。系统设计角度将不同的模型连接起来,使用类似ChatGPT的调度程序,但缺乏训练灵活性并可能成本高昂。端到端可训练模型角度将来自其他模态的模型集成在一起,但可能具有高训练成本或有限的灵活性。以前在多模态模型中的指令调整数据集缺乏上下文示例。最近,来自新加坡的一个研究团队提出了一种新方法,引入了上下文指令调整,并构建了具有上下文示例的数据集以填补这一空白。 本研究的主要贡献包括: 引入用于多模态模型中的指令调整的MIMIC-IT数据集。 开发具有改进指令跟踪和上下文学习能力的Otter模型。 优化OpenFlamingo实现,以便更易于访问。 这些贡献为研究人员提供了有价值的数据集、增强的模型和更加用户友好的框架,以推进多模态研究。 具体来说,作者介绍了MIMIC-IT数据集,旨在增强OpenFlamingo的指令理解能力,同时保留其上下文学习能力。该数据集由具有上下文关系的图像-文本对组成,而OpenFlamingo旨在基于上下文示例为查询的图像-文本对生成文本。MIMIC-IT数据集的介绍是为了增强OpenFlamingo的指令理解能力,同时保持其上下文学习。它包括图像-指令-答案三元组及其对应的上下文。OpenFlamingo是一个框架,使多模态模型能够根据图像和上下文示例生成文本。 在训练过程中,Otter模型遵循OpenFlamingo范例,冻结预训练的编码器并微调特定模块。训练数据遵循特定格式,包括图像、用户指令、“GPT”生成的答案和[endofchunk]令牌。该模型使用交叉熵损失进行训练,用Please view this post in your web browser to complete the quiz.令牌分隔预测目标的解决方案。 作者将Otter集成到Hugging Face Transformers中,以便轻松重用和集成到研究人员的流程中。他们针对4×RTX-3090 GPU进行了模型优化,并支持完全分片数据并行(FSDP)和DeepSpeed以提高效率。他们还提供了一个脚本,用于将原始OpenFlamingo检查点转换为Hugging…

Leave a Comment

UC圣地亚哥分校和高通公司研究人员推出自然程序:一种强大的工具,可轻松验证自然语言中严谨推理链条 – 人工智能的游戏规则改变者

人工智能领域最新和最令人难以置信的进展是大型语言模型(LLM)的发展。著名的ChatGPT由OpenAI开发,基于GPT 3.5和GPT 4架构,通常因其生成内容和回答问题的能力,就像人类一样,而受到广泛关注。它模仿人类生成创造性和精确内容的能力,使其能够在几乎所有行业中进行问题解决。通过添加Chain-of-Thought(CoT)提示,像GPT 3.5这样的LLM的影响得到了改进,从而导致信息处理行业的重大变化。CoT增强了LLM并帮助它们生成更全面和详细的推理过程,以一系列中间步骤进行。 虽然CoT提供了许多优势,但它对中间推理阶段的强调有时会导致幻觉和复合错误,这使得模型难以生成一致和准确的推理过程。为了解决这些挑战,一组研究人员引入了自然程序,这是一种自然语言基础的演绎推理格式,利用自然语言的内在力量来实现演绎推理。 该团队指出,这种方法将推理验证过程分解为一些顺序子过程。每个子过程仅提供特定步骤所需的上下文和前提条件,分解使验证过程更加可接近。作者使用了公开可访问的模型,例如OpenAI的GPT-3.5-turbo(175B),对算术和常识数据集进行了试验,以展示他们基于自然程序的验证技术的有效性。结果展示了他们的策略如何有效地增加大型语言模型生成的推理过程的可靠性。 自然程序格式使语言模型能够生成精确的推理步骤,确保后续步骤更加严格地基于前一步骤。通过使用这种结构,语言模型以逐步方式执行推理自我验证,由于验证程序集成到演绎推理的每个级别中,因此产生的推理阶段更加严格和可靠。 团队提到的一些关键贡献是: 引入自然程序格式,提出了一种适用于验证的严格演绎推理框架,可通过上下文学习简单制作。 通过实验,团队展示了提出的自然程序格式编写的长时间演绎推理过程可以通过使用仅涵盖先决上下文和前提条件的逐步子过程进行可靠的自我验证。 通过实验,团队展示了该框架如何有效提高LLM生成的推理阶段和解决方案的准确性、可靠性和可解释性。 总之,这个框架似乎有望提高语言模型的演绎推理能力。

Leave a Comment

革命性提高人工智能效率:加州大学伯克利分校的SqueezeLLM首次亮相,通过稠密和稀疏量化,将大型语言模型服务的质量和速度相结合

近期大型语言模型(LLMs)的发展已经在多个领域展示了它们令人印象深刻的问题解决能力。LLMs可以包含数百亿个参数,并且是在庞大的文本语料库上训练的。 研究表明,在LLM推理中,内存带宽而不是CPU是生成任务的关键性能限制。这表明,在内存受限情况下,参数可以被加载和存储的速率,而不是算术运算,成为关键延迟障碍。然而,内存带宽技术的进展远远落后于计算,从而导致了所谓的内存墙现象。 量化是一种有前途的方法,它涉及将模型参数存储在比训练中使用的通常的16或32位精度更低的精度下。尽管近来有了像LLaMA及其指令跟踪变体这样的进展,但是在低比特精度和相对较小的模型(例如50B参数)下实现良好的量化性能仍然很困难。 加州大学伯克利分校的一项新研究深入研究了低比特精度量化,揭示了当前方法的缺点。基于这些发现,研究人员引入了SqueezeLLM,这是一个后训练量化框架,它将密集和稀疏分解技术与独特的基于灵敏度的非均匀量化策略相结合。这些方法允许在超低比特精度下进行量化,同时保持竞争性的模型性能,大大减少了模型大小和推理时间成本。他们的方法将LLaMA-7B模型的困惑度从均匀量化的28.26降至3位精度下的7.75,这是一个相当大的改进。 通过在C4和WikiText2基准测试上进行全面测试,研究人员发现,在应用于语言建模任务的LLaMA-7B、13B和30B时,SqueezeLLM在不同比特精度下始终比现有的量化方法表现更好。 根据团队的说法,由于权重矩阵中存在大量的异常值,因此许多LLMs的低比特精度量化特别困难。这些异常值同样影响它们的非均匀量化方法,因为它们会将位的分配偏向极高或极低的值。为了消除异常值,他们提供了一种简单的方法,将模型权重分成密集和稀疏组件。通过隔离极端值,中心区域显示出更窄的范围,最高可达10,从而获得更好的量化精度。使用高效的稀疏存储方法,如压缩稀疏行(CSR),可以将稀疏数据保持完整精度。该方法使用高效的稀疏核心函数处理稀疏部分,并将计算并行化处理密集部分,从而产生低开销。 研究团队通过将SqueezeLLM应用于Vicuna-7B和13B模型,演示了他们框架对IF模型量化的潜在效果。在测试中,他们比较了两个系统。首先,他们使用MMLU数据集来衡量模型的知识和问题解决能力,以评估生成的输出的质量。他们还使用GPT-4来排名量化模型相对于FP16基线的生成质量,使用Vicuna中提出的评估方法。在两个基准测试中,SqueezeLLM始终优于GPTQ和AWQ这两种目前的最先进的方法。值得注意的是,在这两个评估中,4位量化模型的表现与基线相同。 该研究展示了他们的模型在A6000 GPU上运行时的显著延迟降低和量化性能的进展。研究人员展示了LLaMA-7B和13B相对于基线FP16推理的速度提升高达2.3倍。此外,所提出的方法实现了比GPTQ高达4倍的更快的延迟,展示了它在量化性能和推理效率方面的功效。

Leave a Comment

斯坦福大学和康奈尔大学的研究人员推出了Tart:一种创新的即插即用Transformer模块,以任务无关的方式增强人工智能推理能力

大型语言模型在不改变模型参数的情况下具有上下文学习技能,可以只给出少量实例就完成工作。由于具有任务不可知性,因此一个模型可以用于各种任务。相反,传统的任务适应技术,包括微调,会为每个任务修改模型参数。尽管如此,上下文学习很少是从业者的选择方法,因为它通常表现不如任务特定的适应技术。以前的大多数研究都将这种性能差异归咎于LLM的受限上下文窗口,该窗口只能容纳少量的任务案例。 然而,他们证明即使在给定相同任务示例的情况下,上下文学习和微调技术之间的差距仍然存在。这一发现引起了他们的关注:任务不可知适应策略的性能差异是一般性质限制还是只对上下文学习具有唯一性。他们能否特别创建符合以下要求的适应策略: • 任务不可知:同一模型适用于各种活动。 • 质量:在这些多个任务中,实现与任务特定方法竞争的准确性。 • 数据可扩展性:随着任务实例数量的增加,学习效率增加。他们首先研究质量差距的原因。 他们将LLM的上下文学习能力分为两个组成部分:有效任务表示的获取和这些表示上的概率推理或推理执行。差距是由表示中的信息缺失还是由LLM无法分析它们造成的?通过在多个二元分类任务中评估LLM家族的推理和表示差距,他们在经验上测试了这个概念。他们得出结论,LLM具有良好的表示形式,并且大部分质量差异是由他们的推理能力较弱造成的。 他们还发现微调在两个方面都可以增强基本模型,但主要是增强任务特定推理,占性能提升的72%。令人惊讶的是,大多数缩小性能差距的方法,例如提示工程和活动示例选择,只针对LLM的学习表示形式。相反,他们的研究探讨了一种增强LLM推理能力的替代策略。他们使用人工创建的概率推理挑战来改善LLM的推理能力。虽然这种方法提高了模型的基线上下文学习性能,但它也需要单独微调每个LLM。 他们更进一步,推测以一种与任务和模型无关的方式发展推理能力的前景。他们证明了可以采取完全不可知的方法来增强推理能力。在这项研究中,来自斯坦福大学和康奈尔大学的研究人员提出了Tart,它使用合成教授的推理模块来提高LLM的推理能力。Tart只使用合成的逻辑回归问题进行训练,而不管下游任务或基本LLM,以训练基于Transformer的推理模块。不需要进一步的训练,这个推理模块可以使用LLM的嵌入来构建,以增强其演绎能力。 特别是,Tart实现了必要的目标: • 任务中立:Tart的推理模块必须使用虚构数据进行一次训练。 • 质量:在各种NLP任务中,表现比基本LLM好,使用任务特定的微调技术缩小了差距。 • 数据可扩展性:处理比上下文学习多10倍的实例。 Tart与任务、模型和领域无关。他们证明,Tart在14个NLP分类任务上跨越三个模型系列,并在不同的领域中泛化,使用单个用合成数据训练的推理模块。他们证明,Tart的性能在质量方面优于上下文学习18.4%,任务特定适配器3.4%和完全任务特定微调3.1%。在RAFT基准测试中,Tart将GPT-Neo的性能提高到与GPT-3和Bloom相同的水平,同时超过后者4%。 Tart解决了上下文学习的不便的短期限制,并且具有数据可扩展性。在LLM中,每个示例可能占用多个标记,通常是数百个,而Tart的推理模块仅使用每个案例的两个标记 – 一个用于上下文,一个用于标签。这种数据可扩展性可能带来的好处可达6.8%。从理论上讲,他们证明了Tart的泛化能力主要取决于合成数据分布和自然文本嵌入分布之间的分布偏移,由Wasserstein-1指标评估。 以下是他们的主要贡献概述: • 使用表示推理分解,研究为什么针对特定任务的微调在访问相同信息的情况下优于上下文学习。…

Leave a Comment

Meta AI推出MusicGen:一种简单且可控的音乐生成模型,可由文本和旋律两种方式进行提示

从文本描述中创建音乐作品,例如“带有吉他即兴的90年代摇滚歌曲”,就是文本到音乐。由于它涉及模拟长程过程,因此制作音乐是一项困难的任务。音乐与语音不同,需要利用整个频率范围。这需要更频繁地采样信号;例如,音乐录音通常使用44.1 kHz或48 kHz的采样率,而不是语音的16 kHz。此外,多个乐器的和声和旋律组合形成了音乐中复杂的结构。人类听众对于不协调非常敏感。因此,在创作音乐时几乎没有出错的机会。  最后,对于音乐制作人来说,通过使用各种工具(包括键、乐器、旋律、流派等)控制生成过程至关重要。最近在音频合成、序列建模和自监督音频表示学习方面的发展使得创造这样的模型的框架成为可能。最近的研究建议将音频信号表示为表示同一信号的几个离散令牌流,以使音频建模更易于处理。这既实现了有效的音频建模,又实现了高质量的音频生成。然而,这需要联合建模多个依赖的并行流。  研究人员建议使用延迟方法或在不同流之间添加偏移量来对多个并发语音令牌流进行建模。其他人则建议使用自回归模型层次结构对音乐部分进行建模,并使用多个粒度的离散令牌序列进行显示。与此同时,几位研究人员使用类似的策略生成歌唱伴奏。研究人员建议将此问题分为两个阶段:(i)仅对初始令牌流进行建模,(ii)使用后置网络以非自回归方式联合建模其余流。Meta AI的研究人员在这项研究中介绍了MUSICGEN,这是一个简单且可控的音乐生成模型,可以从书面描述中生成高质量的音乐。  作为先前研究的概括,他们提供了一个通用框架来模拟多个声学令牌流。他们还结合了无监督旋律调节,使模型能够生成符合特定和声和旋律结构的音乐,以增加所创建样本的可控性。他们对MUSICGEN进行了深入的研究,并表明相比于最佳基线的80.5,它的主观评分为84.8。他们还提供了解剖研究,以阐明每个组件对整个模型性能的重要性。  最后,人类评估表明,MUSICGEN生成的样本质量高,更符合特定和声结构的旋律,并遵循书面描述。他们的参与:(i)他们提供了一种简单而有效的方法来以32 kHz生成高质量的音乐。他们演示了MUSICGEN如何使用单阶段语言模型和成功的码本交错技术创建可靠的音乐。 (ii)他们提供了一个单一模型来执行文本条件生成和旋律条件生成,并展示生成的音频与文本调节信息一致,并符合给定的曲调。 (iii)他们提供了关于其方法基本设计决策的深入评估,既客观又主观。MusicGen的PyTorch代码实现可在GitHub上的AudioCraft库中获得。

Leave a Comment

本人工智能论文提出了一种零样本个性化Lip2Speech综合方法:一种合成语音模型,以匹配嘴唇运动

中国科学技术大学的研究团队开发了一种新型机器学习模型,用于唇语合成(Lip2Speech)。该模型能够在零样本条件下生成个性化的合成语音,这意味着它可以对训练期间未遇到的数据类进行预测。研究人员采用了一种基于神经网络的生成模型——变分自编码器,来介绍他们的方法,该模型对数据进行编码和解码。 Lip2Speech合成涉及基于一个人的嘴唇动作预测出口语单词,它具有各种实际应用。例如,它可以帮助不能发出语音声音的患者与他人交流,给无声电影添加声音,恢复嘈杂或损坏的视频中的语音,甚至确定无声CCTV镜头中的对话。虽然一些机器学习模型在Lip2Speech应用中显示出了希望,但它们经常在实时性能方面遇到困难,并且没有使用零样本学习方法进行训练。 通常,为了实现零样本Lip2Speech合成,机器学习模型需要可靠的说话者视频录制,以提取有关他们语音模式的其他信息。然而,在仅有静默或不可理解的说话者面部视频的情况下,无法访问此信息。研究人员的模型旨在通过生成与给定说话者的外貌和身份匹配的语音,而不依赖于他们实际语音的录制来解决这个限制。 该团队提出了一种零样本个性化Lip2Speech合成方法,利用面部图像来控制说话者的身份。他们采用了变分自编码器来解开说话者身份和语言内容表示,允许说话者嵌入来控制未见过的说话者合成语音的声音特征。此外,他们介绍了相关的跨模态表示学习,以增强基于面部的说话者嵌入在语音控制方面的能力。 为了评估他们的模型性能,研究人员进行了一系列测试。结果是显着的,因为模型生成的合成语音准确地匹配了说话者的唇部动作、年龄、性别和整体外貌。这种模型的潜在应用是广泛的,从帮助语音障碍患者的辅助工具到视频编辑软件和协助警方调查的辅助工具。研究人员通过广泛的实验强调了他们提出的方法的有效性,证明合成的话语比其他方法更自然,并且与输入视频的个性特点相符。重要的是,这项工作代表了首次尝试使用面部图像而不是参考音频来控制语音特性的零样本个性化Lip2Speech合成。 总之,研究人员开发了一种在零样本条件下表现出色的Lip2Speech合成的机器学习模型。该模型可以通过利用变分自编码器和面部图像生成与说话者外貌和身份相匹配的个性化合成语音。该模型的成功表现为各种实际应用开辟了可能性,例如帮助语音障碍患者、增强视频编辑工具和协助警方调查等。 查看论文和参考文章。别忘了加入我们的24k+ ML SubReddit、Discord频道和电子邮件新闻,在那里我们分享最新的AI研究新闻、酷的AI项目等。如果您对上述文章有任何疑问,或者我们漏掉了任何内容,请随时通过电子邮件 Asif@marktechpost.com与我们联系。 在AI工具俱乐部中查看100多个AI工具 本文最初发布于MarkTechPost。

Leave a Comment

来自加州大学伯克利分校和谷歌的研究人员推出了一种人工智能框架,将视觉问答表述为模块化代码生成

人工智能(AI)的领域正在随着每个新模型和解决方案的发布而不断发展和进步。近来因其不可思议的能力而变得非常流行的大型语言模型(LLMs)是AI崛起的主要原因。AI的子领域,无论是自然语言处理(NLP)、自然语言理解(NLU)还是计算机视觉,所有这些都在进步,并且出于种种良好的理由。最近引起AI和深度学习社区极大兴趣的一个研究领域是视觉问答(VQA)。VQA是回答关于图像的开放性、基于文本的问题的任务。 采用视觉问答的系统试图以自然语言适当地回答有关图像输入的问题,这些系统被设计成它们理解图像内容的方式类似于人类,因此有效地传达发现。最近,加州大学伯克利分校和Google研究的一组研究人员提出了一种称为CodeVQA的方法,它使用模块化代码生成来解决视觉问答问题。CodeVQA将VQA制定为程序综合问题,并利用编码语言模型,该模型以问题作为输入并生成代码作为输出。 这个框架的主要目标是创建可以调用经过预先训练的视觉模型并组合其输出以提供答案的Python程序。所生成的程序操作视觉模型输出并使用算术和条件逻辑推导出解决方案。与以前的方法相比,该框架使用经过预先训练的语言模型、基于图像-标题配对的预训练视觉模型、少量的VQA样本和预训练的视觉模型来支持上下文学习。 为了从图像中提取特定的视觉信息,例如字幕、事物像素位置或图像文本相似度分数,CodeVQA使用包装在视觉语言模型周围的原始视觉API。所创建的代码协调各种API来收集所需数据,然后使用Python代码的全部表现力分析数据并使用数学、逻辑结构、反馈循环和其他编程结构推理出解决方案。 为了评估这种新技术的性能,该团队将其性能与不使用代码生成的几次采样基线进行了比较。 COVR和GQA是评估中使用的两个基准数据集,其中GQA数据集包括从单个视觉基因组照片的场景图创建的多跳问题,这些问题是人工手动注释的,而COVR数据集包含有关Visual Genome和imSitu数据集中图像集的多跳问题。结果显示,CodeVQA在两个数据集上都比基线表现更好。特别是,在COVR数据集上的准确性至少提高了3%,在GQA数据集上则提高了约2%。 该团队提到,CodeVQA很容易部署和使用,因为它不需要任何额外的训练。它利用预训练模型和有限数量的VQA样本进行上下文学习,这有助于将创建的程序针对特定的问题-答案模式进行调整。总之,该框架强大,并利用预先训练的LM和视觉模型的优势,提供了一种基于模块化和代码的VQA方法。

Leave a Comment