Press "Enter" to skip to content

Tag: Large Language Model

阿里巴巴AI开源了包括Qwen-1.8B、Qwen-7B、Qwen-14B和Qwen-72B在内的Qwen系列,还有Qwen-Chat系列

阿里巴巴云计算最新的开源AI模型系列Qwen,将人工智能技术的边界推向了新的高度。阿里巴巴通过发布Qwen-1.8B和Qwen-72B以及专门的聊天和音频模型,进一步扩展了其AI解决方案。阿里巴巴通过这些模型展示了其对开发AI能力的承诺,这些模型在语言和音频处理方面提供了改进的性能和多功能性。 Qwen系列已经得到显著增强,通过发布Qwen-1.8B及其更大的版本Qwen-72B。Qwen系列已包括Qwen-7B和Qwen-14B。Qwen-1.8B基于1.8亿个参数的Transformer模型,预训练语料库超过2.2万亿个令牌。该模型在中文和英文的各种语言任务中胜过许多相同规模甚至更大的模型。该模型还支持8192个令牌的长上下文。 值得注意的是,Qwen-1.8B及其量化变体int4和int8提供了一种经济实惠的部署解决方案。这些特性使其成为各种应用的明智选择,通过大幅降低内存需求。超过150K个标记的广泛词汇进一步提高了其语言能力。 更大规模的模型Qwen-72B训练了3万亿个令牌。该模型在大多数任务中优于GPT-3.5,并在所有测试任务中优于LLaMA2-70B。尽管参数较大,阿里巴巴已经设计了这些模型以实现低成本部署;量化版本仅需大约3GB的最小内存使用。这一突破显著降低了使用以前在云计算上成本高达数百万美元的大规模模型所面临的障碍。 除了Qwen基础模型,阿里巴巴还推出了针对AI支持和对话能力进行优化的Qwen-Chat版本。Qwen-Chat除了生成材料和促进自然对话外,还能执行代码解释和摘要任务。 阿里巴巴的Qwen-Audio在多模态AI中能够处理各种音频输入,并生成文本输出,这代表了一项值得注意的进步。值得注意的是,Qwen-Audio在语音识别和各种音频理解标准上取得了最先进的性能,而无需进行精细调整。 在音频领域,Qwen-Audio作为基础音频语言模型树立了新的基准。它使用多任务学习框架处理多种音频格式。在多个基准测试中取得了令人瞩目的结果,包括在AISHELL-1和VocalSound等任务上的最先进得分。 Qwen-Audio的适应性包括从文本和音频输入操作多个聊天会话的能力,功能从语音编辑工具到音乐欣赏和声音解释等方面。

Leave a Comment

这项AI研究介绍了Atom:一种用于高效准确的大型语言模型(LLM)服务的低位量化技术

“`html 大型语言模型是人工智能领域最近的引进,已经席卷全球。这些模型由于其令人难以置信的能力,被所有人使用,包括研究人员、科学家甚至学生。凭借其模仿人类的能力,能够回答问题、生成内容、摘要文本、完成代码等等,这些模型已经走过了很长的路程。 大型语言模型在许多领域中都是必需的,包括情感分析、智能聊天机器人和内容创作。由于它们使用了大量的计算资源,因此有效地利用GPU资源来增加吞吐量。这是通过批处理多个用户请求来完成的,并且为了进一步提高内存利用率和计算能力,使用了大型语言模型量子化技术。然而,现有的量子化方法,如8位权值激活量子化,并没有充分利用新一代GPU的能力。由于这些GPU上的整数运算器是4位的,因此目前的量子化技术并不是为了最大的效率而设计的。 为了解决这个问题,一组研究人员引入了Atom,这是一种新的方法,可以最大化大型语言模型的吞吐量。Atom是一种低位量化技术,旨在大幅提高吞吐量而不损失精度。它使用低位运算符和低位量化来减少内存使用,以实现这一目标。它使用一种特殊的细粒度和混合精度量化的组合来保持卓越的准确性。 研究团队分享了Atom在4位权值激活量化配置上的评估结果。结果显示,与典型的16位浮点(FP16)方法相比,Atom可以在相同的目标范围内保持延迟,并且将端到端吞吐量提高了最多7.73倍;相比于8位整数(INT8)量化,吞吐量提高了2.53倍。这使得Atom成为应对日益增长的服务需求的可行解决方案,因为它可以保持期望的响应时间水平,并大大提高大型语言模型处理请求的速度。 研究人员总结了主要贡献如下。 对大型语言模型的服务进行了全面分析,这是研究性能分析的第一步。确定了使用低位权值激活量化方法的重要性能优势。 提出了一种独特而精确的低位权值激活量化技术,名为Atom。 研究团队分享Atom采用了多种策略来确保最佳性能。它使用混合精度,对其余关键激活和权重使用降低精度,同时保持前者的准确性。使用了细粒度组量化来减少量化过程中的错误。 Atom采用动态激活量化,通过调整每个输入的独特分布来减少量化错误。为了进一步提高整体性能,该方法还处理了KV缓存的量化。 研究还提出了一种长期管理(LLM)服务的综合框架。研究团队共同设计了一种有效的推理系统,构建了低位GPU内核,并在实际环境中展示了Atom的有用端到端吞吐量和延迟。 对Atom的性能进行了全面评估,结果显示Atom大大提高了LLM服务的吞吐量,以最小化精度损失为代价,吞吐量提高了最多7.7倍。 “`

Leave a Comment

Reka AI推出了Yasa-1:一款具备视觉和听觉传感器、能够通过代码执行采取行动的多模语言助手

在人工智能不断发展的领域中,对更先进、多功能的语言助手的需求稳步增长。挑战在于创建一个真正的多模态人工智能,能够无缝理解文本并与视觉和听觉输入进行交互。这个问题一直以来都是人工智能研究和开发的重点,而Reka已经为解决这个问题迈出了大胆的一步。 在人工智能领域,现有的解决方案主要集中在基于文本的助手上,这限制了它们完全理解我们所处丰富多媒体世界的能力。虽然这些解决方案在许多应用中无疑非常有价值,但对综合多模态方法的需求越来越明显。 Reka的创新性多模态助手Yasa-1具有突破性。Yasa-1旨在弥合传统基于文本的人工智能与现实世界之间的鸿沟,在现实世界中,信息不仅仅局限于文字。它超越了以前的可能性,提供了一个可以处理文本、图像、音频和短视频剪辑的统一模型。这对于创建一个真正理解我们环境多模态性质的人工智能助手来说,是一个重大的飞跃。 Yasa-1的指标充分说明了其能力。它可以处理长篇文档并无缝地处理大量的文本信息。通过原生优化的检索增强生成,它可以快速准确地提供响应。Yasa-1支持20种语言,突破了语言障碍,促进了多语言沟通。它的搜索引擎界面增强了信息检索功能,使其成为研究和数据探索的必不可少的工具。Yasa-1还具有代码解释器,可以通过代码执行采取行动,为自动化开发带来了无尽可能。 总之,Reka的Yasa-1是人工智能助手领域的一大步进。它巧妙地解决了创建真正多模态人工智能的长期问题,并提供了各种功能和能力,适用于广泛的应用。随着Yasa-1从私有预览转向更广泛的可用性,它将彻底改变我们日常与人工智能的互动和利用方式。

Leave a Comment

苹果的这项人工智能研究调查了LLM在性别刻板印象方面的行为问题

大型语言模型(LLMs)在过去几个月取得了巨大的进展,在许多不同领域击败了最先进的基准。人们在使用和研究大型语言模型(LLMs)方面有了明显的增长,特别是在自然语言处理(NLP)领域。除了在SAT、LSAT、医学院考试和智商测试等方面通过甚至超越,这些模型在各种自然语言任务中也显著超过了最先进技术(SOTA)。这些显著的发展引发了关于在日常任务中采用和依赖这些模型的广泛讨论,从医疗建议到安全应用再到分类工作项。 由苹果研究人员提出的一种新的测试范式之一,使用了当前LLMs正在使用的训练数据中可能被排除的表达式。他们表明,LLMs广泛使用了有性别偏见的假设。他们研究了LLMs对其决策的理由,并发现LLMs经常对刻板印象本身进行明确陈述,除了使用关于句子结构和语法的主张,这些主张在更详细的调查中并不成立。LLM的行为与西方文明的集体智慧相一致,至少在用于训练LLMs的数据中编码。找到这种行为模式、分离其原因并提出解决方案至关重要。 语言习得算法的性别偏见 关于语言模型中的性别偏见已经有了广泛的研究和记录。根据研究,无约束的语言模型反映并加剧了所处文化中的偏见。除了自动字幕、情感分析、毒性检测、机器翻译和其他NLP任务,性别偏见还在各种模型中得到了证明。性别不是唯一一个受到这种偏见影响的社会类别;宗教、肤色、国籍、残疾和职业都包括在内。 句子理解中的无意识偏见 人类句子处理文献还广泛记录了使用几种实验方法来证明性别偏见。总之,研究表明,了解文本中名词的有性别类别可以帮助理解,代词通常被认为是指主语而不是宾语。因此,在不太可能的情况下,句子得分可能会下降,阅读速度可能会降低,并且眼动实验中的回归等意外效应可能会发生。 社会对女性的偏见 鉴于性别成见和偏见在当今文化中的存在和普遍性,也许不应该奇怪语言模型的输出也会表现出偏见。从医学和经济学到教育和法律等各个领域都已经记录了性别偏见,但是这些发现的完整调查超出了本研究的范围。例如,研究发现各种学科和教育环境中存在偏见。即使是学前儿童也容易受到刻板印象的负面影响,这可能对自我认知、学业和职业选择以及其他发展领域产生持久影响。 设计 科学家们设计了一个类似于但与WinoBias不同的框架来研究性别偏见。每个研究项目都包括一对描述职业的名词,一个与男性刻板印象相关,另一个与女性刻板印象相关,以及一个男性化或女性化的代词。根据战术的不同,他们预期会有各种不同的反应。此外,根据与句子的词汇成分相关的假设和世界知识,该技术可能会从句子到句子不断变化。 由于研究人员认为WinoBias句子现在已成为多个LLMs的训练数据的一部分,他们在工作中避免使用这些句子。相反,他们按照上述模式构建了15个句子模式。此外,与WinoBias不同,他们不是根据美国劳工部的数据选择名词,而是根据衡量英语使用者对特定表示男性或女性倾向的职业名词看法的研究进行选择。 2023年,研究人员检查了四个对公众开放的LLMs。在模型有许多配置选项时,他们使用了工厂默认设置。他们提供了关于代词和职业选择之间关系的对比结果和解释。 研究人员没有考虑LLMs的行为,例如使用(和不使用)诸如单数they和新代词等性别中立代词,如何反映和影响跨性别个体的现实。鉴于这些二元范式的发现和以往研究的数据缺失,他们推测包含更多性别将对LLM的性能产生更加沉重的影响。在这里,他们承认接受这些假设可能会伤害那些不符合这些简单性别观念的边缘化群体,并且他们对未来研究专注于这些微妙关系并为其带来新的启示表示乐观。 总结 为了确定现有的大型语言模型是否存在性别偏见,研究人员设计了一个简单的场景。WinoBias是一个流行的性别偏见数据集,预计已包含在现有LLM的训练数据中,而这个范式扩展了但又有所区别于该数据集。研究人员检查了2023年第一季度发布的四个LLM。他们发现不同模型之间存在一致的结果,表明他们的发现可能适用于当前市场上的其他LLM。他们显示LLM对男性和女性存在性别偏见的假设,特别是那些符合人们对男性和女性职业的观念,而不是基于来自美国劳工局的数据揭示的情况的观念。其中一个关键发现是: (a) LLM在决定哪个代词最有可能指代哪个性别时使用了性别刻板印象;例如,LLM使用代词“他”指代男性,“她”指代女性。 (b) LLM倾向于放大关于女性的性别偏见观念,而不是男性。虽然LLM在特定提示下普遍观察到这一点,但在自由发挥时很少这样做。 (d) LLM对其决策给出似乎有权威性的理由,但这些理由往往是错误的,可能掩盖了其预测背后的真正动机。 这些模型的另一个重要特征因此被揭示出来:由于LLM是在有偏见的数据上进行训练的,即使在使用人类反馈进行强化学习时,它们也倾向于反映和加剧这些偏见。研究人员坚持认为,就像其他形式的社会偏见一样, marginalized people and…

Leave a Comment

“大型语言模型真的擅长生成复杂结构化数据吗?这篇人工智能论文介绍了Struc-Bench:评估LLM能力并引入了一个结构感知的微调解决方案”

大型语言模型(LLMs)在文本生成任务以及其他自然语言处理任务中取得了重大进展。生成能力的一个基本组成部分是生成结构化数据的能力,在先前的研究中引起了广泛关注。然而,LLMs在生成复杂的结构化输出方面仍然表现不佳,这是各种应用的关键技能,从自动报告撰写到编码帮助。此外,对LLMs生成结构化输出的能力进行的研究相对较少;大多数对LLMs的评估都集中在自发文本或代码开发上。这引发了一个问题,即LLMs能否很好地生成复杂的结构化数据。 耶鲁大学、浙江大学、纽约大学和苏黎世联邦理工学院的研究人员旨在对这些开放问题进行彻底分析并加以解决。首先,需要对LLMs生成复杂结构化数据的能力进行更全面的研究。以往评估LLMs在结构化数据上的尝试主要集中在简单的信息提取(IE)任务上,例如提取关系、识别事件和识别命名实体。在这种情况下,IE任务的目标是以井然有序的方式收集提取的数据。相比于以LLM为中心的工作,早期的工作更加任务为中心。使用像BART和T5这样的预训练模型,这些模型可以从文本中生成结构化数据,主要关注的是文本到数据的问题。其次,需要全面评估LLMs的性能或指标。 现有的基准经常使用简单的客观度量标准(如词重叠)来衡量机器生成的内容分类信息的质量。但是,可能需要更多的内容来确定LLMs是否能够提供结构化输出,因为适当的评估标准还应考虑所生成信息的格式。第三,当前的LLMs是否能更准确地遵循人类自然语言输入并提供具有准确格式和无错误内容的输出?本研究试图填补文献中的这些空白,并改进LLMs生成结构化输出的训练数据集和评估标准。 以下是他们的贡献列表:(1)他们创建了一个名为STRUCBENCH的基准,专注于生成原始文本、HTML和LaTeX形式的结构化文本。他们还仔细评估了知名LLMs的能力,发现了内容正确性、格式化、数值推理和管理冗长表格方面的重大问题。(2)他们对知名LLMs在结构化文本生成基准上进行了实证评估,包括重要数据集,并扩展到不同领域,使人们更深入地了解常见错误类型和缺陷的规模。他们的研究结果表明,GPT-3.5和GPT-4在生成准确的输出方面需要帮助,问题主要出在错误的内容、格式不佳、数值推理能力不足以及无法处理冗长表格等方面。(3)他们使用结构感知指令调整来解决这些问题,通过使用ChatGPT创建格式指令,训练LLaMA模型遵循这些格式。对可见和隐藏数据的积极结果表明,这可能显著提高LLMs提供结构化输出的能力。

Leave a Comment

来自俄勒冈大学和Adobe的研究人员推出了CulturaX:一个面向大型语言模型(LLM)开发的多语言数据集,其中包含167种语言的6.3万亿个标记

通过显著提高广泛任务的最新性能和揭示新的新兴技能,大型语言模型(LLM)对NLP研究和应用产生了深远影响。为了将输入文本编码为表示向量,已经进行了仅编码器模型的研究;为了创建文本,已经研究了仅解码器模型;为了完成序列到序列的生成,已经研究了编码器-解码器模型。模型大小和训练数据集的指数级增长,这两者都是最大性能的扩展率所需的,是LLM卓越能力背后的主要推动力。例如,尽管BERT模型只包含几亿个参数,但更现代的基于GPT的模型现在包含数千亿个参数。 庞大的模型大小和庞大的训练数据集是提升大型语言模型(LLM)具有惊人学习能力的主要要素。随着NLP的发展,LLM已逐渐向公众开放,以鼓励进一步的研究和实际应用。然而,这些LLM的训练数据集通常只提供部分,特别是对于最新的最先进模型。需要进行大量数据清理和去重,以创建高质量的LLM训练数据。因此,对训练数据更加开放的需求,阻碍了复制发现和推进LLM中的幻觉和偏见研究领域的努力。在多语言学习场景中,这些困难在通常不充分收集和清理多语言文本集合的情况下更加复杂。因此,目前没有一个可以用于跨语言训练LLM的良好开源数据集。CulturaX是由俄勒冈大学和Adobe Research的学术界合作开发的,包括167种语言的63万亿个标记的大型多语言数据集,旨在解决这个问题。为了确保模型训练的最高质量,数据集经过严格的处理流程,包括多个清理和去重的步骤。这些过程包括识别数据集中的语言、使用URL过滤数据集、使用度量标准清理数据集、优化文档和去重数据。 CulturaX经过全面的文档级清理和去重,以确保跨语言训练LLM的最高质量。数据清理过程使用完整的流水线来消除不准确的信息。这需要消除不准确的语言识别、有毒数据和非语言材料等干扰因素。 主要特点 CulturaX是迄今为止最大的经过全面清理和去重的开源多语言数据集,可用于LLM和NLP应用。 CulturaX提供了一个多语言、开源和庞大的数据集,具有立即可用和高质量的数据,可用于训练LLM,解决当前数据集的许多问题。 虽然存在包含各种语言文本数据的多语言开源数据集,如mC4,但它们的质量和规模不符合高效训练LLM的要求,特别是生成模型如GPT。例如,如介绍中所提到的,mC4和OSCAR都没有提供文档级模糊去重。mC4的语言识别使用cld3的结果较差,这是另一个缺点。虽然CC100确实包含2018年以后的数据,但BigScience ROOTS只为46种语言提供了部分数据的样本。 HuggingFace的CulturaX的完整公开发布将有助于进一步研究多语言LLM及其应用。在这里查看https://huggingface.co/datasets/uonlp/CulturaX  您应该了解一下CulturaX,这是一个包含167种语言的新的多语言数据集。经过全面的工作流程清理和去重后,数据集中含有63万亿个标记。作为一个庞大而高质量的数据集,CulturaX可以轻松用于训练各种语言的有效LLM。这些信息对公众免费提供,并且研究人员希望它可以激发进一步的语言习得研究和实际应用。

Leave a Comment

微软研究人员介绍了Kosmos-2.5:一种用于机器阅读文本密集型图像的多模式文学模型

近年来,大型语言模型(LLMs)在人工智能领域获得了重要地位,但它们主要关注文本,并且在理解视觉内容方面存在困难。多模态大型语言模型(MLLMs)应运而生,用于弥合这一差距。MLLMs将视觉和文本信息结合在一个基于Transformer的模型中,使其能够从两种模态中学习和生成内容,标志着人工智能能力的重大进展。 KOSMOS-2.5是一个多模态模型,旨在在统一框架内处理两个密切相关的转录任务。第一个任务涉及生成具有空间感知的文本块,并在文本丰富的图像中为文本行分配空间坐标。第二个任务侧重于以markdown格式生成结构化文本输出,捕捉各种样式和结构。 这两个任务在单个系统下管理,利用共享的Transformer架构、任务特定的提示和可适应的文本表示。该模型的架构结合了基于ViT(Vision Transformer)的视觉编码器和基于Transformer架构的语言解码器,通过一个重采样模块连接起来。 为了训练这个模型,它在大量的文本密集图像数据集上进行了预训练,其中包括带有边界框和纯markdown文本的文本行。这种双任务训练方法增强了KOSMOS-2.5的整体多模态识字能力。 以上图片显示了KOSMOS-2.5的模型架构。KOSMOS-2.5的性能在两个主要任务中进行了评估:端到端的文档级文本识别和以markdown格式从图像生成文本。实验结果展示了它在理解文本密集图像任务方面的强大性能。此外,KOSMOS-2.5在涉及少样本和零样本学习的场景中展示了有前途的能力,使其成为处理文本丰富图像的现实应用的多功能工具。 尽管取得了这些有希望的结果,但当前模型仍面临一些限制,并提供了宝贵的未来研究方向。例如,尽管KOSMOS-2.5在输入和输出涉及文本的空间坐标的情况下进行了预训练,但目前不支持使用自然语言指令对文档元素的位置进行细粒度控制。在更广泛的研究领域中,进一步发展模型扩展能力是一个重要方向。

Leave a Comment

遇见BlindChat:一个开源的人工智能项目,旨在开发完全基于浏览器和私密的对话式AI

BlindChat是由MithrilSecurity推出的开源和注重隐私的ChatGPT替代方案。BlindChat是一个开源的人工智能项目,旨在在Web浏览器中完全运行,不需要任何第三方访问。当前普遍的每日人工智能解决方案通常包括与AI服务提供商共享用户数据以换取AI模型使用。如果用户允许此类情况发生,他们的数据可能会被窃取。由于数据是提高LLM效果的宝贵资源,因此一些方法会隐含地调整用户的数据以更好地训练模型。用户以这种方式运行着有私人信息的LLMs的风险。 通过执行本地推理或使用称为安全隔离环境的安全、隔离环境,BlindChat确保用户的数据始终保持私密,并且用户完全控制数据。 BlindChat主要面向两个受众: 消费者:提供更安全的选择,优先考虑用户隐私。如今,大多数消费者将数据交给AI服务,但隐私设置通常需要明确或不存在。 BlindChat团队为了开发人员的好处,已经做了大量工作,确保平台在配置和部署方面的简单性,以便他们能够更轻松地提供以隐私为设计的对话式人工智能。 MithrilSecurity对程序进行了更改,以使浏览器执行通常由服务器执行的功能。因此,AI服务提供商不包含在信任模型中,因此隐私得到保护。 通过将功能从服务器移至用户端的浏览器,实现了透明且安全的人工智能,保护了终端用户的个人信息,并赋予他们对数据的控制权。例如,变形器允许在本地执行推理。JavaScript还可以将聊天保存在用户的浏览器历史记录中,提供了额外的便利。结果是,AI服务的管理员无法看到用户的任何信息,因此服务被称为“BlindChat”。 在激活遥远的隔离模式时,数据仅传输到服务器。此设置将服务器部署在被称为隔离区的经过验证和安全的容器中,提供了完整的周界防御,并阻止外界访问。即使是隔离区的AI提供商管理员也无法访问用户信息。 MithrilSecurity为用户提供了两种不同的隐私选项: 在设备上设置中,模型会在用户的浏览器上本地下载,并且推理是在本地处理的。 由于可用带宽和处理能力的限制,此模式最适用于较简单的模型。 使用零信任AI API时,信息会传输到一个被称为隔离区的安全位置,模型在其中存储,以便可以进行远程推理。通过强大的隔离和验证,这些设置提供了全面的安全性。任何AI服务提供商都无法以未加密的方式访问其用户的数据。 该项目由三个主要部分组成: 用户界面:用户与Chat进行交互时看到的界面。其中有一个聊天窗口,并且最终将提供用于加载文档和语音控制等功能的小部件和插件。 开发人员完全控制用于处理用户请求的私有LLM。当前的解决方案是本地模型或远程隔离区,以提供透明和机密的推理。 开发人员可配置用于保存聊天记录等数据的存储类型,将来还可配置RAG嵌入。 MithrilSecurity目前仅允许进行LaMini-Flan-T5推理。一旦370M发布,他们打算集成Microsoft phi-1.5以提高性能。客户端上也正在开发LlamaIndex-TS集成,以便在浏览器中本地查询敏感文档时可以使用RAG。

Leave a Comment

机器学习模型在有限的训练数据下能产生可靠的结果吗?这项来自剑桥大学和康奈尔大学的新的人工智能研究找到了答案…

深度学习已经发展成为人工智能中一种强大且开创性的技术,其应用范围从语音识别到自主系统,再到计算机视觉和自然语言处理。然而,深度学习模型需要大量的训练数据。为了训练模型,人们经常需要对大量数据进行标注,比如一系列的照片。这个过程非常耗时且劳动密集。 因此,人们一直在研究如何在少量数据上训练模型,从而使模型训练变得容易。研究人员试图找出如何创建可信赖的机器学习模型,这些模型可以在实际情况下理解复杂方程,并利用远少于通常预期的训练数据。 因此,康奈尔大学和剑桥大学的研究人员发现,即使给出很少的数据,机器学习模型对偏微分方程可以产生准确的结果。偏微分方程是一类描述自然界中事物在空间和时间上演化的物理方程。 根据英国剑桥大学的Nicolas Boullé博士所说,使用人类来训练机器学习模型效率很高,但耗时又昂贵。他们很好奇想知道训练这些算法所需的数据量有多少,同时能够产生准确的结果。 研究人员利用随机数值线性代数和偏微分方程理论创建了一个算法,该算法可以从输入输出数据中恢复出三维均匀椭圆型偏微分方程的解算子,并以极高的成功概率实现误差相对于训练数据集大小的指数收敛。 作为英国剑桥大学的INI-Simons基金会博士后研究员,Boullé表示,偏微分方程就像物理学的基本要素:它们可以帮助解释自然界的物理规律,比如如何在一个融化的冰块中维持稳态。研究人员认为这些人工智能模型是基础的,但它们可能仍然有助于理解为什么人工智能在物理学中如此有效。 研究人员使用了一个包含各种随机输入数据量和计算机生成的匹配答案的训练数据集。然后,他们在一批新的输入数据上测试了人工智能的预测解的准确性。 根据Boullé的说法,这取决于领域,但在物理学中,他们发现你可以用很少的数据取得很大的成果。令人惊讶的是,产生一个可靠的模型所需的信息量非常少。他们说,这些方程的数学特性使我们能够利用它们的结构并改进模型。 研究人员表示,确保模型学习到适当的内容非常重要,但机器学习在物理学中是一个有吸引力的课题。根据Boullé的说法,人工智能可以帮助解决许多有趣的数学和物理难题。

Leave a Comment

认识MAmmoTH:一系列专门针对一般数学问题解决而设计的开源大型语言模型(LLM)

现代大型语言模型(LLM)在很大程度上依赖于数学推理,这是本文的主要焦点。尽管在这个领域取得了一些进展,但封闭源模型(如GPT-4、PaLM-2和Claude 2)在GSM8K和MATH等流行的数学推理基准中占据主导地位,而开源模型(如Llama、Falcon和OPT)则远远落后。 解决这个差距的两种主要方法是: 持续的预训练,例如Galactica和MINERVA,现在它正在使用链接到数学的超过1000亿个网页数据上训练LLM。虽然计算代价高昂,但这种方法可以提高模型在科学推理方面的能力。 使用每个数据集独特的训练数据,使用拒绝采样微调(RFT)和WizardMath等微调方法来完善LLM。虽然这些方法在其领域内是有效的,但在需要推理的其他数学领域中无法转移。 滑铁卢大学、俄亥俄州立大学、香港科技大学、爱丁堡大学和IN.AI最近的研究探索了一种轻量级但具有普适性的数学指令调整技术,以提高LLM在数学推理能力上的表现(即不仅仅是微调任务)。 目前的方法在很大程度上依赖于思维链(CoT)方法,描述了它们如何以自然语言步骤解决数学问题。但是,当涉及到计算精度和复杂的数学或算法推理方法时,这种方法表现不佳。基于代码的技术,如PoT和PAL,使用第三方资源来简化数学求解过程。 该方法建议将计算密集型任务(例如使用sympy解二次方程或使用numpy计算矩阵特征值)委托给一个独立的Python解释器。另一方面,PoT在处理更抽象的推理场景(如常识推理、形式逻辑和抽象代数)时具有一些局限性,特别是在缺乏现有API的情况下。 为了充分利用CoT和PoT的优势,该团队提出了一个名为MathInstruct的数学混合指令调整数据集。它的主要特点包括: 全面覆盖各种数学领域和复杂程度 混合CoT和PoT的解释。 六个全新选择的和七个现有的数据集为MathInstruct的数学解释提供了基础。从建模的角度来看,研究人员训练和评估了约50个独特模型,基线范围从7B到70B,以了解各种输入输出格式和数据源的影响。 结果表明,这些模型在数学通用性方面表现出色。 研究人员在各种数据集上对MAmmoTH进行了广泛测试,从领域内(IND)到领域外(OOD),例如GSM8K、MATH、AQuA-RAT和NumGLUE。这些模型显著提高了开源LLM在数学推理上的效率,并且在OOD数据集上比最先进的方法具有更好的泛化能力。在流行的竞赛级别MATH数据集上,7B模型的结果超过了WizardMath(开源MATH SoTA)的3.5倍(35.2%对10.7%),而34B MAmmoTH-Coder(在Code Llama上进行了微调)的结果超过了GPT-4(使用CoT)。这些模型中的MAmmoTH和MAmmoTH-Coder都显著提高了以前可用的开源模型的准确性。

Leave a Comment

UCI和浙江大学的研究人员通过使用草稿和验证阶段的自我推测解码引入了无损大型语言模型加速技术

基于Transformer的大型语言模型(LLMs),如GPT、PaLM和LLaMA,已广泛用于各种实际应用中。这些模型已应用于各种任务,包括文本生成、翻译和自然语言解释。然而,这些模型的高推理成本,特别是在对低延迟要求很高的情况下,是一个主要关注点。这些模型使用的自回归解码方法是高推理成本的主要原因。由于自回归解码过程中每个输出令牌是顺序生成的,因此存在大量的Transformer调用。每个Transformer调用的内存带宽受限,导致计算效率低下和执行时间长。 为了加速大型语言模型(LLMs)的推理过程,最近的一项研究引入了一种称为自我推测解码的独特方法,该方法不需要辅助模型。这种方法解决了快速生成推理结果并保持输出质量的问题。它的特点是一个由起草和验证组成的两阶段过程。 起草阶段 – 起草阶段的目标是更快地生成起草令牌,即使它们的质量略低于使用传统自回归方法生成的令牌。为了实现这一目标,该方法在起草过程中绕过了一些中间层。LLMs中的这些中间层通常会改进输出,但它们在推理过程中也会占用大量时间和资源。 验证阶段 – 该技术在起草阶段生成起草输出令牌,然后使用原始未经修改的LLM在单个前向传递中验证它们。使用传统的自回归解码技术,LLM会产生相同的最终结果,这由验证步骤确保。因此,即使起草阶段更快地生成了令牌,最终产品的质量也得到了保证。 自我推测解码不需要进一步的神经网络训练,这是它的主要优点之一。为了实现更快的推理,现有方法常常需要训练辅助模型或对LLM的架构进行重大改变,这可能具有挑战性且资源密集。而自我推测解码是一种“即插即用”的方法,可以在现有LLMs上添加而无需额外的训练或模型修改。 研究为自我推测解码的有效性提供了实证支持。基于LLaMA-2及其改进模型的基准结果显示,自我推测解码方法比传统的自回归方法可以更快地解码数据高达1.73倍。这具有重要的优势,使推理过程大约快两倍,同时保持输出质量,在延迟是一个问题的情况下非常重要。 总之,自我推测解码是一种革命性的方法,改善了大型语言模型推理信息的方式。它通过建立起草和验证的两步过程,选择在起草阶段跳过哪些层以更快地生成令牌,并在验证阶段验证输出质量来实现这一目标。该方法加速了LLM的推理过程,而不会增加任何额外的内存负担或神经网络的训练要求。

Leave a Comment

将LLaMa放入您的口袋的诀窍:结识OmniQuant,一种将LLM的效率和性能完美结合的人工智能方法

大型语言模型(LLMs),如臭名昭著的ChatGPT,在各种自然语言处理任务中取得了令人印象深刻的表现,如机器翻译、文本摘要和问答。它们改变了我们与计算机的交流方式和任务处理方式。 LLMs已经成为具有变革性的实体,推动了自然语言理解和生成的界限。其中,ChatGPT是一个显著的例子,代表了一类设计用于在对话环境中与用户进行交互的LLM。这些模型是在极大的文本数据集上进行了广泛训练的结果。这使它们具备了理解和生成类似人类文本的能力。 然而,这些模型在计算和内存方面非常消耗资源,限制了它们的实际应用。顾名思义,这些模型是庞大的;当我们说庞大时,我们是指真的很大。最近的开源LLM,来自Meta的LLaMa2,包含大约700亿个参数。 减少这些要求是使它们更实用的重要一步。量化是减少LLMs计算和内存开销的一种有希望的技术。有两种主要的量化方式——训练后量化(PTQ)和量化感知训练(QAT)。虽然QAT在准确性方面具有竞争力,但在计算和时间方面代价太高。因此,对于许多量化工作来说,PTQ已经成为首选方法。 现有的PTQ技术,如仅权重和权重-激活量化,已经在内存消耗和计算开销方面取得了显著的降低。然而,它们在低位量化方面往往存在困难,而这对于高效部署至关重要。低位量化中的性能下降主要是由于依赖手工量化参数,导致结果不够优化。 让我们见识一下OmniQuant。它是一种用于LLMs的新型量化技术,在各种量化场景中实现了最先进的性能,特别是在低位设置中,同时保留了PTQ的时间和数据效率。 OmniQuant在LLaMa系列上的特性。来源:https://arxiv.org/pdf/2308.13137.pdf OmniQuant采用了一种独特的方法,冻结原始的全精度权重,并结合一组有限的可学习量化参数。与繁琐的权重优化相比,OmniQuant侧重于逐层量化过程中的每个单独层。这使得可以使用简单的算法进行高效的优化。 OmniQuant由两个关键组件组成——可学习权重剪裁(LWC)和可学习等效变换(LET)。LWC优化剪裁阈值,调节极端权重值,而LET通过学习变换来处理激活的离群值。这些组件使得全精度的权重和激活更适合量化。 OmniQuant的灵活性体现在其适用于仅权重和权重-激活量化的多样性。最好的部分是,OmniQuant对于量化模型没有额外的计算负担或参数,因为量化参数可以融合到量化权重中。 OmniQuant概览。来源:https://arxiv.org/pdf/2308.13137.pdf 与LLM中的所有参数进行联合优化不同,OmniQuant在移动到下一层之前依次量化一层的参数。这使得OmniQuant能够使用简单的随机梯度下降(SGD)算法高效地进行优化。 它是一个实用的模型,因为即使在单个GPU上也很容易实现。您可以在16小时内训练自己的LLM,这使得它们在各种实际应用中非常易于使用。此外,OmniQuant在性能上优于先前的基于PTQ的方法。 然而,尽管它是一种相对较新的方法,但它的性能还是有一些限制的。例如,它有时可能会产生比全精度模型稍差的结果。然而,这只是OmniQuant的一个小不便,因为它仍然是一种用于高效部署LLM的有前途的技术。

Leave a Comment

这篇AI研究介绍了Owl:一种新的用于IT运营的大型语言模型

在自然语言处理(NLP)和人工智能(AI)不断发展的领域中,大型语言模型(LLMs)已经成为强大的工具,在各种NLP任务中展示出了卓越的能力。然而,当前模型中存在一个重要的差距,即缺乏专门为IT运营设计的大型语言模型(LLMs)。由于IT运营领域具有独特的术语、程序和语境复杂性,这个差距带来了挑战。因此,迫切需要创建专门的LLMs,以有效地应对IT运营中的复杂性。 在IT领域内,NLP和LLM技术的重要性日益增长。与信息安全、系统架构和其他IT运营相关的任务需要领域特定的知识和术语。传统的NLP模型往往难以解读IT运营的复杂细微差别,从而需要专门的语言模型。 为了解决这一挑战,一个研究团队推出了一个名为“Owl”的大型语言模型,专门针对IT运营进行了定制。这个专门的LLM是在一个被称为“Owl-Instruct”的精心策划的数据集上进行训练的,该数据集涵盖了广泛的IT相关领域,包括信息安全、系统架构等等。目标是为Owl提供在IT相关任务中取得优异表现所需的领域特定知识。 研究人员采用自我教导策略,在Owl-Instruct数据集上训练了Owl。这种方法可以使模型生成多样的指令,涵盖单轮和多轮场景。为了评估模型的性能,团队引入了“Owl-Bench”基准数据集,其中包括九个不同的IT运营领域。 他们提出了一种“适配器混合”策略,允许针对不同输入的任务特定和领域特定表示,通过促进有监督微调来进一步提高模型的性能。TopK(·)是用来计算所有LoRA适配器的选择概率并选择服从概率分布的前k个LoRA专家的选择函数。适配器混合策略是通过激活前k个专家来学习不同输入句子的语言敏感表示。 尽管Owl缺乏训练数据,但在RandIndex指标和最佳F1得分(0.894)上取得了可比较的性能(0.886)。在RandIndex比较中,与在域内日志上进行了广泛训练的LogStamp相比,Owl仅表现出微小的性能下降。在细粒度F1比较领域中,Owl明显优于其他基线,能够准确识别以前未见的日志中的变量。值得一提的是,logPrompt的基础模型是ChatGPT。与在相同基本设置下的ChatGPT相比,Owl在这个任务中表现出更优异的性能,突显了我们的大型模型在运营和维护方面的强大泛化能力。 总之,Owl代表了IT运营领域的一项突破性进展。它是一个精心训练并在IT相关基准上进行严格评估的专门的大型语言模型。这个专门的LLM革新了IT运营的管理和理解方式。研究人员的工作不仅解决了领域特定LLMs的需求,还为高效的IT数据管理和分析开辟了新的途径,最终推动了IT运营管理领域的发展。

Leave a Comment

宾夕法尼亚大学的研究人员介绍了Kani:一种轻量级、灵活且与模型无关的开源AI框架,用于构建语言模型应用程序

大型语言模型应用程序受到了广泛关注。凭借其惊人的能力,它们变得越来越复杂。通过结合工具使用跟踪和检索增强等功能,这些模型在人工智能社区中引起了很多关注。现有的构建此类应用程序的框架采用了一种自以为是的方法,指导开发人员如何格式化其提示,并对自定义和可重复性施加了一定的限制。 为了解决这些问题,宾夕法尼亚大学的研究团队最近推出了Kani,一种轻量级、可扩展且与模型无关的开源框架,专门用于构建语言模型应用程序。通过支持聊天交互的核心元素,Kani旨在使开发人员能够添加各种复杂的功能。模型交互、聊天管理和强大的函数调用是其中一些关键要素。 开发人员可以利用Kani的构建模块创建语言模型应用程序,而不受预定义结构或限制的限制,因为Kani以其适应性和可定制性而脱颖而出。所有Kani的基本功能都被设计为易于修改,并且研究团队还提供了广泛的文档。这使得开发人员可以根据自己的独特需求和要求修改框架的功能。 Kani是一种对学者、业余爱好者和商业人士都有用的工具。为了提高他们工作的可重复性,Kani帮助研究人员创建语言模型应用程序,同时提供了精细的控制。即使使用GPT-4或其他复杂模型,用户也可以使用Kani仅几行代码快速开始设计应用程序。Kani的灵活性和耐用性对于行业工作者尤其有利,特别是在聊天管理和函数管理等领域。 Kani需要Python 3.10+,简化了语言模型的安装和查询。通过pip安装,它提供了核心依赖项和可选的附加功能,如OpenAI引擎。Kani框架中的基本处理单元称为“Kani”。在使用Kani构建应用程序时,用户将使用和操作各种Kani对象,包括三个基本组件:推理引擎、聊天历史和函数上下文。 通过推理引擎,Kani对象与语言模型进行通信。在不更改应用程序代码的情况下,这种交互使开发人员能够轻松地在不同模型之间切换。Kani跟踪令牌总数和主题切换。它确保对话的上下文保持在模型的范围内,避免过度。最后,语言模型可以通过Kani访问可调用的函数。它验证函数调用,运行适当的代码,然后将结果发送回推理引擎。 总之,Kani被提出作为语言模型应用程序开发者所面临问题的解决方案。它允许定制、灵活性和使用开源方法创建令人难以置信的应用程序,使开发人员能够构建功能丰富的应用程序,并通过提供聊天交互的基本构建模块来保持控制和互操作性。

Leave a Comment

语言模型能够改变放射学吗?认识一下放射学Llama2:一个通过指令调整过程专门为放射学定制的大型语言模型

基于Transformer构建的大型语言模型(LLM),包括ChatGPT和GPT-4,展示了惊人的自然语言处理能力。Transformer-based NLP模型的创建引发了在计算机视觉和其他模态中设计和使用基于Transformer的模型的进展。自2022年11月以来,受到ChatGPT多样化特性和广泛赞誉的启发,LLM已经在临床研究、药学、放射学、阿尔茨海默病、农业和脑科学研究中得到应用,然而,它们在专业领域如医疗保健中的应用尚未广泛采用。首先,由于隐私法律的限制,医院无法将数据交换或上传到商业模型如ChatGPT或GPT-4,因此,本地化的大型语言模型对于现实世界的医疗保健至关重要。 需要在临床上有意义的领域数据上得到充分训练的模型,因为在特定领域如放射学这样的领域中,经过ChatGPT、GPT-4和PaLM 2等广域领域训练的LLM需要更多的医学专业知识。此外,虽然像ChatGPT这样的模型的Radiology-Llama2能够准确模仿放射学家的语言模式,但它们提供的回复更像维基百科,而不是实际放射学家使用的清晰简明的语言,这加快了信息传递的速度。最后,他们的研究为根据每位医生的偏好定制放射学助手铺平了道路。 通过指令调整来为放射学提供放射学印象的Radiology-Llama2 LLM填补了文献中的这一空白。研究表明,它在生成的印象的连贯性、简洁性和临床实用性方面优于标准LLM。 • 最先进的性能:在MIMIC-CXR和OpenI数据集上,超过所有其他语言模型以生成临床印象,创立了新的标准。 • 灵活性和动态性:与基于BERT的竞争对手不同,放射学-Llama2不受特定输入结构的限制,可以适应更广泛的输入和各种放射学任务,包括复杂的推理。 • 具有对话能力的临床可用性:生成式LLM具有内置的对话能力,可以回应查询并提供类似人类的上下文信息。这提高了诊断和报告的能力,使Radiology-Llama2对医学从业者在临床背景下非常有帮助。 图1显示了Radiology-Llama2的整体结构 当适当构建时,本地化的LLM可以革命性地改变放射学,就像Radiology-Llama2所展示的那样。 如果受到适当的监管,它对于临床决策辅助和其他用途具有很大的潜力。这项研究的结果为其他医学专业领域中的专门LLM打开了大门。总之,Radiology-Llama2是在医学中使用LLM的重要进展。这样的专门LLM可以通过对模型构建和评估的持续研究促进医疗人工智能的进步。

Leave a Comment

这项人工智能研究介绍了AstroLLaMA:一种从LLaMA-2微调的70亿参数模型,使用了来自ArXiv的30万多个天文学摘要

大型语言模型(LLM)的出现引起了许多领域的关注,因为几个重要因素同时出现。这些因素包括可获得的大量数据、计算机性能的提升以及神经网络设计的突破。像GPT-4、PaLM和LLaMA这样的著名模型表明,它们能够非常好地完成许多不同的任务。这些任务通常使用的方法包括给它们提示、微调它们的能力以及从人类那里获得反馈来帮助它们学习和改进。天文学学科既是一个独特的挑战,也是LLMs应用的肥沃土壤。 在上面的图片中,我们可以注意到每个模型都以相同的短文本片段为提示,在各自的框中进行了突出显示。GPT-4往往产生更加通用的陈述,缺乏领域特定的细微差别。AstroLLaMA展示了最强大的完成能力,提供了更相关的概念和更深入的洞察,特别适用于天文学领域,因此在性能上显著优于LLaMA-2和GPT-4。 然而,AstroLLaMA确实存在一些需要认识到的局限性。一个重要的局限性是模型在天文学特定领域的知识缺乏,AstroLLaMA从Gaia-ESO数据中估计潜在星体候选者的能力明显不准确。为了解决这些问题,研究人员目前正在努力增强AstroLLaMA的训练数据集。研究人员计划不仅使用摘要,还将纳入现有天文学文章的完整LaTeX源代码。这样的扩展将大大增加模型能够学习的令牌数量。 AstroLLaMA是专门为天文学设计的令人印象深刻的大型语言模型(LLM)的原型。它展示了非凡的上下文感知能力,即使它的参数大大少于GPT-4,也能胜过GPT-4。这一进展不仅为回答问题、总结科学内容和生成假设等各种任务的性能提供了机会,而且对于多模型模型也具有重要意义。

Leave a Comment

稳定AI引入稳定音频:一种新的人工智能模型,可以根据文本提示生成音频片段

Stability AI推出了一项突破性技术——稳定音频(Stable Audio),这标志着音频生成迈出了重要的一步。这项创新解决了从简单文本提示中创建自定义音频片段的挑战。虽然Stability AI以其文本到图像生成技术——稳定扩散(Stable Diffusion)而闻名,但现在它已经将自己的专业知识扩展到了音乐和音频领域。这一发展是在他们成功进军图像合成领域——通过引入Stable Diffusion的SDXL基础模型之后。 到目前为止,通过“符号生成”技术生成基本音频轨道是可能的,通常涉及MIDI文件。然而,稳定音频通过使用户能够创作全新的音乐作品而超越了这一点,摆脱了通常与MIDI和符号生成相关的重复音符的限制。这一成就归功于该模型与原始音频样本的直接交互,从而产生出更优质的输出。该模型的训练涵盖了来自AudioSparks库的80万多首经过许可的音乐作品,这为其出色的性能做出了贡献。这个丰富的数据集确保了高质量的音频,并提供了全面的元数据,这是基于文本的模型的一个关键因素。 与可以模仿特定艺术家风格的图像生成模型不同,稳定音频并不试图模仿像披头士乐队这样的标志性乐队。这个有意的选择源于对音乐家追求在没有严格风格限制的情况下踏上自己的创作之旅的理解。相反,稳定音频赋予用户探索他们独特音乐表达的能力。 稳定音频模型是一个拥有大约12亿参数的扩散模型,与图像生成的原始稳定扩散模型相媲美。为了生成音频,文本提示是稳定AI使用对比语言音频预训练(CLAP)技术精心制作和训练的。为了帮助用户制作有效的提示,Stability AI将与稳定音频发布同时发布一个提示指南。 稳定音频将通过免费版本和每月12美元的专业计划提供。免费版本每月可生成最多20个音频片段,每个片段长达20秒。相比之下,专业版本提高了这些限制,使用户可以生成500个片段,并将音轨时长延长到90秒。 总之,Stability AI发布的稳定音频标志着音频生成技术的新时代。该公司通过利用先进的AI技术,为将文本提示转化为原创音频片段提供了一个无缝的平台。这一创新拓展了创作表达的视野,并展示了AI驱动的音乐和音频制作解决方案的潜力。稳定音频以其可接受的价格层次,将成为有抱负和专业音频创作者的宝贵工具。

Leave a Comment

谷歌AI研究员推出MADLAD-400:一个覆盖419种语言的2.8T令牌网络域数据集

在不断发展的自然语言处理(NLP)领域中,机器翻译和语言模型的发展主要受到英语等语种的大量训练数据集的影响。然而,研究人员和实践者面临的一个重要挑战是需要更多多样化且高质量的训练数据,以应对不常用语言的需求。这一限制制约了全球各种语言社群NLP技术的进步。为了解决这个问题,一支专门的研究团队着手创建解决方案,最终诞生了MADLAD-400。 要理解MADLAD-400的重要性,我们必须首先审视多语言NLP数据集的当前情况。长期以来,研究人员一直依赖于从许多来源获取的网络抓取数据来训练机器翻译和语言模型。虽然这种方法对于拥有丰富在线内容的语言取得了显著成果,但在处理不常用语言时效果不佳。 MADLAD-400的研究团队认识到了这种传统方法的局限性。他们了解到网络抓取数据往往伴随着一系列挑战。噪音、不准确性和质量不一的内容只是在依赖网络数据时出现的一些问题。此外,当处理数字存在性有限的语言时,这些问题会更加严重。 针对这些挑战,研究团队着手创建一个跨多种语言范围且符合最高质量和道德内容标准的多语言数据集。他们的努力成果就是MADLAD-400,这个数据集承诺重新定义我们为多语言应用训练和开发NLP模型的方式。 MADLAD-400展示了研究团队的专注和细致精神。这个数据集的与众不同之处在于它经历了严格的审计过程。与许多多语言数据集不同,MADLAD-400并不仅仅依赖于自动化的网络抓取。相反,它涉及对419种语言的广泛手动内容审计。 审计过程可谓艰巨。它需要熟练掌握各种语言的人才,因为研究团队需要仔细检查和评估跨语言边界的数据质量。这种亲自动手的方法确保了数据集符合最高质量标准。 研究人员还详细记录了他们的审计过程。这种透明度对于数据集使用者来说是无价的,它提供了关于确保数据质量所采取的步骤的见解。这份文档不仅是指南,也是科学研究中可重复性的基础原则。 除了手动审计外,研究团队还开发了过滤器和检查机制,以进一步提高数据质量。他们识别和解决了版权材料、仇恨言论和个人信息等问题。这种主动的数据清理方法最大程度地减少了不良内容进入数据集的风险,确保研究人员能够自信地工作。 此外,MADLAD-400还体现了研究团队对包容性的承诺。它涵盖了多种语言,为经常在NLP研究中被忽视的语言社群发声。MADLAD-400打开了开发更具包容性和公平性的NLP技术的大门,包括了主流语言之外的语言。 虽然MADLAD-400的创建和策划本身就是令人印象深刻的成就,但这个数据集的真正价值在于它的实际应用。研究团队进行了大量实验,展示了MADLAD-400在训练大规模机器翻译模型方面的有效性。 结果明显。MADLAD-400显著提高了广泛语言范围内的翻译质量,展示了其推动机器翻译领域发展的潜力。该数据集为跨越语言障碍、促进语言交流提供了坚实的基础。 总的来说,MADLAD-400是多语言自然语言处理领域的一个重要成就。通过精心策划和包容性承诺,这个数据集解决了紧迫的挑战,赋予了研究人员和实践者接纳语言多样性的能力。它在追求更具包容性的多语言NLP的征程中扮演着进步的指引,为语言技术服务于全球受众带来了希望。

Leave a Comment

阿里巴巴集团的这篇论文介绍了FederatedScope-LLM:一种用于联邦学习中微调LLM模型的全面套件

如今,像Hugging Face这样的平台使得从AI研究人员到机器学习经验有限的用户都能够更轻松地访问和利用预训练的大型语言模型(LLM)来为不同实体服务。当多个这样的组织或实体在共享类似的任务时,由于隐私法规的限制而无法直接交换本地数据时,联邦学习(FL)成为利用这些实体的集体数据的显著解决方案。FL还提供了强大的隐私保护,保护其模型思想的安全,并允许他们使用不同的方法创建定制模型。 在这项工作中,研究人员建立了一个全面的端到端基准测试流水线,简化了数据集预处理、执行或模拟联邦微调以及在联邦大型语言模型(LLM)微调环境中评估性能的过程,旨在为各种能力演示目的设计。 上述图片展示了FS-LLM的架构,包括三个主要模块:LLMBENCHMARKS、LLM-ALGZOO和LLM-TRAINER。团队已经开发了强大的联邦参数高效微调(PEFT)算法的实现和多功能的编程接口,以便未来的扩展,即使处理闭源LLM,也能够在联邦学习(FL)场景中有效地运行LLM,减少通信和计算开销。 他们的网站上提供了详细的教程:federatedscope.io 您可以通过FederatedScope Playground或Google Colab尝试FederatedScope。 他们的方法还结合了加速技术和资源有效的策略,以在资源约束下微调LLM,并提供灵活的可插拔子例程,用于跨学科研究,例如在个性化联邦学习设置中应用LLM。 该研究包括一系列广泛且可再现的实验证明了FS-LLM的有效性,并在联邦环境中使用最先进的参数高效微调算法建立了先进LLM的基准。根据这些实验结果的发现,我们概述了未来联邦LLM微调研究的一些有希望的方向,以推进FL和LLM社区的发展。

Leave a Comment

Google DeepMind研究人员提出了一种名为优化通过提示(OPRO)的方法:将大型语言模型作为优化器

随着人工智能领域的不断进步,其子领域,包括自然语言处理、自然语言生成、自然语言理解和计算机视觉,正变得越来越受欢迎。最近引起很多关注的大型语言模型(LLMs)被用作优化器。它们的能力被用于自然语言理解,以增强优化过程。优化在许多不同的行业和背景中具有实际意义。基于导数的优化方法在处理各种问题方面历史上表现良好。 这也带来了一些挑战,因为在实际情况下,梯度可能只有时而可用,这带来了困难的问题。为了解决这些问题,Google DeepMind的研究人员提出了一种名为OPRO(Optimisation by PROmpting)的独特方法作为解决方案。通过使用LLMs作为优化器,OPRO提供了一种简单而强大的技术。在这种情况下,主要的创新点是使用日常语言来表达优化任务,使流程更简单、更易于理解。 OPRO首先通过自然语言描述优化问题。这意味着问题是用简单的语言表达,而不是复杂的数学公式,这样更容易理解。其次,它提供了一个迭代的解决方案生成过程。LLM根据给定的自然语言提示为每个优化步骤创建新的候选解。这个提示是重要的,它包含了先前创建的解以及它们的相关值的详细信息。这些传统选项作为进一步发展的起点。 然后,更新和评估这些解,并评估它们的性能或质量。在经过检查的解后,下一个优化步骤的提示将包含这些解。随着迭代过程的进行,解逐渐改进。一些实际的例子被用来说明OPRO的有效性。首先,OPRO被用来解决两个众所周知的优化问题:线性回归问题和旅行推销员问题。这些问题是显著的,并作为评估该方法有效性的标准。OPRO展示了其识别出这些问题的优秀解的能力。 其次,它被用于提示优化。OPRO不仅仅解决特定的优化问题,还涉及到优化提示本身的问题。目标是找到能够提高任务准确性的指令。这对于涉及自然语言处理的任务尤其重要,因为提示的结构和内容对结果有很大影响。 团队表明OPRO优化的提示通常优于人类创建的提示。在一个例子中,它使Big-Bench Hard工作负载的性能提高了高达惊人的50%,在GSM8K基准测试中提高了8%。这显示了OPRO在改善优化结果方面的巨大潜力。 总之,OPRO提供了一种利用大型语言模型进行优化的革命性方法。OPRO通过用普通语言解释优化任务并反复生成和改进解来展示其在解决常见优化问题和改善提示方面的效率。结果表明,与传统方法相比,尤其是在梯度信息不可用或难以收集的情况下,性能提升显著。

Leave a Comment

“遇见T2I-Adapter-SDXL:小巧高效的控制模型”

T2I-Adapter是即插即用的工具,可以增强文本到图像模型,而无需进行完整的重新训练,使其比ControlNet等其他替代方案更高效。它们将内部知识与外部信号对齐,实现精确的图像编辑。与要求大量计算资源并减慢图像生成速度的ControlNet不同,T2I-Adapter仅在去噪过程中运行一次,提供更快更高效的解决方案。 模型参数和存储需求清楚地展示了这一优势。例如,ControlNet-SDXL拥有1251亿个参数和2.5 GB的fp16格式存储空间。相比之下,T2I-Adapter-SDXL将参数(7900万)和存储空间(158 MB)大幅减少,分别减少了93.69%和94%。 https://huggingface.co/blog/t2i-sdxl-adapters Diffusers团队与T2I-Adapter研究人员的最新合作为Stable Diffusion XL(SDXL)引入了对T2I-Adapter的支持。这次合作主要集中在从头开始训练SDXL上的T2I-Adapter,并在包括素描、边缘检测、线稿、深度和openpose在内的各种条件因素下取得了令人满意的结果。 训练T2I-Adapter-SDXL使用了来自LAION-Aesthetics V2的300万个高分辨率图像-文本对,训练设置规定了20000-35000步、批量大小为128(数据并行,单个GPU批量大小为16)、常量学习率为1e-5以及混合精度(fp16)。这些设置在速度、内存效率和图像质量之间取得了平衡,使其适用于社区使用。 在Diffusers框架中使用T2I-Adapter-SDXL非常简单,只需按照一系列步骤安装所需的依赖包,包括diffusers、controlnet_aux、transformers和accelerate。随后,使用T2I-Adapter-SDXL进行图像生成主要包括两个步骤:以适当的控制格式准备条件图像,并将这些图像和提示传递给StableDiffusionXLAdapterPipeline。 在实际示例中,加载Lineart Adapter,并对输入图像进行线稿检测。随后,使用定义的提示和参数启动图像生成,允许用户通过”adapter_conditioning_scale”和”adapter_conditioning_factor”等参数来控制应用的条件程度。 总之,T2I-Adapter为ControlNet提供了引人注目的替代方案,解决了微调预训练文本到图像模型的计算挑战。它们体积小、操作高效、易于集成,是在各种条件下自定义和控制图像生成的有价值工具,为人工智能的创造力和创新提供了支持。

Leave a Comment

苹果和Equall AI的一项新的人工智能研究揭示了Transformer架构中的冗余问题:如何优化前馈网络以提高效率和准确性

最近流行起来的Transformer设计已经成为自然语言处理(NLP)活动,特别是机器翻译(MT)的标准方法。这种架构展示了令人印象深刻的扩展性,这意味着增加更多的模型参数会在各种NLP任务上获得更好的性能。许多研究和调查已经验证了这一观察结果。虽然Transformer在可扩展性方面表现出色,但也有一个并行的运动,旨在使这些模型在实际世界中更加高效和可部署。这涉及到处理延迟、内存使用和磁盘空间等问题。 研究人员一直在积极研究解决这些问题的方法,包括组件裁剪、参数共享和降维。广泛使用的Transformer架构包括许多重要部分,其中最重要的两个部分是前馈网络(FFN)和注意力。 注意力 – 注意机制允许模型在分析每个单词时捕捉句子中的关系和依赖,而不考虑它们的位置。它作为一种机制,帮助模型确定输入文本的哪些部分与其当前正在分析的每个单词最相关。理解短语中的单词之间的上下文和连接取决于这一点。 前馈网络(FFN):FFN负责对每个输入标记进行非线性转换。通过对每个单词的表示进行特定的数学运算,它为模型对每个单词的理解增加了复杂性和表达能力。 在最近的研究中,一组研究人员专注于研究Transformer架构中的FFN的作用。他们发现FFN在作为模型的一个大组件时存在很高的冗余,并消耗大量的参数。他们发现,即使显著减少了模型的参数数量,也不会对准确性造成重大影响。他们通过从解码器层中删除FFN,而是在编码器层之间使用一个共享的FFN来实现这一点。 解码器层:标准Transformer模型中的每个编码器和解码器都有自己的FFN。研究人员删除了解码器层中的FFN。 编码器层:他们使用一个单独的FFN,该FFN由所有编码器层共享,而不是为每个编码器层提供单独的FFN。 研究人员分享了采用这种方法带来的好处,如下所示。 参数减少:通过删除和共享FFN组件,他们大大减少了模型中的参数数量。 尽管删除了大量参数,但模型的准确性仅略有降低。这表明编码器的多个FFN和解码器的FFN存在一定程度的功能冗余。 缩小规模:他们扩大了共享FFN的隐藏维度,以恢复架构的先前尺寸,同时保持或甚至提高模型的性能。与之前的大规模Transformer模型相比,这在准确性和模型处理速度(延迟)方面取得了显著的改进。 总之,这项研究表明,在Transformer设计中,特别是在解码器层中,前馈网络可以简化并共享,而不会对模型性能造成重大影响。这不仅减轻了模型的计算负载,还提高了其在各种NLP应用中的效果和适用性。

Leave a Comment

这项人工智能研究提出了DISC-MedLLM:一种综合解决方案,利用大型语言模型(LLMs)提供准确的医疗响应

远程医疗的兴起改变了医疗的提供方式,打开了专业网络,降低了价格,并允许进行远程医疗咨询。此外,智能医疗系统通过添加医疗信息提取、药物推荐、自动诊断和健康问题解答等功能,改进了在线医疗服务。虽然在构建智能医疗系统方面取得了一些进展,但早期研究集中在特定问题或疾病上,具有狭窄的应用范围,导致实验性进展与实际应用之间存在差距。为了弥合这一差距,需要提供更广泛的医疗场景的完整解决方案,并为消费者提供最高品质的端到端对话式医疗服务。 近期,大型语言模型展示了与人类进行有意义对话和遵循指令的惊人能力。这些进展为开发医疗咨询系统创造了新的机会。然而,涉及医疗咨询的情况通常更为复杂,超出了通用领域的语言模型的范围。图1展示了一个真实世界医疗咨询的示例。它展示了两个特点。首先,需要全面可信的医疗知识来理解对话并在每个阶段做出适当回应。通用领域的语言模型提供与特定情况无关的输出,存在主要的幻觉问题。 其次,通常需要进行多轮对话才能获得足够了解患者情况以提供医疗咨询的知识,并且每个对话轮次都有一个明确的目标。然而,通用领域的语言模型在用户健康状况的具体问题上往往具有有限的多轮查询能力,并且是单轮代理。基于这两点发现,复旦大学、西北工业大学和多伦多大学的研究人员认为,医疗语言模型应该对全面可信的医疗知识进行编码,同时符合真实世界医疗对话的分布特征。受到指令调整的成功启发,他们研究如何构建高质量的监督微调数据集,用于训练医疗语言模型,并包括医学知识和咨询行为模式。 在实际应用中,他们使用三种不同的方法创建样本: • 基于医疗知识图的样本开发。根据从真实世界咨询数据集中收集的患者查询分布,他们使用以科室为导向的方法从医疗知识网络中选择知识三元组。然后使用GPT-3.5为每个三元组创建问答对。结果得到了50k个样本。 • 重建真实对话。为了改善语言模型,从医疗论坛收集的咨询记录是合适的数据源。这些文档中使用的语言是非正式的,术语的呈现方式不一致,各种医疗从业者的表达风格各异。因此,他们使用GPT-3.5使用实际案例重新创建对话。结果得到了420k个样本。 • 样本收集后,进行人工选择。他们从涵盖各种咨询设置的真实医疗对话记录中手动选择了一小组条目,并重新编写了某些示例以符合人类意图。他们还确保每个对话的整体质量在人工引导重建后得到保证。结果得到了2k个样本。然后,使用新创建的SFT数据集在拥有13B个参数的通用领域中文语言模型的基础上,通过两阶段训练过程训练DISC-MedLLM。他们从两个角度评估模型的性能,以确定其在多轮对话中提供系统咨询和在单轮对话中提供准确回复的能力。 图1:患者和真实医生之间对话的示例。医生回应中提到的医学实体由蓝色高亮文本标示。每一轮,医生的行为显示特定的意图:(1)在第一轮,进行更多的研究以收集有助于确定潜在情景的数据;(2)在第二轮,进行初步诊断并提出明确建议;(3)在第三轮,根据医疗状况提供具体的治疗选择。 他们从三个公共医学数据集中收集了一系列多项选择题,并使用该题库对单轮对话进行了模型准确性评估。对于多轮对话评估,他们首先使用GPT-3.5创建了一小组优秀咨询案例,模拟患者与模型进行对话。然后使用GPT-4评估模型的主动性、准确性、有用性和语言质量。实验结果显示,尽管不及GPT-3.5,但DISCMedLLM在参数相同的情况下平均超过了医学大规模华佗GPT 10%。 此外,在模拟医学咨询环境中,DISC-MedLLM的整体表现优于基准模型,如GPT-3.5、华佗GPT和扁鹊。DISC-MedLLM在涉及医学部门和患者意图的案例中表现出色,并超过了其他中文医学LLM。

Leave a Comment

在医疗保健领域弥合临床医生和语言模型之间的鸿沟:介绍MedAlign,一种由临床医生生成的用于遵循电子病历的数据集

大型语言模型(LLMs)以很大程度上利用了自然语言处理的能力。从语言生成和推理到阅读理解,LLMs都能胜任。这些模型在帮助医生工作方面的潜力引起了多个领域,包括医疗保健的关注。最近的LLMs,包括Med-PaLM和GPT-4,在涉及医学问答的任务中表现出了他们的熟练程度,特别是涉及医学数据库和考试的任务。 一个常见的限制是难以确定LLMs在受控基准测试中出色的表现是否能够转化到实际的临床环境中。临床医生在医疗行业中进行各种与信息相关的工作,这些工作经常需要来自电子健康记录(EHRs)的复杂、非结构化的数据。医疗从业者所面对的复杂性和复杂性在当前可用的EHR数据问答数据集中没有很好地体现出来。当医生依靠LLMs来帮助他们时,他们缺乏评估这些模型能否提供准确和具有上下文意识的回复所需的细微差别。 为了克服这些限制,一组研究人员开发了MedAlign,这是一个基准数据集,包括15名从事7个不同医学专业的临床医生提交的共983个问题和指令。MedAlign专注于基于EHR的指令-回答配对,而不仅仅是问题-回答配对,这使其与其他数据集不同。该团队为其中303个指令提供了由临床医生撰写的参考回答,并将其与EHR数据相链接,以提供提示的上下文和基础。每个临床医生对这303个指令上六种不同LLMs生成的回答进行了评估和排名,以确认数据集的可靠性和质量。 临床医生还提供了他们自己的黄金标准解决方案。通过收集包括临床医生提供的指令、LLM生成回答的专家评估以及相关的EHR上下文的数据集,MedAlign开创了一项开拓性的工作。这个数据集与其他数据集的不同之处在于它为评估LLMs在临床情况下的工作效果提供了一个有用的工具。 第二个贡献展示了一种自动化的、检索式的方法,用于将相关的患者电子健康记录与临床指令匹配。为了实现这一点,该团队创建了一个程序,使向临床医生索取指令更加高效和可扩展。他们可以通过隔离这种指令征集方法从更大、更多样化的临床医生群体中寻求提交。 他们甚至评估了他们的自动化方法与相关EHR匹配的效果。研究结果显示,与指令与EHR的随机配对相比,这种自动匹配过程在74%的情况下成功提供了相关的配对。这一结果突显了自动化提高连接临床数据的效果和准确性的机会。 最后一个贡献考察了自动化自然语言生成(NLG)参数与临床医生对LLM生成回答的评级之间的关系。这项研究旨在确定是否可以使用可扩展的自动化指标来对LLM回答进行排序,以取代专业临床医生的评估。该团队旨在通过衡量人类专家排序与自动化标准之间的一致程度,减少医生在未来研究中手动识别和评估LLM回答的需求。通过使审查过程更加高效且不那么依赖人力资源,为医疗应用开发和改进LLMs的进程可能会加快。

Leave a Comment

遇见LLaSM:一个端到端训练的大型多模态语音语言模型,具有跨模态对话能力,能够遵循语音和语言指令

语音比写作传递更多信息,因为它携带了语义和声音等语言信息。此外,与AI进行交流时,说话是一种更实用和有机的方式。因此,在创建通用助手时,遵循语音和语言的指导原则至关重要。然而,大多数大型语言模型只接受文本输入,限制了其潜力。尽管多模态视觉和语言模型在通用人工智能(AGI)方面取得了重大进展,但人类通过输入文本指令来输入任务仍然很繁琐。 级联范式方法使用自动语音识别(ASR)模型将语音输入转换为文本输入,然后模型可以利用该文本输入来处理任务。从语音到文本的模态转换仍然会导致信息消耗,并可能导入ASR系统错误。最近,具有处理和生成语音和文本的大型语言模型的语言语音多模态模型已能够理解和制作多模态信息。语音信号被分成不同的标记,并扩展到LLM的词汇中。从这个意义上说,LLM需要大量的多模态数据和强大的计算资源来重新训练。 本研究的来自LinkSoul.AI、北京大学和01.ai的作者建议LLaSM,这是一个具有跨模态对话能力的大型语音和语言模型,可以理解和遵守口头指令。他们使用训练有素的语音模态编码器和LLM,就像LLaVA一样,这使得LLaSM更加资源友好。他们专门使用Whisper作为音频编码器来整合语音信号。将大型语言模型的输入文本嵌入与使用模态适配器的语音嵌入进行匹配。为了创建交替的序列,将语音和文本嵌入组合在一起。然后将交替的序列馈送到LLM进行监督微调。 训练过程分为两个阶段。在初始阶段,他们使用公共ASR数据集进行模态适应预训练。只有模态适配器被训练以对齐语音和文本嵌入,LLM和语音编码器已被锁定。由于在这个阶段引入了模态适配器的一小部分参数,并且大部分模型参数仍需固定,因此不需要消耗大量资源。在第二步中,使用跨模态指令数据训练模型以处理多模态指令和分析跨模态交互。在进行跨模态教育时,语言模型和模态适配器的设置正在修改,而音频编码器则被冻结。 值得注意的是,目前很少有开源的语音-文本跨模态指令遵循数据集可用。因此,他们创建并发布了LLaSM-Audio-Instructions数据集。该数据集是通过精心选择GPT4-LLM、ShareGPT和WizardLM中的对话,并使用文本到语音技术创建大量的对话音频数据而生成的。据他们所知,这是最大的中英文语音-文本跨模态指令遵循数据集,包含19.9万个对话、8万个中文音频样本和42.8万个英文音频样本。 他们的研究贡献如下: • 他们创建了一个能够理解和执行语音-语言指令的语音-语言多模态模型,为人们与人工智能进行交流提供了更实用和有机的方式。 • 他们创建并发布了LLaSM-Audio-Instructions,这是一个结合了中文和英文语音和文本的大型跨模态指令遵循数据集。 • 可以在HuggingFace在线上查看演示,并在GitHub上获取代码。

Leave a Comment

谷歌研究探索:在大型语言模型中,人工智能反馈能否替代人类输入进行有效的强化学习?

人类反馈对于改进和优化机器学习模型至关重要。近年来,来自人类反馈的强化学习(RLHF)在将大型语言模型(LLMs)与人类偏好相一致方面被证明非常有效,但是收集高质量的人类偏好标签仍然是一个重大挑战。在一项研究中,Google AI的研究人员试图比较RLHF和从AI反馈中进行强化学习(RLAIF)。RLAIF是一种技术,其中偏好由预训练的LLM标记,而不是依靠人类注释者。 在这项研究中,研究人员在概括任务的背景下直接比较了RLAIF和RLHF。他们的任务是为给定文本的两个候选回答提供偏好标签,利用现成的大型语言模型(LLM)。随后,基于LLM推断得出的偏好,利用对比损失训练了一个奖励模型(RM)。最后一步是通过强化学习技术对策略模型进行微调。上面的图片展示了RLAIF(上)与RLHF(下)的示意图。 上面的图片展示了SFT、RLHF和RLAIF策略为Reddit帖子生成的示例摘要。与未能捕捉关键细节的SFT相比,RLHF和RLAIF生成了更高质量的摘要。 该研究中呈现的结果表明,当以两种不同的方式进行评估时,RLAIF的性能与RLHF相当: 首先,观察到RLAIF和RLHF策略在71%和73%的情况下都得到了人类评估者的偏好,超过了监督微调(SFT)基线。重要的是,统计分析没有显示出两种方法之间的胜率之间存在显著差异。 其次,当人类被要求直接比较RLAIF和RLHF生成的结果时,他们对两种方法表达了相同的偏好,导致两种方法的胜率均为50%。这些发现表明,RLAIF是RLHF的可行替代方案,独立于人类注释操作,并具有可扩展性。 需要注意的是,这项工作仅探讨了概括任务,对于其他任务的泛化性尚未得到解决。此外,该研究没有估计大型语言模型(LLM)推断在经济支出方面是否比人类标注具有成本效益。未来,研究人员希望探索这个领域。

Leave a Comment

认识小羊驼 一个旨在预训练一个包含110亿个Llama模型的小型AI模型,使用了3万亿个令牌

在语言模型研究不断发展的领域中,追求效率和可扩展性的探索引发了一项具有开创性的项目——TinyLlama。这个雄心勃勃的努力由新加坡大学的一名研究助理带头,旨在在短短90天内,在一台16个A100-40G GPU的简单配置下,对惊人的3万亿个标记进行1.1亿参数模型的预训练。这个项目的潜在影响是巨大的,因为它承诺重新定义在紧凑语言模型领域中曾经被认为是不可能的边界。 尽管像Meta的LLaMA和Llama 2这样的现有模型已经展示了在减小尺寸方面的卓越能力,TinyLlama将这个概念推向了更进一步。1.1亿参数模型仅占用550MB的RAM,这可能是对计算资源有限应用程序的一个潜在的改变者。 批评者对这样一个雄心勃勃的计划的可行性提出了疑问,特别是在考虑到Chinchilla缩放定律的情况下。这个定律认为,为了实现最佳计算,参数和训练标记的数量应该成比例缩放。然而,TinyLlama项目直接挑战了这一观点,旨在证明一个更小的模型确实可以在一个庞大的训练数据集上蓬勃发展。 Meta的Llama 2论文揭示了即使在预训练2万亿个标记后,模型也没有显示出饱和的迹象。这一观点可能鼓舞了科学家们进一步推动边界,将TinyLlama的预训练目标定为3万亿个标记。关于是否需要越来越大的模型的争论还在继续,Meta试图推翻Chinchilla缩放定律成为这一讨论的前沿。 如果成功,TinyLlama可能会为AI应用程序开启一个新时代,使强大的模型能够在单一设备上运行。然而,如果它未能达到目标,Chinchilla缩放定律可能会证明其相关性。研究人员保持实事求是的态度,强调这个努力是一个开放的试验,没有承诺或预先定义的目标,只有雄心勃勃的“1.1B on 3T”。 随着TinyLlama项目在训练阶段的进展,AI社区满怀期待地关注着。如果成功,它不仅可能挑战现有的缩放定律,还可能彻底改变高级语言模型的可访问性和效率。只有时间才能告诉我们TinyLlama是否会胜出,或者在这个雄心勃勃的实验面前,Chinchilla缩放定律是否会坚持立场。

Leave a Comment

阿里巴巴推出两个开源大型视觉语言模型(LVLM):Qwen-VL和Qwen-VL-Chat

在不断发展的人工智能领域中,图像理解与文本交互之间的差距一直是一个持久的挑战。这个难题让许多人寻求创新的解决方案。虽然近年来AI社区取得了显著的进展,但仍然迫切需要多功能、开源的模型,能够理解图像并以精细的方式回答复杂的查询。 现有的解决方案确实为AI的进步铺平了道路,但它们往往在无缝地融合图像理解和文本交互方面存在不足。这些局限性推动了对更复杂模型的追求,这些模型能够应对图像文本处理的多方面需求。 阿里巴巴推出了两个开源的大视觉语言模型(LVLM)- Qwen-VL和Qwen-VL-Chat。这些AI工具已经成为理解图像和解决复杂查询的有希望的答案。 首先,Qwen-VL是这些模型中的第一个,它被设计成阿里巴巴的70亿参数模型“通译千文”的复杂后代。它展示了处理图像和文本提示的卓越能力,在制作引人入胜的图像标题和回答与各种图像相关的开放问题等任务方面表现出色。 另一方面,Qwen-VL-Chat通过应对更复杂的交互将概念推向更远。这个AI模型通过高级对齐技术赋能,展示了一系列出色的才华,从根据输入图像创作诗歌和叙述,到解决嵌入图像中的复杂数学问题。它重新定义了英语和中文中文本-图像交互的可能性。 这些模型的能力得到了令人印象深刻的指标的支持。例如,Qwen-VL在训练期间展示了处理更大图像(448×448分辨率)的能力,超过了限于较小图像(224×224分辨率)的类似模型。它还在涉及图片和语言的任务中显示出色,可以在没有先验信息的情况下描述照片,回答有关照片的问题,并检测图像中的对象。 另一方面,Qwen-VL-Chat在理解和讨论单词和图像之间关系方面胜过其他AI工具,如阿里巴巴云在基准测试中设定的。它展示了在涉及300多张照片、800个问题和27个不同类别的对话中,用中文和英文进行关于图片的对话的优秀能力。 这一发展最令人兴奋的方面也许是阿里巴巴对开源技术的承诺。该公司打算为全球社区提供这两个AI模型作为开源解决方案,使其在全球范围内免费使用。这一举措使开发人员和研究人员能够利用这些尖端能力进行AI应用,无需进行广泛的系统培训,从而降低开支并使先进的AI工具更加普及。 总之,阿里巴巴推出的Qwen-VL和Qwen-VL-Chat代表了AI领域在无缝整合图像理解和文本交互方面迈出的重要一步。这些开源模型以其令人印象深刻的能力有望重塑AI应用的格局,促进创新和全球范围内的可访问性。AI社区翘首以待这些模型的发布,AI驱动的图像-文本处理的未来看起来充满了希望和可能性。

Leave a Comment

来自UCLA和Google的研究人员提出了AVIS:一种突破性的人工智能框架,用于自主信息搜索和视觉问答

GPT3、LaMDA、PALM、BLOOM和LLaMA只是一些大型语言模型(LLMs)的例子,它们展示了存储和应用大量信息的能力。它们展示了新的技能,如上下文学习、代码创作和常识推理。最近的一个发展是训练LLMs同时处理视觉和语言数据。GPT4、Flamingo和PALI是三个著名的视觉语言模型(VLMs)的例子。它们在许多任务上建立了新的基准,包括图片标题生成、视觉问答和开放词汇识别。虽然最先进的LLMs在涉及文本信息检索的任务上表现远远优于人类,但最先进的VLMs在Infoseek、Oven和OK-VQA等视觉信息检索数据集上表现较差。 由于多种原因,当今最先进的视觉语言模型(VLMs)很难对这类查询做出令人满意的回答。首先,需要教导年轻人识别图像中的细粒度类别和细节。其次,它们的推理必须更加强大,因为它们使用的语言模型比最先进的大型语言模型(LLMs)要小。最后,与图像搜索引擎不同,它们没有将查询图像与带有不同元数据的大量图像语料库进行比对。在这项研究中,来自加州大学洛杉矶分校(UCLA)和谷歌的研究人员提供了一种新方法来克服这些障碍,通过将LLMs与三种不同类型的工具相结合,实现了在视觉信息检索任务上的最先进性能。 辅助视觉信息提取的计算机程序包括对象检测器、光学字符识别软件、图片标题生成模型和视觉质量评估软件。 发现外部世界数据和信息的在线资源 通过挖掘与视觉相关的图像的元数据,找到图像搜索中的相关结果的方法。 该方法采用由LLM驱动的规划器来决定使用哪种工具以及向其发送什么查询。此外,研究人员使用由LLM驱动的推理器来检查工具的结果并提取相关数据。 首先,LLM将查询简化为策略、程序或一组指令。之后,激活适当的API来收集数据。虽然在简单的视觉语言挑战中有所希望,但在更复杂的现实场景中,这种方法通常需要进行修订。这样的初始查询无法确定一个全面的策略。相反,它需要根据持续的数据进行持续迭代。流动决策能力是所提出策略的关键创新。由于任务的复杂性,对于需要视觉信息的问题,规划器必须进行多步骤的规划过程。规划器必须决定在每个阶段使用哪个API以及提交什么查询。它只能预测像图像搜索这样的复杂API的答案的效用,或者在调用它们后预测它们的输出。因此,研究人员选择了一种动态策略,而不是传统的方法,包括对流程阶段和API调用进行预先规划。 研究人员进行了一项用户研究,以更好地了解人们在与API交互以查找视觉信息时如何做出选择。为了使大型语言模型(LLM)能够在选择API和构建查询时做出明智的选择,他们将这些信息编制成一个系统框架。从收集到的用户数据中,系统有两种主要的受益方式。首先,他们通过推断用户动作的顺序来构建一个转换图。该图定义了状态之间的边界以及每个状态可以采取的步骤。其次,他们为规划器和推理器提供了有用的用户决策示例。 主要贡献 团队提出了一种创新的视觉问答框架,使用大型语言模型(LLM)来制定使用外部工具的策略并调查其输出,从而学习提供答案所需的知识。 团队利用用户研究结果,创建了一个系统化的计划。该框架指导大型语言模型(LLM)在选择API和构建查询时模拟人类决策。 该策略在Infoseek和OK-VQA这两个基于知识的视觉问答基准上优于最先进的解决方案。特别是,与PALI在Infoseek(未知实体分割)数据集上的16.0%准确率相比,我们的结果显著提高,达到50.7%。 APIs和其他工具 AVIS(自主视觉信息查询与大型语言模型)需要一套强大的资源来回答需要适当深入信息检索的视觉查询。 图像字幕模型 视觉问答模型 物体检测 图像搜索 OCR 网络搜索 LLM短问答 限制 目前,AVIS的主要功能是为问题提供视觉回答。研究人员计划扩大基于LLM的动态决策系统的范围,以整合其他推理应用。当前框架还需要PALM模型,这是一个计算复杂的LLM。他们想要确定是否可以使用更小、计算负荷较轻的语言模型做出同样的决策。 总之,加州大学洛杉矶分校和谷歌的研究人员提出了一种新方法,使大型语言模型(LLM)能够访问广泛的资源来处理面向视觉的知识查询。该方法基于对人类决策制定的用户研究数据。它使用一个结构化框架,其中由LLM驱动的规划器选择要使用的工具以及如何即时构建查询。所选工具的输出将被处理,由9个LLM驱动的推理器将提取关键信息。视觉问题被分解成较小的部分,并且规划器和推理器共同使用各种工具来解决每个部分,直到积累足够的数据来回答问题。

Leave a Comment