Press "Enter" to skip to content

32 search results for "BART"

分布式训练:使用🤗 Transformers和Amazon SageMaker训练BART/T5进行摘要

如果你错过了:我们在3月25日宣布与Amazon SageMaker合作,旨在更轻松地创建最先进的机器学习模型,并更快地发布尖端的NLP功能。 与SageMaker团队一起,我们构建了🤗优化的Transformers深度学习容器,以加速基于Transformers的模型训练。感谢AWS的朋友们!🤗 🚀 通过SageMaker Python SDK中的新HuggingFace估计器,您可以通过一行代码开始训练。 发布的博客文章提供了有关集成的所有信息,包括“入门”示例和文档、示例和功能的链接。 在此再次列出: 🤗 Transformers文档:Amazon SageMaker 示例笔记本 Hugging Face的Amazon SageMaker文档 Hugging Face的Python SDK SageMaker文档 深度学习容器 如果您对Amazon SageMaker不熟悉:“Amazon SageMaker是一项完全托管的服务,为每个开发人员和数据科学家提供快速构建、训练和部署机器学习(ML)模型的能力。SageMaker从机器学习过程的每个步骤中减轻了繁重的负担,使开发高质量模型更加容易。”[ REF…

Leave a Comment

2024年使用的前5个生成式人工智能框架

介绍 欢迎来到引人入胜的生成式人工智能(Generative AI)框架的领域,这是创新和创造力在数字化领域的交织。生成式人工智能的力量不仅仅是一种技术奇迹。它是一种塑造我们与机器互动和产生内容方式的动态力量。想象一下:只需要一个提示,就能创造故事、图像,甚至整个世界。这不是魔法,而是人工智能的进化。 生成式人工智能不仅仅是一组算法;它是由在线数据的广阔领域驱动的创造力强大动力。想象一下,能够提示人工智能生成文本、图像、视频、声音和复杂的代码。随着GenAI的进一步学习和发展,它在各个行业的应用不断增加。秘密在于训练-复杂的数学和大量的计算能力相结合,教会人工智能预测结果,模仿人类的行为和创造。 进入生成式人工智能世界的旅程涉及解开其工作原理背后的神秘。神经网络如何识别模式以产生新内容?哪些基础模型支持诸如ChatGPT和DALL-E之类的工具?与我们一同探索生成式人工智能的复杂性,探索其用途和功能。介绍这一技术革命前沿的五个框架。这是一段机器给想象力注入生命的旅程,可能性无限,就像他们在数字画布上绘制一样。 提升你的生成式人工智能水平,学习实践。检查我们的 GenAI顶尖计划! 什么是生成式人工智能框架? 生成式人工智能框架是GenAI的支柱,为机器创建多样且与上下文相关的内容提供了基础设施。这些框架作为AI模型(如LLMs、GANs、VAEs)的指导原则,使它们能够理解庞大数据集中的模式。组织可以利用无监督和半监督学习方法的力量,通过使用这些框架来训练AI系统。这种训练为从自然语言处理到图像生成等任务奠定了基础,使机器能够解释提示。 LangChain LangChain是Harrison Chase的创新软件开发框架,专为GenAI专业人员量身打造。它有助于重塑日常任务和项目的格局。LangChain通过强调利用大型语言模型(LLMs)来提升AI系统的能力,简化了应用程序创建过程。基于MIT许可证的开源原则下,LangChain引入了一个标准化的接口,包括代理、内存和链。 LangChain的代理扮演重要角色,使LLMs能够做出明智的决策,为创建动态聊天机器人、游戏和各种应用铺平道路。内存功能非常宝贵,允许在对LLMs进行调用时保留状态。对于像聊天机器人这样的应用程序来说,这一功能成为了保持连贯对话或存储先前查询结果的基石。链条不仅限于单个LLM调用,还便于序列的编排-这对于构建摘要工具、问答系统和需要多方交互的不同应用程序来说是一个福音。 LangChain的数据增强生成功能增加了更多的灵活性,使GenAI专业人员能够根据外部数据生成文本。从编写引人入胜的新闻文章到制作产品描述,这个框架增强了内容生成的能力。 LangChain在各种应用中展示了其能力,包括客户服务和教育的聊天机器人,娱乐和研究的游戏,以及商业和教育的摘要工具和问答系统。它涵盖了各种应用,如内容生成、翻译、代码生成、数据分析和医学诊断。在GenAI专业人员的工具包中,LangChain推动着生成式人工智能不断演进的创新和效率。 LlamaIndex LlamaIndex成为GenAI专业人员武器库中至关重要的工具。它为自定义数据和GPT-4等LLMs之间提供了一个无缝的桥梁。这个创新的库通过简化与数据和LLMs一起工作的复杂过程,显著增强了GenAI专业人员的日常工作和项目。LlamaIndex的多功能实用性在不同阶段得到展现,在数据摄取、结构化、检索和集成方面提供了不可或缺的支持。 首先,LlamaIndex在从各种来源(如API、数据库、PDF或外部应用程序)“摄取”数据方面表现出色,充当勤奋的数据收集者。然后,它进入“构建”阶段,在这个阶段中,它以一种LLMs轻松理解的方式组织数据。这些组织良好的数据成为“检索”阶段的基础,在这个阶段中,LlamaIndex在需要时便于找到和提取正确的数据。最后,它简化了“集成”过程,实现了与各种应用框架的无缝合并数据。 LlamaIndex由三个主要组件组成:用于收集的“数据连接器”,用于组织的“数据索引”和作为翻译器的“引擎”(LLMs)。这种设置使GenAI专业人员在检索增强生成(RAG)方面拥有强大的能力,将LLM的实力与自定义数据相结合。查询引擎、聊天引擎和代理等模块化构建提升了交互到对话水平,实现了动态决策。无论是创建问答系统、聊天机器人还是智能代理,LlamaIndex都是GenAI专业人员的不可或缺的盟友,为RAG企业提供坚实的基础,并通过LLMs和定制数据来超级增强应用。 Jarvis 微软的JARVIS平台引领人工智能创新,为GenAI专业人员提供无与伦比的工具来增强日常工作。JARVIS与ChatGPT和t5-base等AI模型进行协作,实现统一和先进的结果。作为任务控制器,JARVIS简化了工作流程,最大限度地发挥了各种开源大型语言模型(LLMs)在图像、视频、音频等方面的潜力。 JARVIS集成了多模态人工智能,将GPT-4的功能扩展到文本和图像处理。该平台连接到互联网,访问一个强大的模型网络,包括t5-base、stable-diffusion 1.5、Facebook的bart-large-cnn和Intel的dpt-large等20个强大的模型。JARVIS使用户可以提交复杂的多任务查询,指导不同的模型无缝协作执行复杂的任务。例如,生成一张有关外星人入侵的图像,并在此过程中创作相关的诗歌,这个流程变得简化,ChatGPT规划任务,选择适当的模型并执行任务,展示了JARVIS的高效性和协作潜力。 虽然JARVIS的能力是无可否认的突破性,但其使用也需要考虑资源。JARVIS需要至少16GB的VRAM和约300GB的存储空间来运行各种模型。JARVIS需要大量的资源,无法在普通个人电脑上本地运行。然而,尽管有这些限制,JARVIS标志着人工智能发展的重要飞跃,革新了人工智能能力和协作的领域。它重塑了GenAI专业人员与利用人工智能技术的交互方式的潜力是显而易见的,使其成为人工智能发展演进中的关键工具。 Amazon…

Leave a Comment

NVIDIA BioNeMo在AWS上实现了药物发现的生成式人工智能

领先的制药和技术生物公司的研究人员和开发人员现在可以通过亚马逊网络服务(AWS)轻松部署NVIDIA Clara软件和服务,加速医疗保健领域的发展。 该计划于AWS re:Invent上宣布,为使用AWS云资源的医疗保健和生命科学开发人员提供了灵活性,可以集成NVIDIA加速的产品,例如NVIDIA BioNeMo——一种用于药物发现的生成式人工智能平台,即将在AWS上推出NVIDIA DGX Cloud,目前可通过AWS ParallelCluster集群管理工具和Amazon SageMaker机器学习服务使用。 全球数千家医疗保健和生命科学公司使用AWS。现在,他们将能够使用BioNeMo访问专有数据构建或定制数码生物学基础模型,并使用NVIDIA GPU加速的AWS云服务器来扩大模型的培训和部署。 包括Alchemab Therapeutics、Basecamp Research、Character Biosciences、Evozyne、Etcembly和LabGenius在内的生物技术创新者已经是AWS的用户,并且已经在使用BioNeMo进行生成式人工智能加速的药物发现和开发。这种合作使他们能够更快速地扩展云计算资源,以开发基于生物分子数据的生成式人工智能模型。 此次宣布扩展了NVIDIA在AWS上已有的面向医疗保健的产品——用于医学成像工作流程的NVIDIA MONAI和加速基因组学的NVIDIA Parabricks。 AWS新推出:NVIDIA BioNeMo推进生成式人工智能的药物发现 BioNeMo是一个针对数码生物学生成式人工智能的领域专用框架,包括预训练的大型语言模型 (LLMs)、数据加载器和优化的训练配方,可以帮助加速计算机辅助药物发现的目标识别、蛋白质结构预测和药物候选筛选。 药物发现团队可以利用他们的专有数据使用BioNeMo构建或优化模型,并在基于云的高性能计算集群上运行这些模型。 其中的一个模型ESM-2是一款功能强大的LLM,支持蛋白质结构预测,几乎能够线性扩展至256个NVIDIA H100…

Leave a Comment

Amazon EC2 DL2q实例现已全面推出,用于经济高效的高性能人工智能推断

这是一篇由来自高通AI的A.K Roy所撰写的客座文章亚马逊弹性计算云(Amazon EC2)DL2q实例由高通AI 100标准加速器提供动力,可用于在云端高效部署深度学习(DL)工作负载它们还可用于开发和验证DL工作负载的性能和准确度

Leave a Comment

亚马逊音乐如何利用SageMaker与NVIDIA优化机器学习训练和推理性能及成本

在亚马逊音乐的动态流媒体世界中,每一次搜索歌曲、播客或播放列表都抱有一个故事、一种情绪或一股等待揭示的情感洪流这些搜索成为探索新事物、珍贵经历和持久记忆的门户搜索栏不仅仅是找歌曲的工具;[…]

Leave a Comment

使用牛轧糖提升科学文件处理

简介 在不断发展的自然语言处理和人工智能领域中,从科学PDF等非结构化数据源中提取有价值的信息变得越来越重要。为了解决这个挑战,Meta AI推出了“Nougat”或称“学术文档的神经光学理解”,这是一种基于Transformer的先进模型,旨在将科学PDF转录成常见的Markdown格式。Nougat出现在Lukas Blecher、Guillem Cucurull、Thomas Scialom和Robert Stojnic的论文《Nougat:学术文档的神经光学理解》中。 这为光学字符识别(OCR)技术带来了开创性的转变,而Nougat是Meta AI强大的AI模型中的最新成员。在本文中,我们将探讨Nougat的能力,了解它的架构,并演示使用该模型转录科学文档的实际示例。 学习目标 了解Meta AI最新的科学文档Transformer模型Nougat。 了解Nougat如何借鉴其前身Donut,并引入先进的文档AI方法。 学习Nougat,包括其视觉编码器、文本解码器和端到端训练过程。 深入了解OCR技术的发展,从ConvNets的早期阶段到Swin架构和自回归解码器的革命性能量。 本文作为数据科学博文马拉松的一部分发表。 Nougat的诞生 Nougat并不是Meta AI家族中的第一个Transformer模型。它继承了它的前身“Donut”的理念,展示了以Transformer为基础的模型中视觉编码器和文本解码器的能力。这个概念很简单:将像素数据输入模型,获得文本输出。这种端到端方法消除了复杂的流水线,并证明了注意力就是所需的一切。 让我们简要讨论驱动Nougat等模型的“视觉编码器、文本解码器”范式的基本概念。作为Nougat的前身,Donut引入了在单个模型中结合视觉和文本处理的能力。与传统的文档处理流水线不同,这些模型在端到端操作,将原始像素数据转化为文本内容。这种方法利用了Transformer架构的注意力特性来产生结果。 Nougat接过火炬 在Donut取得成功的基础上,Meta AI推出了Nougat,将OCR技术推向了一个新的水平。与其前身一样,Nougat采用了基于Swin Transformer的视觉编码器和基于mBART的文本解码器。Nougat从科学PDF的原始像素中预测文本的Markdown形式。这代表了将科学知识转录成熟悉的Markdown格式的重大突破。 Meta…

Leave a Comment

“大型语言模型真的擅长生成复杂结构化数据吗?这篇人工智能论文介绍了Struc-Bench:评估LLM能力并引入了一个结构感知的微调解决方案”

大型语言模型(LLMs)在文本生成任务以及其他自然语言处理任务中取得了重大进展。生成能力的一个基本组成部分是生成结构化数据的能力,在先前的研究中引起了广泛关注。然而,LLMs在生成复杂的结构化输出方面仍然表现不佳,这是各种应用的关键技能,从自动报告撰写到编码帮助。此外,对LLMs生成结构化输出的能力进行的研究相对较少;大多数对LLMs的评估都集中在自发文本或代码开发上。这引发了一个问题,即LLMs能否很好地生成复杂的结构化数据。 耶鲁大学、浙江大学、纽约大学和苏黎世联邦理工学院的研究人员旨在对这些开放问题进行彻底分析并加以解决。首先,需要对LLMs生成复杂结构化数据的能力进行更全面的研究。以往评估LLMs在结构化数据上的尝试主要集中在简单的信息提取(IE)任务上,例如提取关系、识别事件和识别命名实体。在这种情况下,IE任务的目标是以井然有序的方式收集提取的数据。相比于以LLM为中心的工作,早期的工作更加任务为中心。使用像BART和T5这样的预训练模型,这些模型可以从文本中生成结构化数据,主要关注的是文本到数据的问题。其次,需要全面评估LLMs的性能或指标。 现有的基准经常使用简单的客观度量标准(如词重叠)来衡量机器生成的内容分类信息的质量。但是,可能需要更多的内容来确定LLMs是否能够提供结构化输出,因为适当的评估标准还应考虑所生成信息的格式。第三,当前的LLMs是否能更准确地遵循人类自然语言输入并提供具有准确格式和无错误内容的输出?本研究试图填补文献中的这些空白,并改进LLMs生成结构化输出的训练数据集和评估标准。 以下是他们的贡献列表:(1)他们创建了一个名为STRUCBENCH的基准,专注于生成原始文本、HTML和LaTeX形式的结构化文本。他们还仔细评估了知名LLMs的能力,发现了内容正确性、格式化、数值推理和管理冗长表格方面的重大问题。(2)他们对知名LLMs在结构化文本生成基准上进行了实证评估,包括重要数据集,并扩展到不同领域,使人们更深入地了解常见错误类型和缺陷的规模。他们的研究结果表明,GPT-3.5和GPT-4在生成准确的输出方面需要帮助,问题主要出在错误的内容、格式不佳、数值推理能力不足以及无法处理冗长表格等方面。(3)他们使用结构感知指令调整来解决这些问题,通过使用ChatGPT创建格式指令,训练LLaMA模型遵循这些格式。对可见和隐藏数据的积极结果表明,这可能显著提高LLMs提供结构化输出的能力。

Leave a Comment

CMU研究人员提出了一种带有槽位主导模型(Slot-TTA)的测试时间自适应方法:一种半监督模型,配备有槽位主导的瓶颈,可以同时对场景进行分割和重构

计算机视觉中最具挑战和关键性的任务之一是实例分割。在图像或三维点云中精确描绘和分类对象的能力对于各种应用至关重要,从自动驾驶到医学图像分析。多年来,在开发最先进的实例分割模型方面取得了巨大进展。然而,这些模型通常需要应对与其训练分布不同的各种真实场景和数据集。将分割模型调整以处理这些分布范围之外(OOD)的情况的挑战推动了创新研究。一种引起重大关注的开创性方法是Slot-TTA(测试时间调整)。 在快速发展的计算机视觉领域中,实例分割模型取得了显著进展,使机器能够识别和精确分割图像和三维点云中的对象。这些模型已成为许多应用的基础,从医学图像分析到无人驾驶汽车。然而,它们面临着一个常见而严峻的对手-适应各种真实世界的场景和超出其训练数据范围的数据集。无法无缝地从一个领域过渡到另一个领域在有效部署这些模型方面构成了重大障碍。 卡内基梅隆大学、Google Deepmind和Google Research的研究人员推出了一种突破性解决方案,称为Slot-TTA,以解决这一挑战。这种创新方法旨在实现实例分割的测试时间调整(TTA)。Slot-TTA将基于槽位的图像和点云渲染组件的能力与最先进的分割技术相结合。Slot-TTA的核心思想是使实例分割模型能够动态适应OOD场景,从而显著提高其准确性和多功能性。 Slot-TTA基于调整的兰德指数(ARI)作为其主要分割评估指标。它在一系列数据集上进行了严格的训练和评估,包括多视图姿势的RGB图像、单视图的RGB图像和复杂的三维点云。Slot-TTA的区别特征在于其能够利用重建反馈进行测试时间调整。这一创新涉及对以前未见过的视点和数据集的分割和渲染质量进行迭代改进。 在多视图姿势的RGB图像中,Slot-TTA显示出强大的竞争力。通过对MultiShapeNetHard(MSN)数据集进行全面评估,证明了其适应性。该数据集包含超过51,000个ShapeNet对象,精心渲染在真实世界的HDR背景下。MSN数据集中的每个场景都有九个姿势RGB渲染图像,被策略性地分为Slot-TTA的训练和测试的输入和目标视图。研究人员特别注意确保训练集和测试集之间的对象实例之间没有重叠,并且场景中存在的对象数量没有重叠。这种严格的数据集构建对于评估Slot-TTA的鲁棒性至关重要。 在评估中,Slot-TTA与几个基准进行了比较,包括Mask2Former、Mask2Former-BYOL、Mask2Former-Recon和Semantic-NeRF。这些基准是用于比较Slot-TTA在训练分布内外的性能的基准。结果令人瞩目。 首先,Slot-TTA在OOD场景中使用TTA超过了Mask2Former,这是一种最先进的2D图像分割器。这表明Slot-TTA在适应各种真实场景方面的优势。 其次,在Mask2Former-BYOL中添加来自Bartler等人(2022年)的自监督损失未能带来改进,突显出并非所有TTA方法都同样有效。 第三,Slot-TTA没有分割监督,仅用于类似于OSRT(Sajjadi等人,2022a)的跨视图图像合成的变体,与像Mask2Former这样的有监督分割器相比效果显著下降。这一观察结果强调了在训练过程中进行分割监督对于有效的TTA的必要性。 Slot-TTA的强大之处还包括合成和分解新颖的未见RGB图像视图。使用与之前相同的数据集和训练-测试划分,研究人员评估了Slot-TTA的像素精确重构质量和分割ARI准确性,用于五个新颖的未见视点。此评估包括在TTA训练期间未见过的视图。结果令人震惊。 Slot-TTA在这些未知视点上的渲染质量显著提高,展示了它在新颖场景中增强分割和渲染质量的能力。相比之下,强大的竞争对手Semantic-NeRF在这些未知视点上很难推广,突出了Slot-TTA的适应性和潜力。 总之,Slot-TTA在计算机视觉领域代表了一次重大飞跃,解决了将分割模型适应多样的现实场景的挑战。通过结合以槽为中心的渲染技术、先进的分割方法和测试时适应性,Slot-TTA在分割准确性和多功能性方面取得了显著的改进。这项研究不仅揭示了模型的局限性,还为计算机视觉领域的未来创新铺平了道路。Slot-TTA承诺在不断变化的计算机视觉领域提升实例分割模型的适应性。

Leave a Comment

对话式人工智能中的LLM:构建更智能的聊天机器人和助手

介绍 语言模型在引人入胜的对话型人工智能领域中占据重要地位,该领域涉及技术和人类之间进行自然对话。最近,一种令人瞩目的突破性进展被称为大型语言模型(LLM)引起了大家的注意。像OpenAI令人印象深刻的GPT-3一样,LLM在理解和生成类似人类文本方面表现出了异常能力。这些令人难以置信的模型已成为一种改变游戏规则的技术,尤其在创建更智能的聊天机器人和虚拟助手方面。 在本博客中,我们将探讨LLM如何为对话型人工智能做出贡献,并提供易于理解的代码示例来展示它们的潜力。让我们深入研究一下,看看LLM如何使我们的虚拟互动更具吸引力和直观性。 学习目标 了解大型语言模型(LLM)的概念及其在推进对话型人工智能能力方面的重要性。 了解LLM如何使聊天机器人和虚拟助手能够理解和生成类似人类的文本。 探索提示工程在指导基于LLM的聊天机器人行为中的作用。 认识到LLM相对于传统方法在改进聊天机器人响应方面的优势。 发现LLM在对话型人工智能的实际应用。 本文是作为数据科学博客马拉松的一部分发表的。 理解对话型人工智能 对话型人工智能是人工智能创新领域,专注于开发能够以自然和类似人类的方式理解和回应人类语言的技术。通过使用自然语言处理和机器学习等先进技术,对话型人工智能赋予聊天机器人、虚拟助手和其他对话系统与用户进行动态和交互式对话的能力。这些智能系统可以理解用户的查询,提供相关信息,回答问题,甚至执行复杂任务。 对话型人工智能已经在客户服务、医疗保健、教育和娱乐等各个领域得到应用,彻底改变了人类与技术互动的方式,为更具共情和个性化的人机交互打开了新的前沿。 语言模型的演进:从基于规则的聊天机器人到LLM 在不久的过去,与聊天机器人和虚拟助手的互动往往感觉呆板和令人沮丧。这些基于规则的系统遵循严格预定义的脚本,依靠开发人员编程的特定关键字和响应。同时,它们提供了回答常见问题等基本功能。由于它们缺乏上下文理解,对话感觉僵硬和有限。 基于规则的聊天机器人时代 语言模型的历程始于基于规则的聊天机器人。这些早期聊天机器人基于预定义的规则和模式运行,依靠开发人员编程的特定关键字和响应。与此同时,它们提供了回答常见问题等基本功能。由于它们缺乏上下文理解,对话感觉僵硬和有限。 统计语言模型的兴起 随着技术的进步,统计语言模型进入了舞台。这些模型利用统计算法分析大量的文本数据集,并从数据中学习模式。采用这种方法,聊天机器人可以处理更广泛的输入范围,并提供稍微更具上下文相关的响应。然而,它们仍然难以捕捉人类语言的复杂性,经常导致不自然和脱节的响应。 基于Transformer模型的兴起 真正的突破发生在基于Transformer模型的出现时,尤其是革命性的GPT(Generative Pre-trained Transformer)系列。第三代GPT-3代表了对话型人工智能的一次重大变革。GPT-3在大量互联网文本的预训练基础上,利用深度学习和注意力机制的威力,使其能够理解上下文、语法、语法甚至类似人类的情感。 理解大型语言模型 具有复杂神经网络的LLM,由开创性的GPT-3(Generative…

Leave a Comment

谷歌在ICML 2023

由谷歌的程序经理Cat Armato发布 谷歌的各个团队在机器学习(ML)领域积极开展研究,涉及理论和应用等方面。我们构建ML系统来解决语言、音乐、视觉处理、算法开发等领域的深度科学和工程挑战。我们通过开源工具和数据集、发表论文以及积极参与会议,致力于与更广泛的ML研究社区建立更协作的生态系统。 谷歌很自豪成为第40届国际机器学习大会(ICML 2023)的钻石赞助商,这是一场世界一流的年度会议,本周在夏威夷檀香山举行。作为ML研究的领导者,谷歌在今年的会议上有超过120篇被接受的论文,并积极参与多个研讨会和教程。谷歌还自豪地成为拉丁裔AI和机器学习女性研讨会的白金赞助商。我们期待与更广泛的ML研究社区分享我们广泛的ML研究,并扩大我们的合作伙伴关系。 已注册ICML 2023吗?我们希望您能访问谷歌展位,了解解决该领域最有趣挑战的激动人心的工作、创造力和乐趣。请访问@GoogleAI的Twitter账号,了解谷歌展位的活动(例如演示和问答环节)。请查看Google DeepMind的博客,了解他们在ICML 2023的技术参与。 请继续阅读以下内容,了解谷歌在ICML 2023的研究成果(谷歌相关机构以粗体显示)。 委员会和组织委员会 委员会成员包括:Corinna Cortes,Hugo Larochelle。教程主席包括:Hanie Sedghi 谷歌研究展位活动 演讲者:Bryan Perozzi,Anton Tsitsulin,Brandon Mayer。题目:谷歌的无监督图嵌入(论文,EXPO研讨会)。时间:7月25日星期二上午10:30 HST 演讲者:Zheng Xu。题目:使用差分隐私的Gboard语言模型的联邦学习(论文1,论文2,博客文章)。时间:7月25日星期二下午3:30 HST…

Leave a Comment

见面提示扩散:一种用于在基于扩散的生成模型中实现上下文学习的人工智能框架

最先进的大型语言模型(LLM),包括BERT、GPT-2、BART、T5、GPT-3和GPT-4,是由最近在机器学习领域,尤其是在自然语言处理(NLP)领域的进展所开发出来的。这些模型已经被有效地应用于各种任务,包括文本生成、机器翻译、情感分析和问答。它们学习上下文的能力,通常被称为上下文学习,是这些LLM的新兴行为之一。像GPT-3这样具有上下文学习能力的LLM,可以通过条件化输入输出样本和新鲜查询输入来完成任务,而无需优化任何模型参数。 多种语言任务的预训练可以与上下文学习和精心设计的提示结构相结合,使得LLM能够成功地推广到它们从未遇到过的活动中。尽管上下文学习在NLP领域已经得到了广泛的研究,但在计算机视觉领域中几乎没有应用。要将上下文学习作为一种用于伟大视觉应用的标准技术来展示其实用性和潜力存在两个重要困难:1)创建一个有效的视觉提示比创建语言任务的提示更困难,因为它需要领域特定的输入输出对作为示例和图片搜索作为标准。2)在计算机视觉中,通常会为专门的任务训练大型模型,包括文本到图像生成、类别条件生成、分割、检测和分类。 这些庞大的视觉模型必须更加灵活以适应新的任务,并不适用于上下文学习。最近的一些尝试通过使用NLP的答案来解决这些问题。具体地说,当将示例照片、查询图像和输出图像融合为一个庞大的整体时,训练基于Transformer的图像修复模型来预测被屏蔽的输出图像。然而,将大尺寸的图像拼接在一起会显著增加计算开销,尤其是在高分辨率的情况下。本研究通过解决这两个问题,来探讨基于文本引导的扩散生成模型的上下文学习潜力。 为了在能够处理各种视觉-语言活动的视觉-语言提示下执行上下文学习,微软和德克萨斯大学奥斯汀分校的研究人员提出了一种新颖的模型架构,称为Prompt Diffusion。Prompt Diffusion在六个单独的视觉-语言任务中并行进行。具体地,他们利用他们的视觉-语言提示来描述一个通用的视觉-语言任务。然后,他们根据Stable Diffusion和ControlNet的设计灵感构建了Prompt Diffusion,它可以使用他们的视觉-语言提示作为输入。他们将Prompt Diffusion视为实现文本引导的扩散模型具备上下文学习能力的第一步。然后,它可以利用这些知识通过将连接重新映射到查询图像并包含语言指令来创建输出图像。更重要的是,跨多个任务的学习赋予了模型上下文学习的能力。Prompt Diffusion可以成功地推广到尚未观察到的多个新功能上。除了在训练期间表现良好的六个任务上,它还在熟悉和新的未见任务上表现出色。 从经验上看,Prompt Diffusion在关于上下文学习的熟悉和新的未见任务上表现出色。预计Prompt Diffusion的有效性将激发并推动更多关于基于扩散的上下文视觉学习的研究。以下是他们的主要贡献的摘要: • 一种先进的视觉-语言提示设计,有效地实现了多种视觉-语言活动的融合。 • 使用Prompt Diffusion模型在学习和新的未见任务上进行高质量的上下文生成,这是第一个具备上下文学习能力的基于扩散的可适应视觉-语言基础模型。 • 在GitHub上可以找到Pytorch代码实现。

Leave a Comment

使用Gensim逐步指南Word2Vec

介绍 几个月前,当我刚开始在Office People工作时,我对语言模型,尤其是Word2Vec产生了兴趣。作为一个使用Python的本地用户,我自然而然地专注于Gensim的Word2Vec实现,并在网上寻找论文和教程。我直接应用并复制了来自多个来源的代码片段,就像任何一个优秀的数据科学家所做的那样。我进一步深入,试图理解我的方法出了什么问题,阅读了Stackoverflow的讨论、Gensim的Google Groups和该库的文档。 然而,我一直认为创建Word2Vec模型的最重要的方面之一被忽略了。在我的实验过程中,我发现对句子进行词形还原或查找词组/二元组对结果和模型性能有很大的影响。尽管预处理的影响因数据集和应用而异,但我决定在本文中包含数据准备步骤,并与之配合使用绝妙的spaCy库。 其中一些问题让我很烦恼,所以我决定写一篇自己的文章。我不能保证它是完美的或者是实现Word2Vec的最佳方法,但至少比很多其他文章好。 学习目标 了解词嵌入及其在捕捉语义关系中的作用。 使用流行的库如Gensim或TensorFlow实现Word2Vec模型。 使用Word2Vec嵌入度量词语相似度和计算距离。 探索Word2Vec捕捉到的词语类比和语义关系。 在情感分析和机器翻译等各种NLP任务中应用Word2Vec。 学习微调Word2Vec模型以适应特定任务或领域的技巧。 使用子词信息或预训练的嵌入来处理词汇表外的单词。 了解Word2Vec的限制和权衡,如词义消歧和句子级语义。 深入研究诸如子词嵌入和通过Word2Vec进行模型优化等高级主题。 本文作为Data Science Blogathon的一部分发布。 Word2Vec简介 谷歌的一个研究团队在2013年9月和10月之间发表了两篇关于Word2Vec的论文。研究人员还在论文中发布了他们的C实现。Gensim在第一篇论文发表后不久完成了Python实现。 Word2Vec的基本假设是具有相似上下文的两个词具有相似的含义,因此模型中的向量表示也是相似的。例如,”狗”、”小狗”和”幼犬”经常在相似的上下文中使用,周围的词语也相似,比如”好”、”蓬松”或”可爱”,因此根据Word2Vec,它们具有相似的向量表示。 基于这个假设,Word2Vec可以用于发现数据集中词语之间的关系,计算它们的相似性,或者将这些词语的向量表示作为其他应用(如文本分类或聚类)的输入。 Word2Vec的实现 Word2Vec的思想非常简单。我们假设通过其周围的词语可以推断出一个词的含义。这类似于谚语”告诉我你的朋友,我会告诉你是谁”。下面是Word2Vec的一个实现。…

Leave a Comment

利用预训练的语言模型检查点来构建编码器-解码器模型

基于Transformer的编码器-解码器模型最初在Vaswani等人(2017)的论文中提出,并最近引起了广泛的关注,例如Lewis等人(2019),Raffel等人(2019),Zhang等人(2020),Zaheer等人(2020),Yan等人(2020)。 与BERT和GPT2类似,大规模预训练的编码器-解码器模型已经显示出在各种序列到序列任务上显著提升性能(Lewis等人,2019;Raffel等人,2019)。然而,由于预训练编码器-解码器模型所需的巨大计算成本,这类模型的开发主要局限于大型公司和研究机构。 在《利用预训练检查点进行序列生成任务》(2020)一文中,Sascha Rothe、Shashi Narayan和Aliaksei Severyn使用预训练的编码器和/或解码器检查点(如BERT、GPT2)初始化编码器-解码器模型,跳过了昂贵的预训练过程。作者表明,这种热启动的编码器-解码器模型在训练成本的一小部分情况下,能够产生与T5和Pegasus等大规模预训练编码器-解码器模型相竞争的结果,适用于多个序列到序列任务。 在本笔记本中,我们将详细解释如何热启动编码器-解码器模型,并根据Rothe等人(2020)提供实用提示,最后通过一个完整的代码示例展示如何使用🤗Transformers来热启动编码器-解码器模型。 本笔记本分为4个部分: 介绍 – 简要介绍NLP中的预训练语言模型以及热启动编码器-解码器模型的需求。 热启动编码器-解码器模型(理论) – 对编码器-解码器模型如何进行热启动进行说明。 热启动编码器-解码器模型(分析) – 《利用预训练检查点进行序列生成任务》的总结 哪些模型组合对于热启动编码器-解码器模型有效?它在不同任务中有何不同? 使用🤗Transformers热启动编码器-解码器模型(实践) – 完整的代码示例,详细展示如何使用EncoderDecoderModel框架来热启动基于Transformer的编码器-解码器模型。 强烈推荐(可能甚至是必须的)阅读有关基于Transformer的编码器-解码器模型的博客文章。 让我们从对热启动编码器-解码器模型的背景介绍开始。 介绍 最近,预训练语言模型1…

Leave a Comment

高效的表格预训练无需真实数据:TAPEX简介

近年来,通过利用大规模文本数据,语言模型预训练取得了巨大的成功。通过使用诸如掩码语言建模等预训练任务,这些模型在多个下游任务上展现出了出色的性能。然而,预训练任务(例如语言建模)和下游任务(例如表格问答)之间的巨大差距使得现有的预训练效率还不够高。在实践中,我们经常需要大量的预训练数据才能获得令人满意的改进,即使是针对域自适应预训练也是如此。我们如何设计一个预训练任务来缩小这个差距,从而加速预训练呢? 概述 在《TAPEX: 通过学习神经SQL执行器进行表格预训练》中,我们探索了在预训练期间使用合成数据作为真实数据的代理,并以TAPEX(通过执行进行表格预训练)作为示例展示其强大性能。在TAPEX中,我们展示了通过在合成语料库上学习神经SQL执行器来实现表格预训练的方法。 注意:[Table]是输入中用户提供的表格的占位符。 如上图所示,TAPEX通过系统化地采样可执行的SQL查询及其在表格上的执行结果,首先合成了一个合成且非自然的预训练语料库。然后,它继续预训练语言模型(例如BART),以输出SQL查询的执行结果,这模拟了神经SQL执行器的过程。 预训练 下图说明了预训练过程。在每一步中,我们首先从网页上获取一个表格。示例表格是关于奥运会的。然后,我们可以采样一个可执行的SQL查询SELECT City WHERE Country = France ORDER BY Year ASC LIMIT 1。通过一个现成的SQL执行器(例如MySQL),我们可以获得查询的执行结果Paris。类似地,通过将SQL查询和扁平化的表格的连接作为输入,输入到模型(例如BART编码器),执行结果作为模型的监督(例如BART解码器)的输出。 为什么要使用SQL查询这样的程序而不是自然语言句子作为预训练的源呢?最大的优点是相较于无法控制的自然语言句子,程序的多样性和规模可以得到系统地保证。因此,我们可以通过采样SQL查询轻松合成多样、大规模且高质量的预训练语料库。 您可以在下面使用训练好的神经SQL执行器🤗 Transformers: from transformers import…

Leave a Comment

Graphcore和Hugging Face推出新的IPU-Ready Transformers产品线

Graphcore和Hugging Face显著扩展了Hugging Face Optimum中可用的机器学习模态和任务范围,这是一个用于优化Transformer性能的开源库。开发人员现在可以方便地访问各种现成的Hugging Face Transformer模型,并经过优化以在Graphcore的IPU上提供最佳性能。 在Optimum Graphcore推出后不久推出的BERT Transformer模型,开发人员现在可以访问包括自然语言处理(NLP)、语音和计算机视觉在内的10个模型,这些模型配有IPU配置文件以及准备好的预训练和微调模型权重。 新的Optimum模型 计算机视觉 ViT(Vision Transformer)是图像识别的突破性技术,它使用Transformer机制作为其主要组件。当图像输入到ViT中时,它们被划分为小块,类似于语言系统中处理单词的方式。每个块都由Transformer(嵌入)进行编码,然后可以单独处理。 自然语言处理(NLP) GPT-2(生成型预训练Transformer 2)是一个在大规模英语语料库上进行自我监督预训练的文本生成Transformer模型。这意味着它仅在原始文本上进行预训练,没有以任何方式对其进行人工标记(这就是为什么它可以使用大量公开可用的数据),它使用自动化过程从这些文本中生成输入和标签。更准确地说,它通过猜测句子中下一个单词来训练生成文本。 RoBERTa(鲁棒优化BERT方法)是一个在大规模英语语料库上进行自我监督预训练的Transformer模型,类似于GPT-2。更准确地说,RoBERTa使用了掩码语言建模(MLM)目标进行预训练。给定一个句子,模型会随机掩盖输入中的15%单词,然后将整个掩码句子输入模型,并预测掩盖的单词。RoBERTa可以用于掩码语言建模,但主要用于在下游任务上进行微调。 DeBERTa(具有解耦注意力的解码增强BERT)是用于NLP任务的预训练神经语言模型。DeBERTa使用两种新颖技术(解耦注意力机制和增强掩码解码器)对2018年的BERT和2019年的RoBERTa模型进行了改进,显著提高了模型的预训练效率和下游任务的性能。 BART是一个具有双向(类似BERT)编码器和自回归(类似GPT)解码器的Transformer编码器-解码器(seq2seq)模型。BART通过(1)使用任意的噪声函数破坏文本和(2)学习一个模型来重构原始文本进行预训练。BART在文本生成(例如摘要、翻译)的微调上特别有效,但在理解任务(例如文本分类、问答)上也表现良好。 LXMERT(从Transformer中学习跨模态编码器表示)是用于学习视觉和语言表示的多模态Transformer模型。它有三个编码器:对象关系编码器、语言编码器和跨模态编码器。它是通过一系列任务进行预训练,包括掩码语言建模、视觉-语言文本对齐、ROI特征回归、掩码视觉属性建模、掩码视觉对象建模和视觉问答目标。它在VQA和GQA视觉问答数据集上取得了最先进的结果。 T5(文本到文本转换Transformer)是一个革命性的新模型,可以将任何文本转换为用于翻译、问答或分类的机器学习格式。它引入了一个统一的框架,将所有基于文本的语言问题转换为文本到文本格式的迁移学习。通过这样做,它简化了在各种NLP任务中使用相同的模型、目标函数、超参数和解码过程的方式。 语音 HuBERT(隐藏单元BERT)是一个在音频上进行自我监督语音识别预训练的模型,它学习了连续输入上的声学和语言模型的组合。HuBERT模型在Librispeech(960h)和Libri-light(60,000h)基准测试中,使用10分钟、1小时、10小时、100小时和960小时的微调子集,要么与现有的wav2vec 2.0性能相匹配,要么有所改进。 Wav2Vec2是一个用于自动语音识别的预训练自我监督模型。Wav2Vec2使用一种新颖的对比预训练目标,从大量无标签的语音数据中学习强大的语音表示,然后在少量转录语音数据上进行微调,优于最佳的半监督方法,而且概念上更简单。…

Leave a Comment

Can't find what you're looking for? Try refining your search: