由于人工智能(AI)的出现,文字内容创作发生了根本性的变化。越来越多的人使用AI内容生成器,因为它们可以快速有效地产生高质量内容。以下是目前最好的几款人工智能内容生成器: Jasper Jasper 是一个生成型AI平台,可帮助生成特定品牌的内容。它包含50多个模板,涵盖各种内容类别,从社交网络账号到产品描述不等。用户只需通过三个简单的步骤来创建内容:选择一个模板,填写必要的数据,如标题、语气和描述,修改输出参数,然后点击生成。 Rytr Rytr 是一款热门的AI写作助手。用户只需选择使用场景并提供上下文信息,Rytr 就会神奇地为他们写作。它可以在几秒钟内自动生成吸引人、独特、高效的作品,适用于各种语气和语言的博客、电子邮件和广告文案。 Copysmith Copysmith 是一款适用于创建简短材料(如标语、产品描述和广告文案)的AI内容生成器。Copysmith 根据使用情况生成材料。用户可以自动编辑、改进或延长短语,甚至可以生成批量内容。 Frase 借助 Frase AI,用户可以快速进行深入的关键词研究,创建高质量的SEO内容并进行优化。为了帮助文章排名更高,其内置的优化功能会根据SEO提供关键词建议。AI 写作工具使用户可以撰写几个短语,然后将其扩展为段落,或者可以使用它自动生成基于模板的完整文本。 Copy.ai Copy.ai 是一款基于AI的内容生成器,可以用多种语言为电子邮件、广告、社交媒体帖子等生成内容。用户可以选择符合要求的模板,比如Instagram标题、列表式文章或冷邮件,它将生成内容。虽然专业版每月售价36美元,包括所有功能和无限字数,但在某些功能受限的情况下可以免费使用。 Articoolo Articoolo 是一款基于人工智能的内容生成器,可以在几分钟内生成任何主题的文章。如果问题可以用两到五个词充分表达,它的系统可以根据用户选择的主题生成一篇长达500字的文章。 Article Forge…
Leave a CommentTag: Applications
姿势、眼神、面部表情、手势等,统称为“肢体语言”,一直是许多学术研究的课题。准确记录、解读和创建非言语信号可以极大地增强遥感、增强现实(AR)和虚拟现实(VR)环境中人物形象的逼真程度。 现有的最先进的人物形象模型,如SMPL系列中的模型,可以正确地描绘出逼真姿势中不同的人体形态。然而,它们受到其使用的基于网格的表示和3D网格质量的限制。此外,这类模型通常只模拟裸体,不包含服装和头发,从而降低了结果的逼真度。 他们介绍了X-Avatar,这是一种创新模型,可以在数字化人物形象中捕捉到人类表情的完整范围,以创建逼真的遥感、增强现实和虚拟现实环境。X-Avatar是由瑞士苏黎世联邦理工学院(ETH Zurich)和微软(Microsoft)研究人员开发的一种富有表现力的隐式人类人物模型。它可以捕捉高保真度的人体和手部动作、面部情绪和其他外貌特征。该技术可以从完整的3D扫描或RGB-D数据中学习,生成身体、手部、面部情绪和外貌的综合模型。 研究人员提出了一种部位感知的学习前向蒙皮模块,可以通过SMPL-X参数空间控制,实现X-Avatar的富有表现力的动画。研究人员提出了独特的部位感知采样和初始化算法,以有效地训练神经形状和变形场。研究人员通过一个纹理网络,根据位置、面部表情、几何形状和变形表面的法线来增强几何和变形场,以捕捉具有高频细节的人物外貌。这样可以提高细小身体部位的保真度,同时在关节骨骼数量增加的情况下保持训练的有效性。研究人员凭经验证明,该方法在动画任务上相对于强基线模型在数据领域和质量方面取得了更优秀的定量和定性结果。 研究人员提出了一个名为X-Humans的新数据集,其中包含来自20个受试者的233个高质量纹理扫描序列,共计35,500个数据帧,以促进对表达人物形象的研究。X-Avatar提供了一种以关节神经隐式表面为特征的人体模型,适应着穿着衣物的个体的多样拓扑结构,并实现了更好的几何分辨率和整体外貌的保真度。研究的作者定义了三个不同的神经场:一个用于使用隐式占据网络建模几何形状,另一个用于使用学习的前向线性混合蒙皮(LBS)建模变形,具有连续的蒙皮权重,第三个用于使用RGB颜色值建模外貌。 X-Avatar模型可以接受3D姿势扫描或RGB-D图像进行处理。其设计的一部分包括一个用于在规范空间中建模几何形状的塑形网络,以及一个使用学习的线性混合蒙皮(LBS)建立规范和变形区域之间对应关系的变形网络。 研究人员从SMPL-X的参数空间开始,这是一种捕捉全身人物形状、外貌和变形的SMPL扩展,特别关注手部位置和面部情绪,以生成富有表现力和可控的人类人物形象。以关节神经隐式表面来描述人体模型,代表着穿着衣物的个体的各种拓扑结构。同时,一种独特的部位感知初始化方法通过提高对细小身体部位的采样率,极大地增强了结果的逼真度。 结果表明,X-Avatar可以准确记录人体和手部姿势,以及面部情绪和外貌,从而可以创造出更具表现力和逼真的人物形象。这个倡议的团队衷心希望他们的方法可以激发更多的研究,赋予人工智能更多的个性。 使用的数据集 高质量纹理扫描和SMPL[-X]注册;20个受试者;233个序列;35,427个帧;身体姿势+手势+面部表情;各种服装和发型选择;各个年龄段 特点 有几种方法可以教授X-Avatars。 训练中使用的3D扫描图像,右上方。底部:测试姿势驱动的人物形象。 教学目的使用的RGB-D信息,顶部。测试姿势的人物形象表现较差。 该方法在动画测试中恢复了更好的手部灵活性和面部表情,超过了其他基线模型。这导致使用PyMAF-X从单眼RGB影片中恢复的运动进行动画化的X-Avatars。 限制 X-Avatar在模拟露肩上衣或裤子(例如,裙子)时存在困难。然而,研究人员通常只对每个主题训练一个模型,因此他们在单个个体之外的泛化能力仍然需要扩展。 贡献 X-Avatar是第一个全面捕捉身体姿势、手势、面部情绪和外观的富有表现力的隐式人类化身模型。 考虑底层结构的初始化和采样过程提高了输出质量并保持了训练效率。 X-Humans是一个全新的数据集,包含20个人的233个序列,总共有35,500帧高质量纹理扫描,显示了各种身体、手势和面部情绪。 X-Avatar在捕捉身体姿势,手势,面部情绪和整体外观方面无与伦比。研究人员使用最近发布的X-Humans数据集展示了该方法的效果。
Leave a Comment视觉变压器(ViT)因其简单性、灵活性和可扩展性而快速取代基于卷积的神经网络。图片被分割成补丁,并且每个补丁被线性投影到一个令牌上,构成了这个模型的基础。输入照片通常被划分为一组固定数量的补丁,然后再使用。 最近的研究发表了对这个模型的潜在改进:FlexiViT允许连续的序列长度范围,因此通过在单个设计中适应不同的补丁尺寸来计算成本。这是通过在每次训练迭代中随机选择补丁尺寸,并使用缩放技术来适应初始卷积嵌入中的多个补丁尺寸来实现的。Pix2Struct的替代补丁方法,保持了纵横比,对于图表和文档理解等任务非常有价值。 NaViT是谷歌研究人员开发的一种替代方法。Patch n’ Pack是一种技术,它允许在保持纵横比的同时改变分辨率,通过将来自不同图像的许多补丁打包到一个序列中。这个想法基于“示例打包”,这是一种在自然语言处理中使用的技术,通过将多个实例合并成一个序列来高效训练具有不同长度输入的模型。科学家们发现,随机采样分辨率可以显著减少训练时间。NaViT在广泛的解决方案范围内实现了出色的性能,便于在推理时平滑地权衡成本和性能,并且可以以较低的成本轻松适应新的任务。 从示例打包所实现的固定批次形状中出现了像保持纵横比的解析率采样、可变的令牌丢弃率和自适应计算等研究思路。 NaViT在预训练期间的计算效率尤为令人印象深刻,并在微调过程中持续存在。成功地将单个NaViT应用于不同的分辨率,可以在性能和推理成本之间实现平滑的权衡。 在训练和操作过程中将数据输入深度神经网络是常见的实践。因此,计算机视觉应用必须使用预定的批次大小和几何形状,以确保在现有硬件上获得最佳性能。由于这个原因和卷积神经网络固有的架构限制,将图像调整大小或填充到预定大小已经成为常见的做法。 虽然NaViT基于原始的ViT,但理论上可以使用任何可以处理补丁序列的ViT变种。研究人员对ViT进行了以下结构性改变以支持Patch n’ Pack。Patch n’ Pack是一种将序列打包应用于视觉变换器的简单方法,它显著提高了训练效率,这已经被研究界证明过。由此产生的NaViT模型具有灵活性,易于适应新的任务,而不会造成巨大的成本开销。自适应计算和提高训练和推理效率的新算法的研究只是Patch n’ Pack所带来的可能性的两个例子,而这些以前因需要固定的批次形式而受到限制。他们还认为NaViT对ViT来说是朝着正确方向迈出的一步,因为它代表了大多数计算机视觉模型的传统CNN设计输入和建模流程的改变。
Leave a Comment文本到图像模型最近发展迅速,其中大部分进展都集中在文本到图像模型上。这些模型可以使用给定的文本提示生成逼真的图像。 图像生成只是这个领域研究的一个组成部分。虽然它是一个重要方面,但还有其他文本到其他模型在不同应用中起着关键作用。例如,文本到视频模型旨在根据给定的文本提示生成逼真的视频。这些模型可以显著加快内容准备过程。 另一方面,文本到3D生成已经成为计算机视觉和图形领域的关键技术。虽然仍处于初级阶段,但从文本输入生成逼真的3D模型的能力引起了学术研究人员和行业专业人士的极大兴趣。这项技术在革新各个行业方面具有巨大潜力,多学科的专家们正在密切关注其持续发展。 神经辐射场(NeRF)是一种最近引入的方法,它允许从一组2D图像或稀疏的3D点集合中高质量地渲染复杂的3D场景。已经提出了几种方法将文本到3D模型与NeRF相结合,以获得更加逼真的3D场景。然而,它们经常出现扭曲和伪影,并对文本提示和随机种子敏感。 特别是3D不连贯问题是一个常见问题,渲染的3D场景在不同视点上多次产生属于正面视图的几何特征,导致3D场景产生严重扭曲。这种失败是由于2D扩散模型对3D信息的缺乏意识,特别是相机姿态造成的。 如果有一种方法可以将文本到3D模型与NeRF的进步相结合,以获得逼真的3D渲染,那会怎么样?是时候见识一下3DFuse了。 3DFuse管道概述。来源:https://ku-cvlab.github.io/3DFuse/ 3DFuse是一种中间方法,它将预训练的具有3D意识的2D扩散模型与3D一致的NeRF优化相结合,使其适用于3D一致性的渲染。它有效地将3D意识注入预训练的2D扩散模型中。 3DFuse从采样语义代码开始,以加快生成场景的语义识别。这个语义代码实际上是生成的图像和给定的文本提示,用于扩散模型。一旦完成了这一步骤,3DFuse的一致性注入模块会接收这个语义代码,并通过为给定视点投影粗糙的3D几何来获得特定于视点的深度图。他们使用现有模型来实现这个深度图。然后,深度图和语义代码被用来将3D信息注入扩散模型中。 3DFuse概述。来源:https://ku-cvlab.github.io/3DFuse/ 问题在于预测的3D几何容易出现错误,这可能会改变生成的3D模型的质量。因此,在进一步进行管道之前,应该解决这个问题。为了解决这个问题,3DFuse引入了一种稀疏深度注入器,它隐式地知道如何纠正有问题的深度信息。 通过提取生成3D一致图像的扩散模型的分数,3DFuse稳定地优化了NeRF以实现视图一致的文本到3D生成。该框架在生成质量和几何一致性方面取得了显著的改进。
Leave a Comment大型语言模型风靡了人工智能社区。它们最近的影响帮助了医疗、金融、教育、娱乐等多个行业的发展。众所周知的大型语言模型,例如GPT、DALLE和BERT,执行了非凡的任务,改善了生活。DALLE 2可以根据简单的文本描述创建图像,GPT-3可以写出优秀的文章,完成代码,总结长篇文本段落,像人类一样回答问题,并仅凭一个简短的自然语言提示生成内容。这些模型正在帮助人工智能和机器学习迅速进行范式转变。 最近,一支研究团队推出了LMQL,一种开源的编程语言和语言模型交互平台。LMQL是Language Model Query Language的缩写,通过结合提示、约束和脚本,改进了大型语言模型(LLM)的能力。作为一种基于Python的声明性SQL语言,LMQL通过控制流、约束引导解码和工具增强,扩展了静态文本提示的功能。借助这种类型的脚本,LMQL可以用很少的代码简化多部分提示流程。 研究人员使用LMQL实现了LMP(Language Model Programming),将语言模型提示从纯文本提示扩展到文本提示和脚本的组合。LMQL从LMP提示中提取约束和控制流,生成高效的推理过程。这些超逻辑和高级约束通过一些评估语义转换为令牌掩码,并在生成过程中严格执行。 团队推出了LMQL,以避免重新查询和验证生成的文本所带来的高成本。这可以帮助LMQL在第一次尝试时生成更接近所需输出的文本,而无需后续迭代。此外,LMQL约束允许用户根据其期望的规范引导或控制文本生成过程,例如确保生成的文本遵循某些语法规则,或避免使用特定的单词或短语。 研究人员提到了LMQL如何捕捉一系列先进的提示方法,如交互式流程,这些方法在现有API中很难实现。评估结果显示,LMQL在许多下游任务上保持或提高了准确性,同时显著降低了计算或使用付费API的成本,节省了13-85%的费用。 LMQL可以简洁明了地表达各种常见和高级提示技术。它与Hugging Face的Transformers、OpenAI API和Langchain集成。相关的开发资源可在lmql.ai上获得,并提供基于浏览器的Playground IDE供实验使用。 总之,LMQL似乎是一个有前途的发展,因为评估表明,LMQL是一个强大的工具,可以提高语言模型编程的效率和准确性。它可以让用户在更少的资源下实现他们期望的结果。
Leave a Comment人工智能近年来取得了巨大的进步。其中,大型语言模型的引入引起了广泛关注,因为它具有令人难以置信的模仿人类能力。这些模型不仅在语言处理方面取得了成功,还在计算机视觉领域取得了成就。尽管AI系统在自然语言处理和可控图像生成方面取得了显著成就,但包括通用图像分割在内的像素级图像理解领域仍存在一定的局限性。 图像分割是将图像分割为不同部分的技术,取得了很大的改进,但要创建一个能处理不同粒度的各种图像的通用图像分割模型仍在讨论中。在该领域取得进展的两个主要挑战是充足的训练数据的可用性和模型设计的灵活性限制。现有方法通常使用单输入、单输出的流水线,无法预测不同粒度的分割掩码并处理不同的细节级别。此外,扩展既具有语义知识又具有粒度知识的分割数据集是昂贵的。 为了解决这些限制,一个研究团队提出了Semantic-SAM,一种基于用户输入的通用图像分割模型,可以在任意所需的粒度上对对象进行分割和识别。该模型能够为对象和部分提供语义标签,并根据用户的点击预测不同粒度的掩码。Semantic-SAM的解码器架构采用了多选择学习策略,使模型具备处理多个粒度的能力。每个点击由多个查询表示,每个查询具有不同的嵌入级别。这些查询通过与不同粒度的真实掩码学习。 该团队分享了Semantic-SAM如何通过使用解耦的部件和对象分类策略来解决语义意识问题。该模型使用共享的文本编码器分别对对象和部件进行编码,从而实现不同的分割过程,并根据输入类型调整损失函数。这种策略确保了模型能够处理来自SAM数据集(该数据集缺少一些分类标签)以及来自通用分割数据的数据。 该团队结合了七个代表不同粒度的数据集,以增强语义和粒度,包括SA-1B数据集、部分分割数据集如PASCAL Part、PACO和PartImagenet,以及通用分割数据集如MSCOCO和Objects365。数据格式已重新调整以符合Semantic-SAM的训练目标。 经过评估和测试,Semantic-SAM表现出比现有模型更优异的性能。当与交互式分割技术(如SA-1B可提示分割和COCO全景分割)结合使用时,性能显著提高。该模型实现了惊人的2.3个框AP增益和1.2个掩码AP增益。在粒度完整性方面,它比SAM表现更好,超过3.4个1-IoU。 Semantic-SAM绝对是图像分割领域的创新进展。该模型通过融合通用表示、语义意识和粒度丰富性,为像素级图像分析创造了新的机会。
Leave a Comment生成式人工智能在计算机视觉领域引起了广泛的关注。最近在文本驱动的图像和视频合成方面取得的进展,例如文本到图像(T2I)和文本到视频(T2V),借助扩散模型的出现,展示了卓越的保真度和生成质量。这些进展展示了相当大的图像和视频合成、编辑和动画潜力。然而,合成的图像/视频与完美仍有很大差距,特别是对于人类中心的应用,如人类舞蹈合成。尽管人类舞蹈合成有着悠久的历史,但现有方法在合成内容与真实舞蹈场景之间存在很大的差距。 从生成对抗网络(GANs)时代开始,研究人员尝试扩展视频到视频的风格转移,将舞蹈动作从源视频转移到目标个体,这通常需要对目标人员进行人员特定的微调。 最近的一系列工作利用预先训练的基于扩散的T2I/T2V模型,根据文本提示生成舞蹈图像/视频。这种粗粒度的条件极大地限制了可控性的程度,使用户几乎不可能精确指定预期的主题,即人类外观,以及舞蹈动作,即人类姿势。 虽然引入了ControlNet部分缓解了这个问题,通过将几何人体关键点的姿势控制与之结合,但由于其依赖于文本提示,ControlNet如何确保参考图像中丰富的语义一致性,如人类外观,仍然不清楚。此外,几乎所有现有方法都是在有限的舞蹈视频数据集上进行训练,要么具有有限的主题属性,要么具有过于简单的场景和背景。这导致对未见过的人物主题、姿势和背景组合的零样本泛化能力较差。 为了支持用户特定的短视频内容生成等实际应用,人类舞蹈生成必须符合真实舞蹈场景。因此,期望生成模型能够根据以下属性合成人类舞蹈图像/视频:保真度、泛化能力和组合性。 生成的图像/视频应通过保留与参考图像一致的人类主题和背景外观,同时准确遵循提供的姿势来展现保真度。该模型还应展示泛化能力,即在不需要人员特定微调的情况下处理未见过的人类主题、背景和姿势。最后,生成的图像/视频应展示组合性,允许从不同的图像/视频中选择任意组合的人类主题、背景和姿势。 在这方面,提出了一种新颖的名为DISCO的方法,用于在真实场景中生成人类舞蹈。该方法的概述如下图所示。 https://arxiv.org/abs/2307.00040 DISCO采用两个关键设计:一种具有分离控制的新颖模型架构,用于提高保真度和组合性,以及一种名为人类属性预训练的预训练策略,用于提高泛化能力。DISCO的新颖模型架构确保生成的舞蹈图像/视频能够忠实地捕捉所需的人类主题、背景和姿势,同时允许这些元素的灵活组合。此外,分离控制增强了模型维持忠实表示和适应多样组合的能力。此外,DISCO采用人类属性预训练策略增强模型的泛化能力。这种预训练技术赋予模型处理未见过的人类属性的能力,使其能够生成超越训练数据限制的高质量舞蹈内容。总体而言,DISCO提供了一个综合的解决方案,将复杂的模型架构与创新的预训练策略结合起来,有效解决了真实场景中人类舞蹈生成的挑战。 以下展示了生成的图像/视频以及与人类舞蹈生成的最先进技术的比较。 https://arxiv.org/abs/2307.00040 这是关于DISCO的摘要,一种生成人类舞蹈的新型人工智能技术。如果您感兴趣并想了解更多关于这项工作的信息,可以通过下面的链接找到更多信息。
Leave a CommentDeepSwap DeepSwap是一个基于人工智能的工具,适用于任何想要创建令人信服的深度伪造视频和图像的人。通过重新面向视频、图片、表情包、旧电影、GIF等方式,创建您的内容非常简单。该应用程序没有内容限制,因此用户可以上传任何内容的材料。此外,您还可以首次成为产品的订阅用户,享受50%的折扣。 Docktopus AI Docktopus是一种由AI驱动的演示工具,通过100多个可自定义的模板简化在线内容的创建,让用户能够在几秒钟内创建专业演示文稿。 Promptpal AI Promptpal AI帮助用户发现获取AI模型(如ChatGPT)最大利益的最佳提示。 Quinvio AI Quinvio是一种AI视频制作工具,可以通过直观的编辑器、AI辅助写作和选择AI发言人的选项快速制作视频演示。 Ask your PDF AskYourPdf是一种AI聊天机器人,可帮助用户轻松与PDF文档进行交互并提取洞见。 Supernormal AI Supernormal是一种AI工具,可以自动创建会议记录,每次会议可节省5-10分钟。 Suggesty Suggesty由GPT-3驱动,为Google搜索提供类似人类的答案。 ChatGPT Sidebar ChatGPT Sidebar是一款ChatGPT…
Leave a Comment自从大规模的OT和Wasserstein GANs出现以来,机器学习越来越倾向于使用神经网络来解决最优传输(OT)问题。最近,OT计划被证明可作为具有可比实际任务性能的生成模型使用。OT成本通常被计算并用作生成模型中生成器更新的损失函数。 人工智能研究所(AIRI)和斯科尔科技学院合作开发了一种利用神经网络优化跨学科信息共享的新算法。该算法的理论基础使其输出更易于理解,而不像竞争方法那样需要耦合训练数据集,如输入-输出示例,这种新方法可以在输入和输出领域的不同数据集上进行训练。 大规模训练数据集很难获得,但对于面部或语音识别以及医学图像分析等应用构建的现代机器学习模型来说是必要的。这就是为什么科学家和工程师经常通过人工手段模拟真实世界数据集的原因。生成模型的最新进展大大提高了生成文本和图像的质量,因此这项工作变得更加容易。 神经网络被教导从配对的训练样本和输入-输出图像集泛化和扩展到新的输入图像;这对于需要处理许多质量不同的相同照片的工作非常有用。换句话说,生成模型通过合成来自不同数据的数据,促进了从一个领域到另一个领域的过渡。例如,神经网络可以将手绘图转换为数字图像,或者改善卫星照片的清晰度。 将概率分布与确定性和随机传输映射对齐是该技术的独特应用,它是一种通用工具。该方法将增强非配对翻译(图像恢复,域适应性等)以外的现有模型。与基于GAN或扩散模型的常见方法相比,该方法允许更好地控制生成样本的多样性水平,并提高了学习映射的可解释性。研究人员可能需要修改所获得的OT映射以适应非配对活动。研究人员强调了某些任务的运输成本设计作为一个潜在的研究领域。 最优传输和生成学习的交集是所选择方法的核心。娱乐、设计、计算机图形学、渲染等领域广泛使用生成模型和高效的传输。上述领域中的几个问题可能适用于该方法。可能的缺点是,一些图形业务中的职业可能会受到先前工具的使用的影响,这些工具使图像处理技术公开可用。 由于成本过高或获取困难,研究人员通常不得不使用不相关的数据集,而不是理想的匹配数据集。团队回顾了苏联数学家和经济学家列昂尼德·坎托罗维奇的著作,借鉴了他关于有效货物运输(最优传输理论)的思想,以开发一种在领域之间规划最优数据传输的新方法。神经最优传输是一种使用深度神经网络和分开的数据集的新方法。 在非配对领域转换评估中,该算法在图片风格化和其他任务上实现了比现有方法更好的结果。此外,它需要较少的超参数,通常很难调整,具有更可解释的结果,并且基于坚实的数学基础而不是竞争方法。
Leave a Comment随着数字文本信息在一般和医疗领域中的数量急剧增加,对有效和准确的文本摘要模型的需求也在增加。文本摘要涉及将一篇冗长的写作压缩成简明的概述,同时保留材料的意义和价值。这已经成为自然语言处理(NLP)研究的重点已经很长时间了。 引入神经网络和深度学习技术,特别是使用编码器-解码器结构的序列到序列模型进行摘要生成,已经传达出积极的结果。与基于规则和统计的方法相比,这些方法生成的摘要更加自然和上下文适用。由于需要保留这些结果的上下文和关联特征以及在治疗环境中精确度的要求,这一努力变得更加困难。 研究人员使用ChatGPT来总结放射学报告,并对其进行了改进。为了充分利用ChatGPT的上下文学习能力,并通过交互不断改进它,研究人员开发并实施了一种新颖的迭代优化方法,使用快速工程学。更准确地说,我们采用相似性搜索算法来构建一个动态提示,其中包含语义上和临床上可比较的现有报告。ChatGPT通过这些并行报告进行训练,以理解类似成像表现的文本描述和摘要。 主要贡献 相似性搜索使得能够使用稀疏数据对语言模型(LLM)进行上下文学习。通过识别语料库中最可比较的案例,开发了一个包含LLM最相关数据的动态提示。 我们为迭代优化技术创建了一个动态提示系统。迭代提示首先评估LLM生成的回复,然后在后续迭代中提供更多指导。 一种利用领域特定信息的新方法来调整LLM。建议的方法可以在需要快速和有效地从现有LLM开发领域特定模型时使用。 方法 变量提示 动态样本使用语义搜索来获取与输入放射学报告相似的报告语料库中的示例;最终查询由相同的预定义查询与测试报告的“发现”部分组成,任务描述描述了角色。 迭代优化 通过迭代优化组件可以完成一些很酷的事情。这种方法的目标是通过使用迭代提示使ChatGPT逐步改进其答案。对于放射学报告摘要等重要应用来说,这也需要一种响应审查过程来检查回复的质量。 通过基于少量训练样本和迭代方法改进输入提示来研究使用大型语言模型(LLMs)进行放射学报告摘要的可行性。通过挖掘语料库中的合适实例,以在上下文中学习LLMs,然后用于提供交互提示。为了进一步提高输出,使用了一种迭代优化技术。该过程包括根据自动评估反馈教授LLM什么是好的和负面的回复。与使用大量医学文本数据进行预训练的其他方法相比,我们的策略已经证明更优越。在现代通用人工智能中,这项工作也为构建更多领域特定语言模型奠定了基础。 在研究ImpressionGPT的迭代框架时,我们意识到评估模型输出回复的质量是一项重要但困难的任务。研究人员假设,用于训练LLMs的领域特定和通用领域文本之间的巨大差异导致了观察到的评分差异。因此,通过使用细粒度的评估指标来检查获得的结果的具体细节。 为了更好地包含来自公共和本地数据源的领域特定数据,我们将在未来继续优化快速设计,同时解决数据隐私和安全问题,尤其是在处理许多组织时。我们还考虑使用知识图谱来使提示设计适应当前的领域知识。最后,我们计划将医学专家(如放射科医生)纳入到优化提示和对系统提供的结果提供客观反馈的迭代过程中。通过结合人类专家在开发LLMs过程中的判断和观点,我们可以得到更精确的结果。
Leave a Comment生成式人工智能的惊人增长引发了图片生成方面的令人着迷的进展,利用DALL-E、Imagen和Stable Diffusion等技术,可以根据文本提示创建出色的图像。这一成就可能不仅局限于2D数据。最近DreamFusion展示了文本到图像生成器可以用于创建高质量的3D模型,尽管生成器缺乏3D训练,但有足够的数据来重建3D形状。本文阐述了如何通过文本到图像生成器获得更多,并获得多个3D物体类型的关节模型。 也就是说,他们不是试图创建单个3D资产(DreamFusion),而是希望创建整个类别的关节3D物体的统计模型(如牛、羊和马),该模型可以用于从单个图像(无论是真实的还是数字化的)创建可用于增强现实/虚拟现实、游戏和内容创作的动画化的3D资产。他们通过训练一个可以根据物体的单张照片预测关节3D模型的网络来解决这个问题。为了引入这样的重建网络,先前的工作一直依赖于真实数据。然而,他们提出使用使用2D扩散模型(如Stable Diffusion)生成的合成数据。 牛津大学视觉几何组的研究人员提出了Farm3D,它是DreamFusion、RealFusion和Make-a-video-3D等3D生成器的一个补充,这些生成器可以通过测试时间优化从文本或图像开始创建单个的3D静态或动态资产,需要数小时。这提供了几个优点。首先,2D图像生成器倾向于生成准确和完好的物体类别示例,从而隐式地筛选训练数据并简化学习过程。其次,通过2D生成器隐含地提供了每个给定物体实例的虚拟视图,进一步提供了对理解的澄清。第三,它通过消除收集(可能还需要审查)真实数据的要求,增加了方法的适应性。 在测试时,他们的网络以前馈方式从单张图像中进行重建,仅需几秒钟即可生成可操作的关节3D模型(例如,可以进行动画化、重新照明),而不是固定的3D或4D工件。他们的方法适用于合成和分析,因为重建网络仅在虚拟输入上进行训练,但能够推广到实际照片。可以将该方法应用于动物行为的研究和保护。Farm3D基于两个重要的技术创新。首先,他们展示了如何通过快速工程使Stable Diffusion产生大量通常干净的物体类别图片,以学习关节3D模型。其次,他们展示了如何将得分蒸馏采样(SDS)损失扩展到合成多视图监督,以训练照片几何自编码器,即MagicPony。为了创建同一物体的新人工视图,照片几何自编码器将物体分成多个方面,这些方面有助于图像形成(例如物体的关节形状、外观、相机视点和照明)。 这些合成视图被输入到SDS损失中,以获得渐变更新和反向传播到自编码器的可学习参数。他们对Farm3D进行了基于3D生成和修复能力的定性评估。由于Farm3D能够进行重建和创建,因此可以在语义关键点传输等分析任务上进行定量评估。尽管该模型不使用任何真实图像进行训练,从而节省了耗时的数据收集和筛选过程,但他们展示了与各种基准相当甚至更好的性能。
Leave a Comment密歇根大学的研究人员开发了一个名为Zeus的开源优化框架,用于解决深度学习模型的能源消耗问题。随着使用更大模型和更多参数的趋势增长,训练这些模型所需的能量需求也在增加。Zeus通过在训练过程中识别能源消耗和训练速度之间的最佳平衡来解决此问题,而无需进行任何硬件更改或新基础设施。 Zeus通过使用两个软件开关实现这一目标:GPU功率限制和深度学习模型的批大小参数。GPU功率限制控制GPU消耗的电量,批大小参数控制在更新模型对数据关系的表示之前处理多少个样本。通过实时调整这些参数,Zeus旨在最小化能源消耗,同时尽可能少地对训练时间产生影响。 Zeus设计用于与各种机器学习任务和GPU配合使用,并且可以在不更改硬件或基础设施的情况下使用。此外,研究团队还开发了名为Chase的补充软件,该软件可以通过在低碳能源可用时优先考虑速度,在高峰时段优先考虑效率来降低DNN训练的碳足迹。 研究团队的目标是开发出符合实际情况、能够减少DNN训练的碳足迹并不与大型数据集大小或数据规定等约束冲突的解决方案。虽然由于需要使用最新数据而不总是可以将训练工作推迟到更绿色的时间范围内,但Zeus和Chase仍然可以在不牺牲准确性的情况下提供显著的能源节约。 通过减少深度学习模型的能源需求,Zeus和Chase的开发是解决深度学习模型能源消耗问题的关键一步。研究人员可以在不影响训练时间的情况下展示出显著的能源节约,从而减轻人工智能对环境的影响并促进可持续实践。 总之,Zeus是一个开源优化框架,旨在通过识别能源消耗和训练速度之间的最佳平衡来减少深度学习模型的能源消耗。通过调整GPU功率限制和批大小参数,Zeus最小化能源使用,同时不影响准确性。Zeus可以与各种机器学习任务和GPU配合使用,而补充软件Chase可以降低DNN训练的碳足迹。Zeus和Chase的开发促进了人工智能领域的可持续实践,并减轻了其对环境的影响。
Leave a Comment最近的一项研究揭示了关于人工智能(AI)的一个令人不安的真相:用于检测论文、求职申请和其他形式工作的算法可能会无意中对非母语英语人士进行歧视。这种偏见的影响广泛,影响到学生、学者和求职者。由斯坦福大学生物医学数据科学助理教授詹姆斯·邹领导的这项研究揭示了AI文本检测器造成的令人震惊的差距。随着像ChatGPT这样的生成式AI程序的崛起,审查这些检测系统的准确性和公平性变得至关重要。 还阅读:No More Cheating! Sapia.ai实时捕捉AI生成的答案! AI文本检测器的意外后果 在学术诚信至关重要的时代,许多教育工作者认为AI检测是对抗现代作弊形式的重要工具。然而,该研究警告称,这些检测系统经常宣传的99%准确率是误导性的。研究人员敦促对AI检测器进行更仔细的检查,以防止对非母语英语人士的无意识歧视。 还阅读:Massive Stack Exchange Network因AI生成内容标记而罢工 测试揭示对非母语英语人士的歧视 为了评估流行的AI文本检测器的性能,邹和他的团队进行了一项严格的实验。他们提交了由非母语人士撰写的91篇英语作文,供七个知名的GPT检测器评估。结果令人震惊。超过一半的为托福(TOEFL)设计的作文被错误地标记为AI生成的。一个程序竟然将98%的作文分类为机器生成的。与之形成鲜明对比的是,当美国的母语英语八年级学生撰写的作文接受相同评估时,检测器正确地将超过90%的作文识别为人类撰写。 欺骗性的宣称:99%准确性的神话 研究中观察到的歧视结果源于AI检测器如何评估人类和AI生成文本之间的区别。这些程序依赖一种称为“文本困惑度”的指标,来衡量语言模型在预测句子中下一个单词时变得多么惊讶或困惑。然而,这种方法会对非母语人士产生偏见,因为他们通常使用更简单的词汇选择和熟悉的模式。像ChatGPT这样的大型语言模型,被训练成产生低困惑度的文本,无意中增加了将非母语英语人士错误地识别为AI生成的风险。 还阅读:AI-Detector将美国宪法标记为AI生成的 改写叙述:一个矛盾的解决方案 鉴于AI检测器的固有偏见,研究人员决定进一步测试ChatGPT的能力。他们要求该程序重写托福作文,运用更复杂的语言。令人惊讶的是,当这些修改后的作文接受AI检测器评估时,它们都被正确标记为人类撰写。这个矛盾的发现表明,非母语作者可能更广泛地使用生成式AI来规避检测。 还阅读:好莱坞作家罢工反对AI工具,称其为“剽窃机器” 对非母语作者的深远影响 该研究的作者强调了AI检测器对非母语作者造成的严重后果。大学和工作申请可能会被错误地标记为AI生成的,从而在在线上边缘化非母语讲者。像谷歌这样降低AI生成内容排名的搜索引擎进一步加剧了这个问题。在教育领域,GPT检测器应用最广泛,非母语学生面临更大的被错误指控作弊的风险。这对他们的学术生涯和心理健康是有害的。 还阅读:欧盟呼吁采取措施识别深度伪造和AI内容 超越AI:培养道德生成式AI的使用 塞浦路斯开放大学算法透明度研究中心的贾娜·奥特巴赫建议采取不同的方法来应对AI的潜在陷阱。她主张不仅仅依靠AI来应对与AI相关的问题,而是倡导一种培养道德和创造性利用生成式AI的学术文化。奥特巴赫强调,随着ChatGPT在基于公共数据的学习和适应,它最终可能会超过任何检测系统。 还阅读:OpenAI引入超级对齐:为安全和对齐的AI铺平道路…
Leave a Comment人工智能在几乎所有可能的领域都取得了显著的进展。它给创造力提供了翅膀,提升了分析和决策能力。在过去几个月中,生成式人工智能变得越来越受欢迎。从组织到人工智能研究人员,每个人都在探索生成式人工智能在产生独特和原创内容方面的巨大潜力,而且还可以在各个领域产生这些内容。 什么是生成式人工智能? 生成式人工智能是指使用算法来生成、操纵和合成数据的任何类型的过程。它可以解释为人工智能的一个子集,通过从现有数据中学习来生成新数据。新内容具有一定的创造力和独特特征,可以是图像或可读文本形式的数据,并生成之前不存在的内容。 生成式人工智能如何被使用? 生成式人工智能自引入以来一直在快速发展。大型语言模型(LLMs)的发展可以说是生成式人工智能突然增长的主要原因之一。LLMs是设计用于处理自然语言和生成类似人类回应的人工智能模型。OpenAI的GPT-4和Google的BERT是近年来取得重大进展的杰出示范,从聊天机器人和虚拟助手的开发到内容创作。生成式人工智能被应用于内容创作、虚拟助手的开发、人类模仿聊天机器人、游戏等领域。生成式人工智能也被应用于医疗保健行业,为患者生成个性化的治疗计划,提高医疗诊断的准确性等。 什么是MLOps? 随着每个公司都试图将AI ML的潜力融入其服务和产品中,MLOps变得越来越受欢迎。MLOps(机器学习运营)是机器学习工程的一个重要功能,主要关注将ML模型投入生产,并进行后续维护和监控的流程优化。它结合了DevOps和ML的特点,帮助组织以最少的资源和最高的效率设计稳健的ML流水线。 MLOps在提升生成式人工智能能力方面的优势 生成式人工智能的训练和部署模型的复杂性需要大量的计算资源和专用基础设施。与生成式人工智能结合使用时,MLOps可以通过提供一个管理生成式人工智能模型的开发和部署的优秀框架,以及自动化所涉及的流程来解决这些挑战。对于组织来改善基础设施,整合MLOps可以帮助它们在生成式人工智能应用中包括参数优化、自动化部署和扩展等功能而无需额外的人工成本。 MLOps为生成式人工智能提供的主要优势是效率、可扩展性和风险降低。除此之外,MLOps还可以在以下方面做出贡献: 数据管理:MLOps可以帮助管理用于训练生成式人工智能模型的大量数据,确保数据质量高、多样性,并符合所需领域的要求。 模型开发:MLOps可以在整个模型开发过程中提供帮助,包括训练、测试和验证,并提供版本控制、代码审核等工具。 部署:MLOps可以帮助自动化部署生成式人工智能模型,简化生产过程。 扩展:MLOps可以帮助处理不断增长的流量。包括提供管理基础设施和数据量的工具。 监控和维护:MLOps可以通过检测问题、检查性能异常等方式监控工作中的生成式人工智能模型的性能。 结论 由于更多数据的可用性、计算技术的进步以及生成独特和创新内容的能力,生成式人工智能正变得越来越受欢迎。通过引入MLOps,它可以在管理生成式人工智能模型的生命周期中发挥关键作用,从而充分发挥产品和应用的潜力。
Leave a Comment对于包括语言和代码翻译、组合思维和基本算术运算在内的各种下游任务,像GPT-3/4、PaLM和LaMDA这样的大型语言模型展示了通用功能,有时还会出现新的技能。也许令人惊讶的是,模型的训练目标通常是基于下一个标记的预测的自回归损失,它并没有直接编码这些目标。这些技能在早期的研究中已经深入探讨过,同时还探讨了它们在训练计算规模、数据类型和模型大小变化时的变化。然而,鉴于数据的复杂性和评估的工作范围,仍然很难分离这些因素。他们出于好奇,想要确定加速这些能力出现的主要因素,因为他们对于促使这些能力在下一个标记预测者中出现的因素感到好奇。 这些因素包括数据的格式和大小、模型的大小、预训练的存在以及提示的风格。他们的工作是在受控环境中进行的,以便更全面地分析这些参数。他们着重教授数学给小型Transformer模型,包括NanoGPT和GPT-2,在从随机初始状态进行训练时。他们使用常见的自回归下一个标记预测损失,从具有1060万参数的模型缩放到具有1.24亿参数的模型。来自UW Madison的研究人员旨在理解这些模型如何有效地学习加法、减法、乘法、平方根和正弦等基本数学运算,从而让我们对于如何引发新出现的才能有更深入的了解。他们在下面概述了他们的结论。 样本大小和数据格式都很重要。 首先,他们指出使用典型的加法样本(例如“A3A2A1 + B3B1B1 = C3C2C1”)来教授模型加法并不理想,因为它强迫模型首先评估结果的最高位C3,而这取决于两个加数的所有位数的集体。通过训练模型使用结果反转的样本(例如“A3A2A1 + B3B1B1 = C1C2C3”),可以让模型学习一个更简单的函数,这大大增加了样本的复杂性。进一步增强学习的是许多“变体”的样本,这些样本依赖于涉及的位数和进位。即使在这种简单的情况下,他们观察到训练数据量的增加会导致从0%到100%的准确性突变。出乎意料的是,他们指出完成低秩矩阵与从随机样本学习n位加法映射相似。由于这种联系,他们可以对这种阶段性变化提供逻辑上的解释。 认知流动数据的培训。 基于这些发现,他们研究了在培训过程中使用思维链数据的可能优势。这种格式使模型能够学习困难任务的不同元素,因为它包括逐步操作和中间输出。这种结构直接源自相关文献,例如。根据CoT微调文献,他们发现CoT类型的训练数据在样本复杂性和准确性方面显著提高了学习效果,即使在没有语言预训练的情况下,他们的发现仍然成立。他们假设这是因为模型可以通过将需要实现的复合函数分解为单个组件来学习一个更高维度但更简单的函数映射。他们在他们的研究中给出了他们研究的四种数据格式技术的样本,如图1所示。 文本和数学混合训练。 由于LLM模型是在从互联网下载的大量数据上进行训练的,其中很难清洗各种形式的数据,因此他们还研究了文本和数值数据在训练过程中的交互方式。他们跟踪文本与算术输入的比例对模型的困惑度和准确性的影响。他们发现了先前处理的算术操作可以分别增强每个任务的性能,并且从零-shot提示到一-shot提示的切换显著增加了准确性。然而,当提供更多的示例时,准确性的提高不太明显。模型大小和预训练的重要性。 预训练和模型规模的作用。 此外,他们研究了通过微调像GPT-2和GPT-3这样的模型来研究预训练的作用,并发现虽然零-shot性能在算术操作上表现不佳,但预训练期间开发的先前“技能”使得在一些基本算术任务上能够达到可接受的性能,即使只有有限数量的微调样本。然而,当模型在标准格式的操作上进行预训练时,微调非标准格式(如反向格式)可能会干扰模型性能并降低准确性。最后,他们研究了规模对算术性能的影响,并发现虽然规模确实有助于学习算术运算,但并不是必要条件。 长度和组成的泛化。 人们可能会想知道他们训练的模型是否对数学有深入的理解。他们的研究给出了一个复杂的答案。他们发现将长度推广到训练数字长度之外是具有挑战性的。例如,如果模型在所有n位数长度上进行训练,但排除了某个特定长度,那么它会发现很难调整并正确计算这个缺失的数字长度。因此,模型在训练数字长度范围内表现良好,但在范围之外的地方表现要差得多。这表明模型更多地将算术视为一种映射函数,而不是一种灵活的过程。这超出了死记硬背,但不足以对数学进行彻底的“理解”。 创新与以前的努力。 他们并不声称他们的方法在所利用的训练数据类型方面是原创的,而是强调它在以前的研究中利用教育性数据来提高模型性能的工作上。关于随机初始化模型的主要强调,以及对各种采样/数据格式和模型规模设置进行深入的消融研究,以分离导致算术能力快速形成的变量,这使他们的工作与该领域的其他研究有所区别。此外,他们在研究中发现的一些现象有一些简单但可能具有启发性的理论解释。 图1:本研究中所检验的四种数据格式化技术如图所示。普通:普通的加法格式;反转:输出被反转;简化草稿本:逐位求和和进位;以及全面草稿本:全面的中间加法阶段。使用经过这些不同加法格式化技术处理过的数据,我们从头开始训练微型变压器模型。结果(显示在右侧)显示了数据格式化对性能和样本效果的重要性。随着数据格式中信息量的增加,普通永远无法达到100%的准确性,而其他技术学习完全加法的样本复杂度逐渐降低。
Leave a Comment语言模型(LMs)的出色性能表明,大规模的下一个单词预测可以将文本语料库中的知识有效地蒸馏成交互式代理。LMs在各种自然语言处理基准测试中取得了令人印象深刻的成果,超过了最先进的方法,甚至在需要复杂推理的任务中超过了人类。然而,至关重要的是确定它们的成功是源于任务通用推理能力还是在预训练期间识别和回忆特定任务。 以前的研究主要集中在实例级别的泛化,其中数据污染问题可能会复杂化。在这项研究中,研究人员通过改变执行良好任务的条件或规则来研究LMs对新任务变体的泛化能力。这些任务的一般推理过程保持不变,但是具体的输入-输出映射发生了变化。这些称为反事实任务的新任务偏离了默认条件,并衡量了模型的任务级泛化能力。 研究人员提出了一个由11个反事实评估任务组成的套件,涵盖了多个类别和领域。这些任务包括演绎推理、代码生成、绘图和空间推理。虽然原始任务和其反事实变体之间的推理过程保持一致,但是输入-输出映射不同。这个评估旨在评估LMs在适应新任务变体方面的灵活性。 对GPT-4、GPT-3.5、Claude和PaLM-2在任务的默认和反事实条件下的性能进行评估。结果表明,虽然LMs在反事实性能上表现出高于随机的表现,但与默认设置相比,它们的性能持续下降;这表明模型在这些任务上的成功部分归因于默认条件特定的行为,而不是抽象的、可推广的推理能力。 研究结果还揭示了默认任务和反事实任务之间的令人兴奋的关系。观察到默认和反事实性能之间的相关性,零-shot思维链提示的有效性以及任务和实例级频率效应之间的互动。总体而言,任务默认实例化的轻微变化对LMs构成了挑战,这表明现有模型的成功不应仅仅归因于它们对目标任务的通用能力。
Leave a Comment大型语言模型(LLM)的改进在各个领域创造了机遇,并激发了一波新的交互式人工智能应用的浪潮。其中最值得注意的是ChatGPT,它使人们能够与AI代理进行非正式的交流,解决从软件工程到语言翻译的问题。由于其出色的能力,ChatGPT是历史上增长最快的项目之一。许多公司都追随这一趋势发布了类似LLM和ChatGPT的产品,包括微软的新Bing、谷歌的Bard、Meta的LLaMa、斯坦福大学的Alpaca、Databricks的Dolly和加州大学伯克利分校的Vicuna。 LLM推理与其他深度神经网络(DNN)模型推理(例如ResNet)不同,因为它具有特殊的特点。建立在LLM上的交互式人工智能应用必须提供推理功能。这些应用的交互设计要求LLM推理具有快速的作业完成时间(JCT),以提供引人入胜的用户体验。例如,当用户将数据提交到ChatGPT时,他们期望立即得到回应。然而,由于LLM的数量和复杂性,推理服务基础设施面临巨大压力。企业建立昂贵的集群,并配备了GPU和TPU等加速器来处理LLM推理操作。 DNN推理任务通常是确定性的,高度可预测的,即模型和硬件在很大程度上决定了推理任务的执行时间。例如,使用同一ResNet模型在某个GPU上处理不同的输入照片,其执行时间会有所变化。相反,LLM推理具有独特的自回归模式。LLM推理工作经过多轮迭代。每次迭代产生一个输出标记,然后将其添加到输入中,以在下一轮迭代中生成后续标记。输出长度在开始时是未知的,它既影响执行时间,也影响输入长度。大多数确定性模型推理任务(例如ResNet执行的任务)都可以通过现有的推理服务系统(如Clockwork和Shepherd)来处理。 这些系统基于精确的执行时间分析进行调度决策,但对于具有可变执行时间的LLM推理来说是无效的。LLM推理的最先进方法是Orca。它建议在每次迭代后将新任务添加到当前处理批处理中,或者删除已完成的任务。然而,它使用先来先服务(FCFS)的方式处理推理任务。调度的任务将持续运行,直到完成。由于受限的GPU内存容量和推理任务的低JCT要求,处理批处理不能随着任意数量的传入函数而增加。完成运行的处理中的先行阻塞是众所周知的问题。 由于LLM庞大且执行时间较长,这个问题对LLM推理操作尤为严重。大型LLM推理任务,特别是输出长度较长的任务,将花费很长时间才能完成,并阻塞后续的短任务。北京大学的研究人员开发了一种名为FastServe的分布式推理服务解决方案,用于LLM。为了实现每个输出标记级别的抢占,FastServe使用了迭代级别的调度和LLM推理的自回归模式。FastServe可以选择在生成输出标记后继续进行计划任务,或者通过排队中的其他任务来抢占它。这使得FastServe可以通过抢占式调度来减少JCT和先行阻塞。 独特的跳过连接多级反馈队列(MLFQ)调度器是FastServe的基础。MLFQ是一种在无信息环境下最小化平均JCT的著名方法。每个任务在最高优先级队列中开始,如果在一定时间内未完成,则降级到下一个优先级队列。LLM推理是半信息不可知的,这意味着虽然不知道输出长度,但知道输入长度。这是LLM推理与传统情况之间的主要区别。输入长度决定了创建初始输出标记的执行时间,由于LLM推理的自回归模式,这可能比后续标记的执行时间要长得多。 当输入较长且输出较短时,初始输出标记的执行时间占据了大部分工作量。他们将这一特性用于将跳过连接添加到传统的MLFQ中。每个到达的任务通过将第一个输出标记的执行时间与队列的降级阈值进行比较,而不总是进入最高优先级队列中的适当队列。绕过高优先级队列以最小化降级。使用MLFQ进行抢占式调度会增加额外的内存开销,以保持已开始但未完成的作业处于中间状态。LLM为每个Transformer层维护一个键值缓存,用于存储中间状态。只要批处理大小未超过,FCFS缓存需要存储计划任务的中间状态。然而,可能已经开始了MLFQ中的其他任务,但它们被降级到优先级较低的队列中。MLFQ中的所有已开始但未完成的作业都必须由缓存维护中间状态。考虑到LLM的大小和GPU的受限内存空间,缓存可能会溢出。当缓存已满时,调度器可能会简单地延迟启动新的作业,但这又会导致先行阻塞。 相反,他们开发了一种高效的GPU内存管理系统,当低优先级队列中的进程被调度并且缓存快满时,主动将进程状态上传,并在缓存快满时卸载状态。为了提高效率,他们采用了流水线和异步内存操作。FastServe使用张量和流水线并行等并行化技术,为无法放入一个GPU中的大型模型提供分布式推理服务。为了减少流水线冒泡,调度程序同时执行多个批次的作业。键值缓存由键值缓存管理器组织,并且管理GPU和主机内存之间的内存交换。他们基于NVIDIA FasterTransformer实现了FastServe系统原型。结果表明,与最先进的解决方案Orca相比,FastServe平均和尾部JCT分别提高了5.1和6.4。
Leave a Comment大型语言模型(LLMs)在自然语言处理(NLP)方面最近取得了重要进展。现有研究表明,LLMs在无需特定任务微调的情况下,通过专门创建的提示语可以具备强大的零射击和少射击能力来完成各种任务。尽管它们非常有效,但根据目前的研究,LLMs可能会产生与事实知识不符的虚假信息,并且无法掌握领域特定或实时专业知识。通过向LLMs添加外部知识源,可以直接解决这些问题以修复错误的生成。 结构化数据,如数据库和知识图谱,已经被广泛用于在各种资源之间传递LLMs所需的知识。然而,由于结构化数据使用LLMs在预训练期间未接触到的独特数据格式或架构,它们可能需要帮助才能理解这些数据。与纯文本不同,结构化数据以一致的方式排列,并遵循一定的数据模型。数据表通过行按列索引记录进行排列,而知识图谱(KGs)通常以描述头实体和尾实体之间关系的事实三元组进行组织。 尽管结构化数据的体积通常很大,但无法将所有数据记录都放入输入提示中(例如,ChatGPT的最大上下文长度为4096)。将结构化数据线性化为LLMs可以轻松理解的语句是解决这个问题的简单方法。工具操作技术激励它们增强LLMs在上述困难中的能力。他们的策略背后的基本思想是使用专门的接口来修改结构化数据记录(例如,提取表格的列)。借助这些接口,他们可以更准确地定位完成特定活动所需的证据,并成功限制数据记录的搜索范围。 这项研究来自中国人民大学、大数据管理与分析方法北京市重点实验室和中国电子科技大学的研究人员,他们的研究重点是为特定任务设计适当的接口,并将它们用于LLMs的推理,这是应用接口增强方法需要解决的两个主要问题。以这种方式,LLMs可以根据从接口收集的证据做出决策。为此,他们在这项研究中提供了一种名为StructGPT的迭代阅读-推理(IRR)方法,用于根据结构化数据解决任务。他们的方法考虑了完成各种活动的两个关键任务:收集相关数据(阅读)和假设正确的响应或制定下一步行动的策略(推理)。 据他们所知,这是第一项研究,探讨如何帮助LLMs在各种形式的结构化数据(如表格、知识图谱和数据库)上进行推理,使用单一范式。从根本上讲,他们将LLMs的阅读和推理过程分开:他们使用结构化数据接口来实现精确、有效的数据访问和过滤,并依靠其推理能力来确定下一步行动或查询的答案。通过外部接口,他们特别建议一种调用线性化生成过程,以帮助LLMs理解和在结构化数据上做出决策。通过使用提供的接口重复这个过程,他们可以逐渐接近对查询的期望响应。 他们对各种任务(如基于知识图谱的问题回答、基于表格的问题回答和基于数据库的文本到SQL)进行了全面的实验,以评估他们的技术的有效性。在八个数据集上的实验结果表明,他们提出的方法可以显著提高ChatGPT在结构化数据上的推理性能,甚至达到与完全数据监督调优方法相竞争的水平。 • 知识图谱问答(KGQA)。他们的方法使KGQA挑战中WebQSP的Hits@1增加了11.4%。借助他们的方法,ChatGPT在多跳KGQA数据集(如MetaQA-2hop和MetaQA-3hop)上的性能可以提高62.9%和37.0%。 • 问题回答表格(QA Table)。在TableQA挑战中,与直接使用ChatGPT相比,他们的方法可以将WTQ和WikiSQL中的指示准确性提高约3%到5%。在TabFact中,他们的方法可以将表格事实验证的准确性提高4.2%。 • 文本到SQL。在Text-to-SQL挑战中,他们的方法相对于直接使用ChatGPT,将执行准确率在三个数据集上提高了约4%。 作者已经发布了Spider和TabFact的代码,这可以帮助理解StructGPT的框架,整个代码库尚未发布。
Leave a Comment随着人工智能领域的不断发展,AI技术开始与机器人相结合。从计算机视觉和自然语言处理到边缘计算,AI与机器人融合以开发有意义且有效的解决方案。AI机器人是在现实世界中行动的机器。考虑到语言作为人与机器人之间的交流工具是很重要的。然而,有两个主要问题阻碍了现代机器人有效处理自由形式的语言输入。第一个挑战是让机器人根据提供的指令推理出它需要操作的内容。另一个是拾取和放置任务,需要在拾取像毛绒动物的耳朵而不是腿部,或者在拾取肥皂瓶的出液器而不是侧面时进行仔细的区分。 机器人必须从输入指令中提取场景和对象语义,并根据语义操纵执行准确的低级动作。为了克服这些挑战,斯坦福大学的研究人员提出了KITE(关键点+指令到执行)框架,这是一个用于语义操纵的两步骤框架。KITE同时考虑了场景语义和对象语义。对象语义精确定位了对象实例中的各个部分,而场景语义涉及在视觉场景中区分各种对象。 KITE的第一阶段涉及使用2D图片关键点将输入指令与视觉上下文相结合。对于后续的动作推断,这个过程提供了一个非常准确的以对象为中心的偏见。通过将命令映射到场景中的关键点,机器人对物品及其相关特征有了准确的理解。KITE的第二步是根据RGB-D场景观察执行学习到的关键点条件技能。机器人使用这些参数化的技能来执行提供的指令。关键点和参数化技能共同提供了对场景和物体差异的精细操纵和泛化能力。 为了评估KITE的性能,团队在三个实际环境中进行了评估:高精度制作咖啡,语义抓取和长期规划的6自由度桌面操纵。在制作咖啡任务中,KITE的成功率为71%,语义抓取的成功率为70%,在桌面操纵场景中遵循指令的成功率为75%。KITE在使用基于关键点的基础架构与预训练的视觉语言模型相比的框架中表现更好。它优于强调端到端视觉运动控制而非技能使用的框架。 尽管在训练过程中所示的示范相同或更少,KITE仍然实现了这些结果,这表明了其效果和效率。为了将图像和语言短语映射到显著性热图,并产生关键点,KITE使用了一种类似CLIPort的技术。为了输出技能路径点,技能架构修改了PointNet++,以接受带有关键点注释的多视点点云输入。2D关键点使KITE能够准确关注视觉特征,而3D点云为规划提供了必要的6自由度上下文。 总之,KITE框架提供了一个有希望的解决方案,解决了长期以来使机器人能够解释和遵循自然语言命令的挑战。它通过利用关键点和指令操纵的能力实现了精细的语义操纵,具有高精度和泛化能力。
Leave a Comment许多应用,如机器人技术、自动驾驶和视频编辑,从视频分割中受益。深度神经网络在过去几年取得了很大的进展。然而,现有的方法需要在未经尝试的数据上进行调整,尤其是在零样本情况下。这些模型需要特定的视频分割数据进行微调,以在不同场景下保持一致的性能。在零样本设置中,或当这些模型被转移到未经过训练的视频领域,并涵盖训练分布之外的对象类别时,当前的半监督视频对象分割(VOS)和视频实例分割(VIS)方法在处理未知数据时显示出性能差距。 使用来自图像分割领域的成功模型来进行视频分割任务可以解决这些问题。Segment Anything(SAM)概念就是一个有前途的解决方案之一。SA-1B数据集作为SAM的训练基础模型,其中包含了1100万张图片和10亿个掩膜。由于其庞大的训练集,SAM具备了出色的零样本泛化能力。该模型已经证明在使用零样本转移协议进行各种下游任务时能够可靠地运行,并且非常可定制,并能从单个前景点生成高质量的掩膜。 SAM表现出很强的零样本图像分割能力。然而,它并不自然适用于视频分割问题。最近,SAM已经被修改以包括视频分割。例如,TAM将SAM与最先进的基于内存的掩膜跟踪器XMem相结合。类似于SAM-Track将DeAOT与SAM相结合的方式。尽管这些技术在恢复SAM在分布数据上的性能方面取得了很大进展,但在应用于更困难的零样本条件时仍然存在缺陷。许多分割问题可以通过其他不需要SAM的视觉提示技术来解决,包括SegGPT,尽管它们仍然需要对初始视频帧进行掩膜标注。 这个问题对于零样本视频分割来说是一个重大障碍,特别是当研究人员致力于创建简单的技术来推广到新情况并可靠地在各种视频领域中产生高质量的分割时。ETH Zurich、HKUST和EPFL的研究人员介绍了SAM-PT(Segment Anything Meets Point Tracking)。这种方法通过首次使用稀疏点跟踪和SAM来分割视频,为这个问题提供了一种新的方法。与使用掩膜传播或以物体为中心的密集特征匹配相比,他们提出了一种使用电影中编码的详细局部结构数据来跟踪点的方法。 因此,它只需要在第一帧中对稀疏点进行注释以指示目标对象,并提供了对未知对象的卓越泛化能力,这一优势已经在开放世界的UVO基准测试中得到证明。这种策略有效地扩展了SAM在视频分割方面的能力,同时保持了其固有的灵活性。利用PIPS等现代点跟踪器的灵活性,SAM-PT使用这些工具预测的稀疏点轨迹来提示SAM。他们得出的结论是,最适合激励SAM的方法是使用从掩膜标签中的K-Medoids聚类中心初始化要跟踪的位置。 通过同时跟踪正点和负点,可以清楚地区分背景和目标对象。他们建议使用这些点来改进输出掩膜的不同掩膜解码过程。他们还开发了一种点重新初始化技术,以提高随时间的追踪精度。在该方法中,不可靠或遮挡的点被丢弃,而在后续帧中变得可见的对象的部分或段的点被添加,例如当对象旋转时。 值得注意的是,他们的测试结果显示,SAM-PT在几个视频分割基准上的表现与现有的零样本方法相当或更好。这表明他们的方法是多么适应和可靠,因为在训练过程中不需要视频分割数据。在零样本设置中,SAM-PT可以加速视频分割任务的进展。他们的网站上有多个互动视频演示。
Leave a Comment由于文本引导扩散模型在图片创作中展现出的出色逼真度和多样性,人们对此产生了极大的兴趣。随着大规模模型的引入,用户在创建照片时拥有了无与伦比的创作灵活性。因此,一些正在进行的研究项目专注于探索如何使用这些强大的模型进行图片操作。最近的研究进展展示了使用纯文本扩散技术进行基于文本的图片操作。其他研究人员最近提出了语义引导(SEGA)的概念用于扩散模型。 SEGA展示了先进的图片组合和编辑技能,并且在当前生成过程中无需外部监督或计算。SEGA相关的概念向量被证明是可靠、独立、灵活且单调缩放的。其他研究还探讨了基于语义理解创建图片的不同方法,例如Prompt-to-Prompt,它使用模型的交叉注意力层中的语义数据将像素与文本提示符令牌连接起来。尽管SEGA不需要基于令牌的条件,并且允许多种语义改变的组合,但是在交叉注意力图上的操作可以对生成的图片产生多样化的改变。 现代技术必须用于反转给定图片,以进行基于文本引导的真实图片编辑,这是一个重大障碍。为了实现这一点,需要找到一系列噪声向量,当作为扩散过程的输入时,可以产生输入图片。在大多数基于扩散的编辑研究中,使用了一种从单一噪声图到生成图片的确定性映射技术,称为去噪扩散隐式模型(DDIM)。其他研究人员提出了一种针对去噪扩散概率模型(DDPM)方案的反转方法。 对于DDPM方案中用于扩散生成过程的噪声图,他们提出了一种计算噪声图的新方法,使其与传统DDPM采样中使用的噪声图有所不同,具有更大的方差,并且在时间步长上更相关。与DDIM基于反转的技术相比,友好编辑的DDPM反转在基于文本的编辑任务上展示出了最先进的结果(单独使用或与其他编辑方法结合),并且可以为每个输入图片和文本生成多种输出。在这篇综述中,来自HuggingFace的研究人员想要随意研究SEGA和DDPM反转方法或LEDITS的配对和集成。 在LEDITS中,语义引导扩散生成机制进行了修改。这个更新将SEGA方法论扩展到了真实照片上。它提供了一种结合了两种方法同时编辑能力的编辑策略,并且展示了使用尖端技术的竞争性定性结果。他们还提供了一个HuggingFace演示以及相关代码。
Leave a Comment大型语言模型在最近取得了巨大的增长和进展。人工智能领域随着这些模型的每一次新发布而蓬勃发展。从教育、金融到医疗保健和媒体,大型语言模型几乎在每个领域都有贡献。像GPT、BERT、PaLM和LLaMa这样的著名大型语言模型通过模仿人类正在改变人工智能行业。基于GPT架构并由OpenAI开发的著名聊天机器人ChatGPT通过生成准确而富有创意的内容、回答问题、总结大量文本段落和语言翻译来模仿人类。 什么是向量数据库? 在人工智能和机器学习领域中,一种新颖而独特的数据库类型——向量数据库正变得越来越受欢迎。与最初用于以行和列的形式存储表格数据的传统关系型数据库以及像MongoDB这样将数据存储在JSON文档中的较新的NoSQL数据库不同,向量数据库在性质上有所不同。这是因为向量嵌入是向量数据库旨在存储和检索的唯一一种数据类型。 大型语言模型和所有新应用都依赖于向量嵌入和向量数据库。这些数据库是专门为有效存储和操作向量数据而设计的数据库。向量数据使用点、线和多边形来描述空间中的对象,在计算机图形、机器学习和地理信息系统等各个行业中经常使用。 向量数据库基于向量嵌入,它是一种携带语义信息的数据编码方式,有助于AI系统解释数据并保持长期记忆。这些嵌入是作为机器学习过程的一部分生成的训练数据的压缩版本。它们作为过程中新数据的过滤器,用于运行机器学习的推理阶段。 在向量数据库中,数据的几何特性被用于组织和存储数据。每个项目通过在空间中的坐标和其他赋予其特征的属性来标识。例如,向量数据库可以用于在地理信息系统应用程序中记录有关城镇、高速公路、河流和其他地理特征的详细信息。 向量数据库的优势 空间索引 – 向量数据库使用R树和四叉树等空间索引技术,可以基于地理关系(如接近和约束)进行数据检索,这使得向量数据库优于其他数据库。 多维索引 – 除了空间索引,向量数据库还可以支持对其他向量数据特性进行索引,以实现基于非空间属性的高效搜索和过滤。 几何操作 – 向量数据库通常具有内置的支持几何操作(如交集、缓冲和距离计算),这对于空间分析、路由和地图可视化等任务非常重要。 与地理信息系统(GIS)的集成 – 向量数据库经常与GIS软件和工具一起使用,以高效地处理和分析空间数据。 构建大型语言模型的最佳向量数据库 在大型语言模型的情况下,向量数据库越来越受欢迎,其主要应用是存储由LLM训练产生的向量嵌入。 Pinecone – Pinecone是一款强大的向量数据库,以其出色的性能、可扩展性和处理复杂数据的能力脱颖而出。它非常适合需要即时访问向量和实时更新的应用程序,因为它专为快速高效的数据检索而构建。 DataStax…
Leave a Comment大型语言模型,例如PaLM、Chinchilla和ChatGPT,为从阅读教学线索执行自然语言处理(NLP)任务开辟了新的可能性。先前的研究表明,指令调整,即在各种带有指令的NLP任务上微调语言模型,进一步提高了语言模型在给定指令的情况下执行未知任务的能力。通过比较它们的微调过程和策略,本文评估了开源指令泛化倡议的方法和结果。 该工作关注指令调整方法的细节,对各个因素进行剔除并直接进行比较。他们在“Flan 2022 Collection”中确定并评估了方法论改进,该术语用于数据收集以及适用于数据和指令调整过程的方法,重点关注将Flan 2022与PaLM 540B结合的新兴和最先进的结果。Flan 2022 Collection目前是公开可用的最全面的指令调整作业和技术集合,它已经通过数千个高级模板和更好的格式模式进行了扩充。 他们证明,在所有评估的评估基准上,训练在该集合上的模型优于其他公开集合,包括原始的Flan 2021、T0++、Super-Natural Instructions和OPT-IML的当代工作。对于具有相同大小的模型,MMLU和BIG-Bench Hard评估基准上的改进分别达到4.2%+和8.5%。根据对Flan 2022方法的分析,这些稳健的结果是由于更大更多样的任务集合以及用于微调和数据增强的几种简单策略。特别是,使用零样式、少样式和思考链的模板进行训练改善了所有这些上下文中的性能。 例如,少样式提示的增加10%可以将零样式提示的结果提高2%或更多。此外,已经证明,通过倒置输入-输出对,在任务来源的平衡和任务多样性的增强方面都对性能至关重要。在单任务微调中,得到的Flan-T5模型收敛更快,表现优于T5模型,表明经过指令调整的模型为后续应用提供了更具计算效率的起点。他们预计,公开提供这些结果和工具将简化用于指令定制的可用资源,并加快更通用的语言模型的发展。 本研究的主要贡献如下列举:• 方法论:证明混合使用零样式和少样式提示进行训练在两种环境中都能产生显著优越的结果。• 测量和展示有效指令调整的关键方法,包括缩放第3.3节,使用输入倒置增强任务多样性,添加思考链训练数据以及平衡各种数据来源。• 结果:这些技术决策相对于现有的开源指令调整集合,提高了保留任务性能3-17% • 发现:Flan-T5 XL为单任务微调提供了更稳健和有效的计算起点。• 公开提供新的Flan 2022任务集合、模板和研究方法供公众使用。源代码可在GitHub上获取。
Leave a Comment被称为大型语言模型的计算机程序为软件提供了分析和创建文本的新选项。大型语言模型通常使用千兆字节甚至更多的文本数据进行训练,使其大小达到几十兆字节。模型的参数是从先前的训练数据中学到的组件,从本质上来说,它们确定了模型在任务(如文本生成)上的熟练程度。自然语言处理(NLP)活动,包括语音转文字、情感分析、文本摘要、拼写检查、令牌分类等,都依赖于语言模型作为其基础。语言模型可以分析文本并预测大多数自然语言处理任务中下一个令牌出现的可能性。Unigram、N-gram、指数和神经网络都是语言模型的有效形式。 LLM的应用 下图总结了目前大型语言模型(LLM)的功能、产品和支持软件方面的现状。 图片来源:https://cobusgreyling.medium.com/the-large-language-model-landscape-9da7ee17710b Shell命令生成 下一代终端Warp利用GPT-3将自然语言转化为可执行的shell指令,类似于GitHub Copilot,但用于终端。 即使对于经验丰富的程序员来说,shell命令的语法可能也需要解释。 正则表达式生成 开发人员编写正则表达式是一项耗时的任务,然而Autoregex.xyz利用GPT-3自动化这个过程。 文案撰写 这项任务最常用的模型是GPT-3,但也有开源替代方案,如BigScience的BLOOM和Eleuther AI的GPT-J。Copy ai、Copysmith、Contenda、Cohere和Jasper ai是在这一领域开发应用程序的一些初创公司,它们的工具可以更快、更轻松地编写博客文章、销售内容、数字广告和网站文案。 分类 将文本分类到预定类别是一种监督学习的例子。通过使用聚类这种无监督学习技术,可以将具有相似含义的文本聚类在一起,而无需使用预定义的类别。 回应生成 回应生成是使用示例对话生成对话流的思路,并采用机器学习方法。在这种方法中,下一次呈现给用户的对话取决于模型,考虑到用户的过去回答和最有可能的未来对话,这被称为预测式对话。 文本生成 LLM的能力从简要描述中生成测试,无论是否有示例数据,都可以被视为其“元能力”。 几乎所有LLM都能扮演生成的角色。少样本学习数据不仅显著提升了生成能力,而且数据的构造也影响着数据的使用方式。 知识回答 知识回答是知识密集型自然语言处理(KI-NLP)的应用,它允许对通用和跨领域的问题进行回答,而无需查询应用程序接口(API)或依赖传统的知识存储。 知识密集型自然语言处理不是网络搜索,而是基于语义搜索的知识库。…
Leave a Comment