Press "Enter" to skip to content

四海吧 Posts

动态LoRA加载以实现更好的性能和优化的资源使用

我们已经成功地将基于扩散模型的 LoRA Hub 推断速度大大提高。这使得我们能够节省计算资源并提供更好的用户体验。 要对给定的模型进行推断,有两个步骤: 预热阶段 – 包括下载模型和设置服务(25秒)。 推断作业本身(10秒)。 通过这些改进,我们能够将预热时间从25秒减少到3秒。我们能够为数百个不同的 LoRA 提供推断服务,只需要不到 5 个 A10G GPU,同时用户请求的响应时间从 35 秒减少到 13 秒。 让我们更详细地讨论如何利用在 Diffusers 库中开发的一些最新功能,以一种动态方式使用单一服务为许多不同的 LoRA 提供服务。…

Leave a Comment

“认识MMMU:一个全新的AI基准,旨在解决专家级多模式挑战,为人工智能通用智能铺平道路”

多模态预训练的进展解决了各种任务,如LXMERT、UNITER、VinVL、Oscar、VilBert和VLP等模型。FLAN-T5、Vicuna、LLaVA等模型增强了遵循指令的能力。而Flamingo、OpenFlamingo、Otter和MetaVL等模型则探索了上下文学习。VQA等基准注重感知,而MMMU则通过对要求专家级知识和有意识的推理的大学级问题的需求而脱颖而出。其独特的特点包括全面的知识覆盖、各种图像格式以及对专题特定推理的独特强调,使其与现有的基准相区别。 MMMU基准由来自IN.AI Research、滑铁卢大学、俄亥俄州立大学、独立研究机构、卡内基梅隆大学、维多利亚大学和普林斯顿大学的研究人员推出,涵盖了各种学科的大学级问题。强调专家级感知和推理,它是一个暴露现有模型面临重大挑战的基准。 该研究强调了评估朝着专家级人工智能发展取得进展的基准的必要性,超越了人类能力。目前的标准,如MMLU和AGIEval,侧重于文本,需要更多的多模态挑战。大型多模态模型(LMMs)显示出潜力,但现有的基准需要专家级领域知识。MMMU基准的引入旨在弥合这一鸿沟,涵盖了复杂的大学级问题,包括各种图像类型和交织的文本。它要求专家级感知和推理,为追求高级人工智能能力的LMMs提供了具有挑战性的评估。 专为评估专家级人工智能而设计的MMMU基准包含11,500个涵盖六个学科和30个主题的大学级问题。数据收集涉及根据视觉输入选择主题,参与学生标注者收集多模态问题,并进行质量控制。多个模型,包括LMM和LMMs,以零-shot的方式在MMMU上进行评估,测试它们在无微调或少量示范的情况下生成精确答案的能力。 MMMU基准对模型来说是具有挑战性的,因为GPT-4V的准确率仅为55.7%,表明还有很大的改进空间。专家级感知和推理需求使其成为LMMs和LMMs的严格评估。错误分析指出了视觉感知、知识表示、推理和多模态理解的挑战,为进一步研究提供了方向。MMMU以30种不同的图像格式覆盖大学级知识,强调了在基础模型中丰富培训数据集以增强在专门领域中的准确性和适用性的重要性。 总之,创建MMMU基准代表了对专家级人工智能评估中的LMMs的重大进展。这个基准挑战了当前模型对基本感知能力和复杂推理的评估,有助于了解专家级人工智能发展的进展。它强调了专家级性能和推理能力,突出了在视觉感知、知识表示、推理和多模态理解方面进一步研究的领域。建议通过丰富培训数据集与领域相关的知识,以提高准确性和在专门领域中的适用性。

Leave a Comment

谷歌人工智能和特拉维夫大学研究人员展示了一个人工智能框架,将文本到图像扩散模型与专门的镜头几何图像渲染相结合

最近,在图像生成方面取得了重大进展,利用大规模扩散模型在配对的文本和图像数据上进行训练,加入多样化的条件方法以增强视觉控制。这些方法从明确的模型条件到修改预训练架构以适应新的模态。利用提取的图像特征如深度对文本条件的模型进行微调,可以实现图像重建。早些时候的研究人员引入了一种使用原始分辨率信息进行多分辨率和形状一致图像生成的GANs框架。 谷歌研究和特拉维夫大学的研究人员提出了一种AI框架(AnyLens),将文本到图像扩散模型与特殊的镜头几何结构相结合,用于图像渲染。这种整合使得对渲染几何的精确控制成为可能,通过一个单一的扩散模型可以生成鱼眼、全景视图和球面纹理等多样化的视觉效果。 该研究通过引入一种新的方法来解决将多样化光学控制融入文本到图像扩散模型的挑战。该方法使模型能够在局部镜头几何条件下进行条件附加,提高了模型复制精巧光学效果以生成逼真图像的能力。除了传统的画布变换外,该方法还允许通过逐像素坐标条件进行几乎任何栅格扭曲。这种创新支持各种应用,包括全景场景生成和球面纹理。它引入了一个度量张量条件的流形几何感知图像生成框架,扩大了对图像生成的控制和操作的可能性。 该研究通过逐像素坐标条件将文本到图像扩散模型与特定镜头几何相结合的框架。该方法通过使用随机变换场扭曲图像生成的数据对预训练潜扩散模型进行微调。采用了自注意力层的令牌重加权。该方法允许曲率特性的操作,产生鱼眼和全景视图等多样效果。它超越了固定分辨率的图像生成,采用度量张量条件以增强控制。该框架扩展了图像操作的可能性,解决了扩散模型中大型图像生成和自注意力尺度调整等挑战。 该框架成功地将文本到图像扩散模型与特定的镜头几何结合起来,以一个模型实现了鱼眼、全景视图和球面纹理等多样化的视觉效果。它可以精确控制曲率特性和渲染几何,生成逼真而细致的图像。该方法通过对大型文本注释数据集和逐像素变换场进行训练,生成任意变形的图像,并且结果与目标几何形状紧密对齐,无失真。它还便于创建具有逼真比例和最小伪影的球形全景图。 总之,新引入的框架在图像渲染中整合了各种镜头几何,提供了对曲率特性和视觉效果的增强控制。通过逐像素坐标和度量条件,该方法便于对渲染几何进行操纵,创造出具有精准曲率特性,引起几何操纵的高度逼真图像。该框架鼓励图像合成中的创造性和控制,使其成为生产高质量图像的有价值的工具。 未来的工作建议通过探索先进的条件技术来克服该方法的局限性,从而增强多样化图像生成。研究人员提出扩展该方法以达到捕捉不同场景的专用镜头类似结果的可能性。提及使用更先进的条件技术的潜在用途,预计将实现改进的图像生成和增强的能力。

Leave a Comment

NVIDIA将AI处理器的供应优先考虑日本

在反映人工智能(AI)技术全球主导地位竞争的关键举措中,NVIDIA首席执行官Jensen Huang确认了公司致力于优先满足日本对AI处理器的高需求的承诺。这一承诺与日本雄心勃勃的努力相一致,旨在振兴其半导体基础设施,并在AI技术发展方面取得重大进展。 日本需求飙升 在最近的一份声明中,黄仁勋承认了日本对NVIDIA AI处理器的巨大市场需求。在东京首相菅义伟的官邸举行的新闻发布会上,黄仁勋强调了紧迫性,表示:“需求非常旺盛,但我向首相保证我们将尽最大努力优先满足日本对GPU的需求。” 日本的半导体复兴 曾经是全球半导体技术领导者的日本正在重建其在该行业的地位。该国正在大力投资半导体基础设施,以赶上人工智能技术的快速发展。NVIDIA的图形处理单位(GPU)已成为AI市场的主导者,对于日本的复兴至关重要。 为芯片投资提供财务支持 不到两周前,日本通过了一份额外预算,拨款约2万亿日元(1360亿美元)用于芯片投资。这笔财政注资预计将支持半导体行业中的重要参与者,包括台湾积体电路制造股份有限公司(TSMC)以及半导体制造合资企业Rapidus。值得注意的是,Rapidus计划在日本北部的北海道岛上生产尖端芯片。 建设日本的半导体独立 Jensen Huang对日本的半导体行业表示乐观。他表示:“日本正在发展的行业将会生产GPU。”这反映了一个更广泛的趋势,包括日本在内的许多国家认识到拥有自己的数据的重要性。他们旨在建立AI工厂并培育国内的AI智能能力。 另请阅读:NVIDIA朝着首个万亿美元AI芯片公司迈进 我们的观点 在快速发展的技术领域中,NVIDIA优先满足日本对AI处理器需求的承诺突显了合作在推动AI能力方面的战略重要性。随着日本努力恢复其半导体实力,与像NVIDIA这样的行业领导者合作成为实现技术自给自足的关键。NVIDIA的尖端AI技术与日本半导体创新的复兴交汇点,标志着全球技术竞争的重要时刻。随着各国越来越意识到在AI领域确保自身地位的重要性,这样的合作成为构建技术强大未来的关键组成部分。

Leave a Comment

How Getir通过使用Amazon SageMaker和AWS Batch将模型训练时间缩短了90%

这是一篇由Nafi Ahmet Turgut, Hasan Burak Yel和Damla Şentürk从Getir共同撰写的嘉宾文章成立于2015年,Getir已经将自己定位为极速杂货配送领域的开拓者这家创新科技公司通过“几分钟即送”的引人入胜的服务,革新了最后一公里配送领域随着一个…

Leave a Comment

为何GPU在人工智能领域表现出色

GPU被称为人工智能的稀土金属,甚至是黄金,因为它们是当今生成式人工智能时代的基石。 三个技术原因以及许多故事解释了为什么会这样。每个原因都有多个值得探索的方面,但总体上有: GPU采用并行处理。 GPU系统可扩展到超级计算高度。 用于人工智能的GPU软件堆栈既广泛又深入。 总的结果是,GPU比CPU以更高的能效计算技术,并且更快地执行计算。这意味着它们在人工智能训练和推理方面提供领先的性能,并且在使用加速计算的各种应用中都能获得收益。 在斯坦福大学的人工智能人本中心发布的最新报告中提供了一些背景信息。报告中指出,GPU性能“自2003年以来增加了约7000倍”,每单位性能的价格“增加了5600倍”。 2023年的报告展示了GPU性能和价格/性能的急剧上升。 报告还引用了独立研究团体Epoch的分析和预测人工智能进展的数据。 Epoch在其网站上表示:“GPU是加速机器学习工作负载的主要计算平台,在过去五年中,几乎所有最大的模型都是在GPU上训练的… 从而对AI的最新进展做出了重要贡献。” 一份为美国政府评估人工智能技术的2020年研究得出了类似的结论。 “当计算生产和运营成本计算在内时,我们预计[前沿]人工智能芯片的成本效益比领先节点的CPU高出一个到三个量级,”研究报告中说。 在Hot Chips,一年一度的半导体和系统工程师聚会上,NVIDIA公司的首席科学家比尔·达利在一个主题演讲中表示,NVIDIA GPU在过去十年中在AI推理方面的性能提升了1000倍。 ChatGPT传播新闻 ChatGPT为GPU在人工智能方面的优势提供了一个强有力的例子。这个大型语言模型(LLM)是在数千个NVIDIA GPU上训练和运行的,用于服务超过1亿人使用的生成式AI。 自2018年推出以来,作为人工智能的行业标准基准,MLPerf详细记录了NVIDIA GPU在人工智能训练和推理中的领先性能。 例如,NVIDIA Grace Hopper超级芯片在最新一轮推理测试中表现优异。自那次测试以来,推出的推理软件NVIDIA TensorRT-LLM性能提升了8倍以上,能源使用和总拥有成本降低了5倍以上。事实上,自2019年基准测试发布以来,NVIDIA…

Leave a Comment

15+ AI 开发工具(2023年12月)

GitHub Copilot GitHub Copilot是一种市场领先的人工智能辅助编码助手。作为一个能使开发人员以更高效的方式生成优质代码的工具,Copilot基于OpenAI的Codex语言模型开发。该模型既训练有自然语言理解能力,又有广泛的公共代码数据库,使其能够提供有见地的建议。从完成整行代码和函数到撰写注释,以及辅助调试和安全检查,Copilot为开发人员提供了宝贵的工具。 Amazon CodeWhisperer Amazon的CodeWhisperer是一个基于机器学习的代码生成器,可在Visual Studio和AWS Cloud9等各种IDE中提供实时编码建议。它基于大规模开源代码数据集进行训练,可以提供代码片段到完整功能的建议,自动化重复任务并提升代码质量,是寻求效率和安全性的开发人员的福音。 Notion AI 在Notion工作区中,AI助手Notion可以帮助完成各种与写作相关的任务,包括创造性、修订和概要。它提高了写电子邮件、工作描述和博客文章等任务的速度和质量。Notion AI是一个能够自动化各种写作任务的AI系统,从博客和列表到头脑风暴和创作写作都可以轻松地重新组织和转换AI生成的内容,使用拖放文本编辑器工具。 Stepsize AI Stepsize AI是一个旨在优化团队生产力的协作工具。作为一个项目历史记录和任务管理者,它与Slack、Jira和GitHub等平台集成,以简化更新并消除沟通不畅。其主要特点包括对活动的统一摘要、即时回答问题和强大的数据隐私控制。 Mintlify Mintlify是一个节省时间的工具,可直接在您喜爱的代码编辑器中自动生成代码文档。只需单击一次,Mintlify Writer就可以为您的函数创建结构良好、上下文感知的描述。非常适合开发人员和团队,在生成复杂函数的精确文档方面表现出色,因其高效和准确性而备受赞誉。 Pieces for Developers Pieces for…

Leave a Comment

稳定AI引入对抗扩散蒸馏(ADD):在最少步骤中进行高保真度、实时图像合成的突破性方法

在生成模型中,扩散模型(DMs)扮演了关键角色,促进了在生成高品质图片和视频合成方面的最新进展。可扩展性和迭代性是DMs的两个主要优势;它们使其能够完成诸如根据自由文本线索创建图片等复杂任务。不幸的是,目前迭代推理过程所需的许多样本步骤阻碍了DMs的实时使用。另一方面,生成对抗网络(GANs)的单步形式和固有速度使其独具特色。然而,就样本质量而言,尽管已经做出扩展到大数据集的努力,GANs通常仍然需要更多DMs。 在这项研究中,来自Stability AI的研究人员旨在将GANs的固有速度与DMs的较高样本质量相结合。他们的策略在概念上很简单:研究团队提出Adversarial Diffusion Distillation(ADD),这是一种保持对抽样保真度的通用技术,可以通过将预训练的扩散模型的推理步骤减少到1-4个抽样步骤来增强模型的整体性能。研究团队结合了两个训练目标:(i)等同于评分蒸馏抽样(SDS)的蒸馏损失和敌对损失。 在每次前向传播中,敌对损失鼓励模型直接生成位于实际图片流形上的样本,消除了其他蒸馏技术中常见的模糊等伪影。为了保留大型DMs中所见到的高度组合性并有效利用预训练DM的大量知识,蒸馏损失使用另一个预先训练的(且固定的)DM作为教师。他们的方法还通过在推理过程中不使用无分类器的指导来减少内存需求。与早期的单步GAN-based方法相比,研究团队可以继续迭代开发模型并改善结果。 图1:显示了通过单一操作生成的高保真度照片。使用Adversarial Diffusion Distillation(ADD)训练为每个样本创建了一个单一的U-Net评估。 以下是他们的贡献摘要: • 研究团队提出了ADD,一种仅需1-4个抽样步骤将预训练的扩散模型转换为高保真度、实时图片生成器的技术。研究团队针对他们独特的方法进行了几个设计决策,将敌对训练与评分蒸馏相结合。 • ADD-XL在使用四个抽样步骤时,在5122像素的分辨率下胜过其教师模型SDXL-Base。• ADD可以处理复杂的图像合成,同时仅使用一次推理步骤保持高度逼真。• ADD在性能上明显优于LCM、LCM-XL和单步GANs等强基准。 总之,本研究引入了一种将预训练的扩散模型蒸馏为快速、少步骤的图片生成模型的通用技术:Adversarial Diffusion Distillation。通过使用鉴别器获取真实数据并通过扩散教师获取结构知识,研究团队将敌对训练和评分蒸馏目标相结合,以蒸馏公共的Stable Diffusion和SDXL模型。他们的分析显示,他们的技术击败了所有现有方法,并且在一到两个步骤的超快抽样区间中表现得特别好。此外,研究团队还可以通过多个过程改进样本。与IF、SDXL和OpenMUSE等流行的多步生成器相比,他们的模型在使用四个样本步骤时表现更好。他们的方法为使用基础模型进行实时生成开辟了新的可能性,使得能够在单一步骤中开发高品质照片成为可能。

Leave a Comment

Google DeepMind 研究介绍了 SODA:一个自我监督扩散模型,用于表示学习

Google DeepMind的研究人员开发了SODA,这是一个解决将图像编码为高效潜在表示的人工智能模型。借助SODA,实现了图像和语义属性之间的无缝过渡,允许在不同图像类别之间进行插值和变形。 扩散模型已经在视觉合成方面取得了革命性的进展,在图像、视频、音频和文本合成、规划和药物发现等各种任务中表现出色。尽管先前的研究聚焦于扩散模型的生成能力,但这项研究探索了扩散模型的表征能力这一未加充分利用的领域。该研究全面评估了基于扩散的表征学习在各种数据集和任务上的效果,从图像中揭示出了它们的潜力。 该模型强调了合成在学习中的重要性,并突出了扩散模型的显著表征能力。SODA是一个自监督模型,通过信息瓶颈实现了解缠绕和信息丰富的表征。SODA在分类、重构和合成任务中展示了它的优势,包括高性能的少样本新视角生成和语义特质的可控性。 SODA模型利用信息瓶颈通过自监督扩散创建解缠绕的表征。该方法使用基于分布的预训练来改进表征学习,从而在分类和新视角合成任务中获得强大的性能。通过广泛评估包括ImageNet在内的多样数据集,验证了SODA的能力。 SODA在表示学习领域表现出杰出的结果,卓越地改进了分类、解缠度、重构和新视角合成等方面。与变分方法相比,它显著提高了解缠度度量。在ImageNet线性探测分类中,SODA超越了其他辨别模型,并展示了对数据增强的稳健性。SODA的多功能性体现在生成新视角和无缝属性转换方面。通过实证研究,SODA已经被证明是一种有效、强大和多功能的表征学习方法,该方法支持详细分析、评估指标和与其他模型的比较。 总之,SODA在表征学习方面表现出了出色的熟练度,为各种任务提供了强大的语义表征,包括分类、重构、编辑和合成。它利用信息瓶颈专注于关键的图像特性,并在解缠度度量方面超越了变分方法。SODA的多功能性体现在其生成新视角、转换语义属性和处理更丰富的条件信息(如相机视角)的能力。 作为未来的工作,深入探究SODA领域的价值在于对3D数据集的动态组合场景进行研究,并弥合新视角合成和自监督学习之间的差距。还需要进一步研究模型结构、实施和评估细节,例如扩散模型的基本知识、超参数、训练技术和采样方法。建议进行消融和变异研究,以更好地理解设计选择,并探索交叉注意力和层内调制等替代机制。这样可以提高诸如3D新视角合成、图像编辑、重构和表征学习等各种任务的性能。

Leave a Comment

小型语言模型在本地CPU上的逐步指南

介绍 在自然语言处理中,语言模型经历了一段变革性的旅程。虽然人们通常关注像GPT-3这样的庞大模型,但小型语言模型的实用性和可访问性不容小觑。本文是一个全面的指南,旨在理解小型语言模型的重要性,并详细介绍如何在本地CPU上运行它们的步骤。点击这里。 图片来源:Scribble Data 理解语言模型 语言模型的定义 语言模型本质上是一个设计用于理解和生成类似人类语言的系统。在数据科学领域,这些模型在聊天机器人、内容生成、情感分析和问答等任务中发挥关键作用。 不同类型的语言模型 尽管小型语言模型体积较小,但具有独特的优势。它们高效、快捷、可定制用于特定领域任务,并通过在本地CPU上运行保护数据隐私。 在数据科学中使用语言模型的案例 它们的多功能应用体现在各种数据科学应用中。应用范围涵盖具有高日常流量的实时任务,并满足特定领域需求的复杂性。 通过实践学习提升生成式人工智能能力。通过我们的GenAI Pinnacle计划,发现向量数据库在高级数据处理中的奇迹! 在本地CPU上运行小型语言模型的步骤 步骤1:设置环境 成功在本地CPU上运行语言模型的基础在于建立正确的环境。这包括安装必要的库和依赖项。比较流行的基于Python的库有TensorFlow和PyTorch,它们提供了用于机器学习和深度学习的预建工具。 所需工具和软件 Python TensorFlow PyTorch 我们可以使用Python的虚拟环境来实现这个目的: pip install virtualenvvirtualenv myenvsource…

Leave a Comment