Press "Enter" to skip to content

2210 search results for "Pi"

谷歌AI提出PixelLLM:一种能够进行细粒度定位和视觉语言对齐的视觉语言模型

大型语言模型(LLMs)成功利用了人工智能(AI)的子领域,包括自然语言处理(NLP),自然语言生成(NLG)和计算机视觉。借助LLMs,我们能够创建能够复杂推理关于图像的视觉语言模型,回答与图像相关的问题,并用自然语言描述图像。然而,LLMs是否能够执行词定位或定位引用等定位任务仍然不确定。 为了克服这个挑战,谷歌研究和UC圣地亚哥的研究人员团队引入了一种智能模型称为PixelLLM,可以实现精细的定位和视觉语言对齐。这种方法受到了人们自然行为的启发,尤其是婴儿用手势、指点和命名来描述他们的视觉环境。团队表示,目标是找出LLMs如何从视觉输入中获得空间理解和推理。 PixelLLM将语言模型的每个单词输出密集对准到像素位置上。为此,添加了一个微小的多层感知机(MLP),它能够对每个单词的像素位置进行回归。使用了低秩微调(LoRA),允许更新或冻结语言模型的权重。该模型还可以接收文本或位置提示,使其能够提供符合提示的输出。 该模型的架构包括图像编码器、提示编码器和提示特征提取器。大语言模型接受提示条件下的图片特征和可选的文本提示作为输入,并输出每个单词的定位和标题。该架构能够接受多样的语言或位置组合作为输入或输出,适应各种视觉语言活动。 团队使用诸如密集物体字幕、位置条件字幕和引用定位等众所周知的视觉任务评估了该模型。PixelLLM在各种挑战中展现出卓越的性能指标,包括RefCOCO引用定位上的89.8 P@0.5,Visual Genome条件化字幕上的19.9 CIDEr以及密集物体字幕上的17.0 mAP。密集的像素定位公式非常重要,这在对RefCOCO进行的消融实验中得到了证明,相对于其他的定位公式,它取得了3.7个百分点的提升。因此,PixelLLM在实现精准的视觉语言对齐和定位方面取得了成功。 团队总结了他们的主要贡献如下: 引入了一个名为PixelLLM的新的视觉语言模型,可以生成单词定位和图片标题。 该模型支持文本或可选的位置提示,除图片输入外。 使用了定位的叙述数据集进行每个单词定位的训练。 该模型能够适应各种视觉语言任务,包括分割、位置条件字幕、引用定位和密集字幕。 该模型在位置条件字幕、密集字幕、引用定位和分割方面展现出卓越的结果。

Leave a Comment

在金融科技API管理中释放人工智能的力量:产品经理的全面指南

这份全面的指南探索了人工智能在金融技术API管理中的改变性作用,并为每个部分提供了实际示例从由人工智能驱动的洞察力和异常检测到由人工智能增强的设计、测试、安全性和个性化用户体验,金融科技产品经理必须利用人工智能的能力来优化运营、提升安全性并提供最佳的用户体验

Leave a Comment

《加州大学伯克利分校研究人员引入LLMCompiler:一种优化LLM并行函数调用性能的LLM编译器》

多功能调用任务在使用LLMs时可能会变慢且不准确。为了解决这个问题,来自UC Berkeley、ICSI和LBNL的研究人员开发了LLMCompiler,这是一个旨在提高LLMs在此类任务中的效率和准确性的框架。LLMCompiler通过其组件:LLM Planner、任务获取单元和执行器,实现了函数调用的并行执行。 LLMCompiler是一个使LLMs能够进行并行函数调用的框架,提高了多功能任务的效率和准确性。由LLM Planner、任务获取单元和执行器组成的LLMCompiler,在基准测试中优于ReAct和OpenAI的并行函数调用功能,显示出一致的延迟加速和准确性改进。兼容开源模型如LLaMA-2和OpenAI的GPT模型,LLMCompiler解决了LLM的局限性,如知识截断和算术技能,为执行函数调用提供了优化的解决方案。该框架是开源的,便于进一步的研究和开发。 最近LLM的进展将其能力扩展到执行函数调用,克服了其固有的限制。由LLM Planner、任务获取单元和执行器组成的LLMCompiler优化了函数调用的编排。基准测试结果表明,与ReAct和OpenAI的并行函数调用相比,延迟、成本和准确性都有持续的提升。 LLMCompiler是一个用于LLMs中并行函数调用的框架,包括LLM Planner、任务获取单元和执行器。LLM Planner制定执行策略,任务获取单元调度和更新任务,执行器并行执行任务。兼容开源模型如LLaMA-2和OpenAI的GPT,LLMCompiler比ReAct具有延迟加速、成本节约和准确性改进。支持动态重新计划以实现自适应执行,该开源框架提供了在LLMs中高效编排多功能调用任务的解决方案。 在各种任务上进行基准测试,包括复杂的依赖关系和动态重新计划需求,LLMCompiler始终优于ReAct,在延迟加速上可达到3.7倍,节约成本可达6.7倍,准确性提高9%。在24点游戏基准测试中,LLMCompiler与Tree-of-Thoughts相比,实现了2倍的加速,并且在与OpenAI的并行函数调用功能相比时取得了高达1.35倍的延迟增益。开源代码便于进一步的探索和开发。 总之,LLMCompiler是一个有前景的框架,可以显著提高LLMs中并行函数调用的效率、成本和准确性。它胜过现有的解决方案,并有潜力在使用LLMs进行大规模任务的软件开发中提供高效和准确的执行。其开源性使开发人员能够利用其优势。 在研究LLMs的操作系统视角时,应进一步探索LLMCompiler。这可能会推动基于LLMs的大规模软件开发的进展。建议在考虑规划和执行延迟时,与ReAct相比,调查使用LLMCompiler能够实现的加速效果。在LLMs中引入并行函数调用,对于高效执行复杂任务具有潜力。LLMCompiler的持续开发和探索可以为基于LLMs的软件的发展做出贡献。

Leave a Comment

通过使用来自Amazon SageMaker JumpStart的Pinecone向量数据库和Llama-2进行检索增强生成技术来缓解幻觉

尽管在各个行业中,似乎无法阻挡的对LLM的采用,但它们只是整个技术生态系统中的一个组成部分,为新的AI浪潮提供动力许多对话型AI应用需要LLM,如Llama 2、Flan T5和Bloom,以回答用户的查询这些模型依赖参数化知识来回答问题模型[…]

Leave a Comment

在这篇文章中,我将为您介绍如何充分利用您的语言模型或API这些技巧可以帮助您更好地应用于各种领域,让您的模型或API发挥出最佳的效果 首先,了解您的模型或API的功能和优势非常重要不同的模型或API可能有不同的用途和特点,因此您需要详细研究并了解它们的适用范围和功能这样,您才能更好地应用于相关领域,并发挥它的最大潜力

你是否曾经思考过自己是否该从头开始训练、进行微调、快速工程或检索增强生成(RAG)?下面是你需要了解的一切,以提升…

Leave a Comment

Pika 1.0:一种新的视频创作AI模型

在一个被生成AI所迷住的世界中,专门从事以AI为动力的视频创作的初创公司Pika,在由风投公司Lightspeed Venture Partners主导的最新一轮融资中获得了5500万美元的惊人资金。这笔资金的涌入与Pika 1.0的推出相一致,Pika 1.0是一套赋能于视频拍摄的创新工具,旨在改变视频创作的格局。Pika的旅程仅仅开始了六个月,已经吸引了50万用户,每周生成数百万个视频。 Pika 1.0发布 Pika的雄心目标是简化视频制作,从而开发出了Pika 1.0,配备有生成AI模型,能够编辑各种风格的视频,例如“3D动画”、“动漫”和“电影”。这个创新平台从隐秘模式中出现,引入了一种工具,可以扩展视频长度、转换风格,甚至使用AI编辑内容,比如改变衣着或添加人物。现在的问题是,Pika 1.0是否真的能够彻底改变通常复杂且资源密集的视频创作过程? Pika的竞争优势 在充斥着像Runway和Stability AI这样的竞争对手的领域,Pika通过承诺提升视频编辑体验的功能使其与众不同。值得注意的是,Pika 1.0提供了扩展视频画布或宽高比的能力,为用户提供了前所未有的创作自由。随着这个平台为广泛的可用性做好准备,Google和Meta等行业巨头也在暗示他们将进入生成AI视频工具领域。 Lightspeed对Pika的信心 尽管竞争激烈,但风投公司Lightspeed Venture Partners在Pika和Stability AI两家公司的投资者中表达了对Pika的转型潜力的信心。代表Lightspeed的Michael Mignano认为,Pika的技术基础和对创造力的早期热情使其在民主化高质量视频创作方面成为领导者。这一认可表明,Pika可能确实在重塑人们如何将自己的故事进行视觉分享方面发挥关键作用。 生成AI的兴起潮流 Pika的快速增长反映了对于各类应用中生成AI的需求飙升。根据IDC的数据,生成AI的投资从今年的160亿美元预计将在2027年飙升至1,430亿美元。尽管在2023年,生成AI仅占整体AI支出的9%,但该公司预计在未来五年内将显著增至28%。这一趋势不仅限于专业人士,最近的一项调查显示,Z世代越来越喜欢使用生成AI工具。 还可阅读:Google的BARD现在可以“观看并回答关于YouTube视频的问题” 挑战与未来展望 随着生成AI的发展,未来面临着一些挑战。2023年O’Reilly的报告指出,26%的企业AI采用者正在初步试点生成AI,并面临着从意外结果和安全问题到公平、偏见和隐私问题的种种担忧。该行业还受制于难以确定商业用例和有关AI生成内容的法律复杂性。…

Leave a Comment

使用API计划Amazon SageMaker笔记本任务并管理多步骤笔记本工作流程

亚马逊SageMaker Studio为数据科学家提供了完全托管的解决方案,可以交互式地构建、训练和部署机器学习(ML)模型亚马逊SageMaker笔记本作业允许数据科学家在SageMaker Studio中通过几次点击按需或按计划运行其笔记本有了这次发布,您可以以编程方式运行笔记本作业[…]

Leave a Comment

塑造未來的工作:Meta的Arpit Agarwal的見解

COVID-19疫情已经改变了工作场所的面貌,远程工作成为了持久的常态。在这一期的Leading with Data节目中,来自Meta的Arpit Agarwal讨论了未来工作涉及到的虚拟现实,使远程协作的经验更贴近面对面的体验。Arpit通过他的经历分享了自己的见解,强调了关键时刻和产品开发早期分析的挑战。 你可以在诸如Spotify、Google Podcasts和Apple等流行平台上收听这一期的Leading with Data节目。选择你喜欢的平台,享受这些富有洞察力的内容吧! 与Arpit Agarwal的对话中的关键见解 未来工作依赖于虚拟现实进行远程协作。 成立一个数据科学团队能促进创新和业务影响。 在产品早期阶段的数据科学需要重视质量,使用内部测试和反馈。 招聘数据科学人员需要技术能力、问题解决能力和坚强品格。 数据科学职业发展需要广泛探索,然后才能专精于某个领域。 参加我们即将举行的Leading with Data座谈会,与人工智能和数据科学领域的领导者进行深入讨论! 现在,让我们来看看Arpit Agarwal关于他的职业经历和行业经验的问题回答。 COVID-19疫情如何改变我们工作的方式? 这一疫情从根本上改变了我们的工作方式。我们从办公室为中心的环境转变为接受远程工作作为一种新的现实。即使在恢复到办公室政策的情况下,相当大一部分劳动力仍将继续远程运作。面临的挑战在于如何保持生产力和促进过去在办公室内建立的联系。现有的工具无法完全复制面对面的体验,这就是Meta愿景的发挥作用的地方。我们正在开发的产品可以提供并肩工作的感觉,理解彼此的肢体语言,并在虚拟空间中实现有效的协作。 你可以分享一下从大学到成为数据科学领域领导者的旅程吗? 我的旅程始于BITS Goa,我在那里攻读计算机科学学位。起初,我是以学术为重点,但BITS允许我探索其他兴趣,包括数据解释。我领导了一个解谜俱乐部,这激发了我对数据的兴趣。高中毕业后,我加入了Oracle,在数据仓库和商业智能方面工作,帮助客户做出数据驱动决策。这段经历巩固了我对分析和其在业务应用中的兴趣。我追求了MBA学位,加深了对商业的理解,并后来加入了Mu…

Leave a Comment

字节跳动推出PixelDance:一种基于扩散模型的新型视频生成方法,结合图像指令和文本指令

一支来自字节跳动研究团队的研究者介绍了PixelDance,一种利用文本和图像指示来创建具有多样化和复杂运动的视频生成方法。通过这种方法,研究者展示了他们的系统的有效性,通过合成具有复杂场景和动作的视频,从而在视频生成领域树立了新的标准。PixelDance在合成具有复杂设置和活动的视频方面表现出色,超过了通常生成具有有限动作的视频的现有模型。该模型通过扩展到各种图像指示,并结合时间上连贯的视频片段来生成组合镜头。 与限于简单场景的文本到视频模型不同,PixelDance利用图像指示来增强视频复杂性,并实现更长的连续剪辑生成。这种创新克服了以前方法中出现的运动和细节限制,特别是在领域外内容方面。强调图像指令的优势,将PixelDance确定为生成具有复杂场景、动态动作和复杂摄像机运动的高动态范围视频的解决方案。 PixelDance架构将扩散模型和变分自编码器整合到输入空间中,以对图像指示进行编码。训练和推断技术聚焦于学习视频动力学,利用公共视频数据。PixelDance可扩展到各种图像指示,包括语义地图、草图、姿势和边界框。定性分析评估了文本、首帧和尾帧指示对生成的视频质量的影响。 基于FVD和CLIPSIM指标,PixelDance在MSR-VTT和UCF-101数据集上的表现优于以前的模型。对于UCF-101的消融研究展示了PixelDance组件如文本和最后帧指示在连续片段生成中的有效性。该方法提出了一些改进的思路,包括使用高质量视频数据进行训练、领域特定的微调和模型扩展。PixelDance展示了无需后期处理的视频编辑,将其转化为一项图像编辑任务。它在MSR-VTT和UCF-101数据集上生成满足文本提示的高质量复杂视频的令人印象深刻的定量结果。 PixelDance在合成具有复杂场景和动作的高质量视频方面表现出色,超过了最先进的模型。模型与文本提示的配合展示了其推进视频生成的潜力。已经确定了需要改进的领域,包括领域特定的微调和模型扩展。PixelDance引入了无需后期处理的视频编辑,将其转化为图像编辑任务,并始终生成时间上连贯的视频。定量评估证实了它能够根据文本提示生成高质量、复杂的视频的能力。 PixelDance对显式图像和文本指示的依赖可能会限制其在未知场景中的泛化能力。评估主要侧重于定量指标,需要更多主观质量评估。对训练数据来源和潜在偏差的影响没有进行深入探讨。需要全面讨论模型在可扩展性、计算需求和效率方面的局限性。模型处理特定视频内容类型(如高度动态场景)的能力仍需澄清。需要对其在多样领域和超出示例之外的视频编辑任务中的普适性进行全面讨论。

Leave a Comment

易于应用集成的前五种稳定扩散API

介绍 在人工智能时代,API是解决企业面临的重要挑战之一,即将AI模型整合到软件和应用中时的高计算要求的一种解决方案。这种解决方案被称为应用程序编程接口(API)。API可以帮助你摆脱维护的麻烦,让你专注于业务逻辑和用户体验。这意味着任何人都可以利用这些API构建和商业化应用。本文将探讨稳定扩散API,这是一组专注于图像生成的生成式AI模型,这些模型对于各种应用程序至关重要。 我们首先将看到Segmind API,这是一个非常高效和有效的选择。这些API已经彻底改变了开发人员、设计师和创作者处理视觉内容生成的方式。我们将探索一些排名前五的稳定扩散API,重点介绍它们的特点、用途、定价等等。 学习目标 深入了解稳定扩散模型。 了解稳定扩散模型的基础知识,包括它们的应用。 了解现代软件开发中的API。 探索API在简化软件和应用开发中的关键作用。 本文是数据科学博文马拉松的一部分。 了解稳定扩散模型 什么是稳定扩散模型? 稳定扩散模型是一类专注于生成高质量图像的生成式AI模型。这些模型旨在生成具有各种应用的逼真、高分辨率图像。它们的特点是稳定和可靠,对于图像合成、风格转移和数据增强等任务非常有帮助。 稳定扩散模型使用扩散过程生成图像,从而逐渐向图像添加噪声,直到演化为复杂而连贯的输出。这个过程确保生成的图像具有高质量并展现出细节。 什么是API? API,或应用程序编程接口,是一组规则和协议,允许一个软件应用程序与另一个应用程序、服务或平台的功能或数据进行交互。API是中介,实现软件之间的集成。 在软件开发中,API为开发人员提供了一种访问功能、服务或数据的方式,包括云服务、数据库或AI模型等源,而无需理解底层复杂性。这简化了开发过程,加速了功能丰富应用的创建。 API可以采用多种形式,包括RESTful API、gRPC API和WebSocket API,每种都针对特定的用例。在现代软件中,它们发挥着关键作用,使开发人员能够利用第三方服务和功能的强大能力,同时专注于核心应用程序逻辑。 前五稳定扩散API 让我们来看看我们列表上排名靠前的稳定扩散API,首先是用户友好的Segmind API。 1.…

Leave a Comment

使用Amazon SageMaker Studio与Llama 2、LangChain和Pinecone来构建一个RAG问答解决方案,以便进行快速实验

检索增强生成(RAG)允许您为大型语言模型(LLM)提供对外部知识源(如资料库、数据库和API)的访问权限,而无需对模型进行精细调节在使用生成型人工智能进行问答时,RAG使得LLM能够以最相关、最新的信息来回答问题,并可选择引用[…].

Leave a Comment

14% 转化率增长故事:揭开 JOE & THE JUICE 与 Pixis AI 的动态合作

2002年,JOE & THE JUICE作为丹麦的城市绿洲崭露头角,以其有机、本地原料的果汁和咖啡吸引了关注健康的消费者。迅速扩张到250个欧洲地点,JOE & THE JUICE现在正在以通用大西洋和瓦雷多合作伙伴等大型投资者的支持下在美国和中东留下自己的印记。 随着JOE & THE JUICE的人气飙升和客户群体的扩大,明确需要一个强大而用户友好的技术解决方案来简化营销工作变得显而易见。他们的使命是:赋予团队有效地定位受众,监控跨地理区域的营销活动,并提高广告支出的回报。 JOE & THE JUICE的数字营销主管Miguel Martin指出:“优化各个地区的表现一直是一个持续的挑战。我们寻求一种能够处理大量的广告活动数据并降低每次安装成本(CPI)的系统或技术。这就是我们发现Pixis的原因。” 释放Pixis人工智能基础设施的潜力 JOE & THE JUICE将无代码人工智能解决方案Pixis整合到他们的多地点广告活动中。该品牌利用Pixis的定位人工智能引擎迅速分析品牌的营销渠道上的成千上万个数据点,以确定表现出色的受众和最佳定位参数。通过部署自然语言处理模型(NLP),人工智能根据行为、喜好和参与模式等各种标准创建用户群集。这些基于人工智能的群集使JOE & THE JUICE能够自动发现行为洞察力,便捷地精确定位高意愿的受众,从而将转化率推至新的高度。 Joe…

Leave a Comment

遇见PIXART-α:一款基于Transformer的T2I扩散模型,其图像生成质量与最先进的图像生成器相媲美

全新的逼真图像合成时代已经开始,得益于文本到图像(T2I)生成模型的发展,例如DALLE 2、Imagen和Stable Diffusion。这极大地影响了许多下游应用,包括图片编辑、视频制作、3D素材的创建等。然而,这些复杂的模型需要大量的处理能力进行训练。例如,训练SDv1.5需要6K A100 GPU天,约花费320,000美元。更大型的模型RAPHAEL甚至需要60K A100 GPU天,约花费3,080,000美元。此外,训练过程还会导致大量的二氧化碳排放,给环境造成压力;例如,RAPHAEL的训练产生了35吨二氧化碳排放,相当于一个人在7年内的排放量,如图1所示。 图1:显示了在T2I生成者之间的二氧化碳排放和训练成本方面的比较。在PIXART-α的训练上花费了显著的26,000美元。我们的二氧化碳排放和训练开销仅比RAPHAEL少1.1%和0.85%。 这样高昂的价格给研究界和企业获得这些模型带来了重大限制,严重阻碍了人工智能图像生成社区的关键进展。这就提出了一个关键问题:他们能否以可管理的资源使用创建高质量的图片生成器?华为诺亚方舟实验室、大连理工大学、香港大学和香港科技大学的研究人员提出了PIXART-α,它大大降低了训练的计算要求,同时保持了竞争力的图片生成质量,达到了最新的先进图像生成器的水平。他们提出了三个主要设计来实现这一点:训练计划的分解。他们将复杂的文本到图像生成问题分解为三个简单的子任务: 学习自然图片中像素的分布 学习文本与图像的对齐关系 改善图像的审美吸引力 他们建议通过用低成本的类别条件模型对T2I模型进行初始化,从而大大降低了第一个子任务的学习成本。他们提供了一个训练范式,包括在信息密度较高的文本-图像对数据上进行预训练和在具有更高审美质量的数据上进行微调,提高训练效果。一种高效的T2I Transformer。他们使用交叉注意力模块将文本条件注入,并简化了计算量大的类别条件分支,以提高效率,基于扩散变压器(DiT)。此外,他们提出了一种重新参数化方法,使得修改后的文本到图像模型可以直接导入原始类别条件模型的参数。 他们可以利用ImageNet关于自然图片分布的先前知识,为T2I Transformer提供可接受的初始化,并加速其训练过程。高质量的信息。他们的研究揭示了现有文本-图像对数据集的显著缺陷,以LAION为例。文字说明常常受到严重的长尾效应的影响(即许多名词只出现极低的频率)以及缺乏有信息量的内容(即通常只描述图像中的一部分物体)。这些缺陷大大降低了T2I模型训练的有效性,需要数百万次迭代才能获得可靠的文本-图像对齐。他们建议使用最先进的视觉语言模型在SAM上进行自动标注的流程,以解决这些问题。 SAM数据集拥有大量多样的对象,使其成为生成信息密度较高、更适合文本-图像对齐学习的文本-图像配对的理想来源。他们巧妙的特征使得他们的模型训练变得极其高效,仅需675 A100 GPU天和26,000美元。图1显示了他们的方法使用的训练数据量(0.2%对比Imagen)和训练时间(2%对比RAPHAEL)比Imagen更少。他们的训练开销约为RAPHAEL的1%,节省了约3,000,000美元(26,000美元对比3,080,000美元)。 关于生成质量,他们的用户研究试验表明 PIXART-α 在画质上比当前的 SOTA T2I 模型、稳定扩散等方面具有更好的语义对齐效果;而且,它在…

Leave a Comment

Can't find what you're looking for? Try refining your search: