Press "Enter" to skip to content

7458 search results for "t"

见面吉加GPT:Cerebras 实现 Andrei Karpathy 的nanoGPT,用只有565行代码训练GPT-3规模的AI模型

训练大型变压器模型面临重大挑战,尤其是在追求具有数十亿甚至数万亿参数的模型时。主要障碍在于如何在多个GPU上高效分配工作负载,同时减轻内存限制。当前的情况依赖于复杂的大型语言模型(LLM)扩展框架,如Megatron、DeepSpeed、NeoX、Fairscale和Mosaic Foundry。然而,随着模型大小的增加,这些框架引入了相当大的复杂性。讨论的研究介绍了Cerebras的gigaGPT作为解决这些挑战的新颖方法,提供了一种消除对复杂并行化技术的需要的替代方法。 对于训练大型变压器模型,像Megatron和DeepSpeed这样的方法依赖于多GPU之间的分布式计算。然而,随着模型大小超过几十亿个参数,这些方法会遇到内存限制,需要复杂的解决方案。相比之下,Cerebras的gigaGPT引入了一种范式转变。它实现了nanoGPT,它具有仅565行的非常紧凑的代码库。这个实现可以训练具有超过1000亿个参数的模型,而无需额外的代码或依赖第三方框架。GigaGPT利用了Cerebras硬件的大量内存和计算能力。与其同行不同的是,它可以无缝操作而不引入额外的复杂性,既提供了简洁可靠的代码库,又能够训练GPT-3规模的模型。 GigaGPT在其核心是实现了基本的GPT-2架构,与nanoGPT的原则紧密对齐。它使用了学习的位置嵌入、标准的自注意力机制、模型中的偏置以及模仿nanoGPT的结构的选择。值得注意的是,该实现不仅适用于特定的模型大小;gigaGPT通过训练具有111M、13B、70B和175B个参数的模型,证明了它的多功能性。 与GPT-2分词器和nanoGPT的预处理代码配合使用的OpenWebText数据集成为测试基础。GigaGPT的性能得到了证明,它可以从数百万个参数的模型扩展到具有数百亿个参数的模型,而不需要专门的并行化技术。这565行代码涵盖了整个代码库,展示了其简单和高效。 该实现的成功在特定的模型配置中得到了进一步的体现。例如,111M配置与Cerebras-GPT相一致,保持了相同的模型维度、学习率、批量大小和训练计划。类似地,13B配置与相应的Cerebras-GPT配置相匹配,70B配置借鉴了Llama-2 70B。70B模型保持了稳定性和性能,展示了其可扩展性。在验证了70B模型之后,研究人员通过配置基于GPT-3论文的175B模型来推动界限。最初的步骤展示了该模型在处理增加的规模时的内存问题,暗示了gigaGPT可能扩展到超过1万亿个参数的模型。 总之,gigaGPT成为训练大型变压器模型的一项突破性解决方案。研究团队的实施不仅通过提供简洁和易于操作的代码库简化了过程,还使得训练GPT-3规模的模型成为可能。利用Cerebras硬件的广阔记忆和计算能力,标志着在使大规模AI模型训练更加可访问、可扩展和高效方面的重要进步。这种创新的方法为机器学习研究人员和从业者解决训练大规模语言模型中的复杂性提供了一个有前途的途径。 Introducing gigaGPT: our implementation of @karpathy’s nanoGPT that trains GPT-3 sized models in just 565 lines of…

Leave a Comment

“用GPT-4打造个性化的人工智能交易顾问”

介绍 近年来,将人工智能(AI)整合到股票交易中已经改变了投资者的决策方式。随着大型语言模型(LLMs)如GPT-3和GPT-4的出现,发生了一场范式转变,使个人投资者和交易者更容易获得复杂的市场分析和见解。这种革命性的技术利用大量的数据和复杂的算法,提供了以前仅由机构投资者独占的市场理解深度。本文重点介绍使用LLMs开发个性化AI交易顾问,旨在根据风险偏好、投资时间、预算和期望回报来匹配个人投资者的投资配置,为零售投资者提供个性化、战略性的投资建议。 由GPT-3和GPT-4等大型语言模型(LLMs)驱动的股票交易顾问已经彻底改变了金融咨询服务。它们可以利用人工智能来分析历史股票数据和当前的财经新闻,为投资者提供与其独特投资组合和财务目标相符合的个性化投资建议。我们将尝试构建一个顾问来预测市场行为和趋势,根据个人风险承受能力、投资期限、可用资本和期望回报提供量身定制的建议。 学习目标 通过本文,读者将能够: 了解AI和像GPT-3这样的LLMs如何改变股市分析和交易。 认识到基于个人风险偏好和投资目标的AI驱动工具提供个性化投资建议的能力。 了解AI如何利用历史和实时数据制定投资策略和预测。 了解股票交易中的AI如何使复杂的投资策略对更广泛的受众(包括零售投资者)可行。 发现如何利用AI驱动的工具进行个人投资和股票交易决策。 了解利用LLMs构建股票交易顾问的概念。 本文作为数据科学博文马拉松的一部分进行发布。 关于数据集 该项目的数据集从纽约证券交易所获取,并在Kaggle上提供,包括覆盖七年的四个CSV文件。其中包括关键的财务指标“fundamentals.csv”,提供历史股价和股票分割调整的“prices.csv”和“prices-split-adjusted.csv”,以及提供附加公司信息(如部门分类和总部)的“securities.csv”。这些文件的综合提供了对公司业绩和股票市场动态的全面了解。 数据准备 使用类似GPT-4这样的大型语言模型(LLMs)来实现股票交易顾问,需要进行关键的数据准备。这个过程包括重要的任务:数据清洗、归一化和分类,使用提供的数据集:fundamentals.csv、prices.csv、prices-split-adjusted.csv和securities.csv。 步骤1:数据清洗 在“基本数据集”中,我们使用中值插补来处理“For Year”、“Earnings Per Share”和“Estimated Shares Outstanding”的缺失值(173个、219个和219个缺失值)。 我们将“Period Ending”列转换为日期时间格式,使其适合进行数字字段分析。…

Leave a Comment

Together AI推出了StripedHyena-7B:一种替代性的人工智能模型,与最优秀的开源变压器在短期和长期上下文评估中具有竞争力

AI ​​一起为序列建模架构作出了重大贡献,并引入了StripedHyena模型。它通过为传统的Transformer提供了新的选择,专注于计算效率和增强性能,彻底改变了这一领域。 此发布包括基础模型StripedHyena-Hessian-7B(SH 7B)和聊天模型StripedHyena-Nous-7B(SH-N 7B)。StripedHyena基于去年创建的H3、Hyena、HyenaDNA和Monarch Mixer等有效的序列建模架构的重要经验教训。 研究人员强调,该模型在训练、微调和生成过程中处理长序列时具有更快的速度和更高的内存效率。StripedHyena通过将门控卷积和注意力结合到他们所称的Hyena运算符中的混合技术中。此外,这是与强大的Transformer基础模型竞争的首个替代架构。在包括OpenLLM leaderboard任务的短上下文任务中,StripedHyena优于Llama-2 7B、Yi 7B和最强Transformer替代方案(如RWKV 14B)。 该模型在处理短上下文任务和处理较长提示的过程中通过研究各种基准进行了评估。在Project Gutenberg书籍上进行的困惑度缩放实验表明,困惑度在32k处饱和或在此点之后下降,这意味着模型能够吸收来自较长提示的信息。 StripedHyena通过一种独特的混合结构实现了效率,该结构将注意力和门控卷积组织成Hyena运算符。他们使用创新的嫁接技术优化了这种混合设计,在训练过程中实现了架构修改。 研究人员强调,StripedHyena的主要优势之一是其在训练、微调和生成长序列等各种任务中的速度和内存效率的提升。它在32k、64k和128k上的端到端训练中,分别比使用FlashAttention v2和自定义内核进行优化的Transformer基准性能提高了30%、50%和100%。 未来,研究人员希望在几个领域取得显著进展,其中包括StripedHyena模型。他们希望创建能够处理更长上下文的更大模型,从而扩大信息理解的限制。此外,他们还希望融入多模态支持,通过允许它处理和理解来自不同来源(如文本和图像)的数据,提高模型的适应性。 总之,该模型有望通过引入额外的计算(例如在门控卷积中使用多个头)改进Transformer模型。这种受线性注意力启发的方法,在H3和MultiHyena等架构中已被证明有效,提高了模型在训练过程中的质量,并为推理效率提供了优势。

Leave a Comment

Mistral AI发布MoE 8x7B版本的语言模型突破性进展

总部位于巴黎的初创公司Mistral AI推出了一款语言模型——MoE 8x7B。Mistral LLM经常被比作缩小版的GPT-4,它由8个拥有每个拥有70亿参数的专家组成。值得注意的是,在每个记号的推理中,只有其中的2个专家会被使用,展示了一种简化而高效的处理方式。 该模型采用混合专家(MoE)架构,以实现令人印象深刻的性能和效率。与传统模型相比,这使得性能更高、效率更优。研究人员强调,MoE 8x7B在文本生成、理解以及需要高级处理的编码和SEO优化等任务方面,表现比之前的模型(例如Llama2-70B和Qwen-72B)更好。 这在AI社区引起了很大轰动。著名的AI咨询师和以色列机器学习和深度学习社区的创始人表示,Mistral以此类发布闻名,并将其视为业界的特色。开源AI倡导者Jay Scambler指出了发布的不寻常之处。他表示,它成功地引起了极大关注,暗示这可能是Mistral故意采取的一种策略,以吸引AI社区的关注和好奇。 Mistral在AI领域的发展过程中也取得了里程碑式的成就,包括拿下创纪录的1.18亿美元种子轮融资,该轮融资被报道为欧洲历史上最大的融资规模。该公司在9月推出了其首个大型语言AI模型Mistral 7B,进一步获得了认可。 MoE 8x7B模型拥有8个专家,每个专家拥有70亿参数,相比之下,GPT-4每个专家拥有16个专家和1660亿参数。与估计的GPT-4的1.8万亿参数相比,该模型的估计总参数为420亿。此外,MoE 8x7B对语言问题有更深入的理解,从而改进了机器翻译、聊天机器人交互和信息检索。 MoE架构允许更高效的资源分配,从而实现更快的处理速度和更低的计算成本。Mistral AI的MoE 8x7B标志着语言模型发展的重大进步。其卓越的性能、效率和多样性为各个行业和应用领域带来了巨大的潜力。随着AI的不断发展,像MoE 8x7B这样的模型预计将成为寻求增强数字专长和内容策略的企业和开发者的重要工具。 总之,Mistral AI的MoE 8x7B发布引入了一种结合了技术复杂性和非传统营销策略的新颖语言模型。研究人员对这种尖端语言模型的效果和用途感到兴奋,AI社区将继续审查和评估Mistral的架构。MoE 8x7B的能力可能会为教育、医疗保健和科学发现等各个领域的研究和发展开辟新的道路。

Leave a Comment

简洁与准确相遇:使用AWS Trainium进行高性价比的GPT NeoX和Pythia模型训练

大型语言模型(或LLM)已成为日常对话的话题它们被迅速采用的证据是从“Facebook的4.5年”到“ChatGPT的短短2个月”的时间内就达到了1亿用户的数量生成式预训练变压器(GPT)使用因果自回归更新[…]

Leave a Comment

这篇来自伦敦帝国学院和Eleuther AI的AI论文探讨了角色扮演作为理解对话代理行为的框架

“`html 在我们当代世界中,人工智能(AI)的整合深刻地改变了人类的互动方式。大型语言模型(LLMs)的出现,比如ChatGPT,引发了明显的转变,模糊了像人类一样的认知能力和自动化回应之间的界限。来自伦敦帝国理工学院和Eleuther AI研究团队的最新一篇论文从语言的角度阐述了我们在这个不断演化的AI智能领域中需要重新评估的必要性。 AI聊天机器人的吸引力在于它们惊人的能力模拟与有意识的个体进行对话,而不仅仅是机械算法。然而,这种模拟人类互动的能力引发了人们对个人易于形成情感联系的担忧,可能导致风险和漏洞。研究人员强调了我们重新校准对这些LLMs的语言和观念的必要性。 问题的本质在于人类固有的社交和移情倾向,这促使人们与展现出人类属性的实体进行互动。然而,这种倾向使人易受恶意行为者的利用,后者可能滥用LLMs进行欺诈活动或宣传。团队警告我们不要将“理解”、“思考”或“感觉”等人类属性归因于LLMs,因为这会无意中使它们拟人化,并产生需要保护的脆弱性。 该论文提出了缓解对AI聊天机器人过度情感依附或依赖的风险的策略。它主张从两个基本隐喻出发改变我们的看法。首先,将AI聊天机器人视为扮演独立角色的演员能简化用户理解。其次,将它们视为在广泛的潜在角色中扮演各种角色的策划者能提供更复杂、技术化的视角。研究人员强调了灵活性的重要性,敦促在这些不同隐喻之间无缝过渡,以促进全面理解。 团队强调人们与AI聊天机器人互动的态度极大地塑造了他们的观念和脆弱性。接纳多样的观点能更全面地把握这些系统固有的能力。 对语言的彻底改变的必要性超越了语义上的变化;它需要认知范式的根本转变。如研究人员所描述的,理解这些“异域的类人智能体”需要摆脱传统的拟人主义。反而,它需要一种灵活的思维方式,能够在简化和复杂化的AI聊天机器人概念之间流畅地切换。 总之,该论文强调了在不断演变的AI嵌入式互动环境中,语言适应和认知灵活性的重要性。随着技术的进步,重新塑造围绕AI聊天机器人的讨论变得尤为必要。通过重新校准语言并接纳多样的观点,个体可以在利用这些智能系统的潜力的同时减轻内在风险,从而促进人类认知和AI智能之间的和谐关系。 “`

Leave a Comment

这篇人工智能论文介绍了MVControl:一种革命性的神经网络架构,改变了可控多视角图像生成和3D内容创作的方式

最近,在2D图片制作方面取得了显著的进展。输入文本提示使生成高保真度图形变得简单。因为需要3D训练数据,所以将文本到图像创建的成功很少转移到文本到3D领域。由于扩散模型和可微分3D表示的良好特性,最近基于分数蒸馏优化(SDS)的方法旨在从预训练的大型文本到图像生成模型中蒸馏3D知识,并取得了令人印象深刻的结果,而不是使用大量3D数据从头开始训练大型文本到3D生成模型。DreamFusion是一项引入了新方法的示范性工作,用于3D资产创建。 在过去的一年中,这些方法论已迅速发展,根据2D到3D蒸馏范式。通过应用多个优化阶段,同时优化扩散和3D表示,制定具有更高精度的分数蒸馏算法,或改进整个流程的细节,已提出了许多研究来提高生成质量。虽然上述方法可以产生细腻的纹理,但由于2D扩散先验不是依赖性的,确保生成的3D内容的视图一致性是困难的。因此,已经做出了一些努力,将多视图信息强制加入预训练的扩散模型中。 然后,将基本模型与控制网络集成,以实现受控的文本到多视图图片生成。同样,研究团队仅训练控制网络,MVDream的权重全部冻结。实验表明,相对于绝对世界坐标系中描述的相机姿态条件图片,相对于条件图片的相对姿态条件更好地控制文本到多视图生成,尽管MVDream是在训练时使用绝对世界坐标系中的相机姿态进行训练的。尽管如此,这与预训练的MVDream网络的描述相违背。此外,只有通过直接采用2D ControlNet的控制网络与基本模型交互时,才能轻松实现视图一致性,因为它的条件机制是为单一图像创建而构建的,需要考虑多视图情况。 为了解决这些问题,浙江大学、西湖大学和同济大学的研究团队基于原始的ControlNet架构创建了一种独特的调节技术,简单而成功地实现了受控的文本到多视图生成。他们联合使用了庞大的2D数据集LAION和3D数据集Objaverse来训练MVControl。在这项研究中,研究团队研究了将边缘图作为条件输入。然而,他们的网络在利用不同类型的输入情况(如深度图、草图图像等)方面是无限制的。一旦训练完成,研究团队可以使用MVControl为受控文本到3D资产生成提供3D先验。具体而言,研究团队使用基于MVControl网络和预训练的Stable-Diffusion模型的混合扩散先验。这是一个由粗到细的生成过程。当在粗阶段拥有良好的几何形状时,研究团队仅优化细化步骤中的贴图。他们的全面测试表明,他们提出的方法可以使用输入条件图像和书面描述生成高保真度、细粒度受控的多视图图像和3D内容。 总结起来,以下是他们的主要贡献。 • 在训练完成网络后,可将其用作混合扩散的组成部分,通过SDS优化实现对文本到3D内容合成的受控。 • 研究团队提出了一种独特的网络设计,以实现细粒度受控的文本到多视图图片生成。 • 他们的方法可以生成高保真度的多视图图像和3D资产,在输入条件图像和文本提示的精细控制下,如 extensive experimental results 所示。 • 除了通过 SDS 优化生成 3D 资产外,他们的 MVControl 网络还可以在 3D…

Leave a Comment

揭示内部运作:深入探究BERT的注意力机制

介绍 BERT,全称为双向编码器表示来自转换器,是一种利用转换器模型和无监督预训练进行自然语言处理的系统。BERT通过两个无监督任务进行预训练:掩码语言建模和句子预测。这使得BERT能够根据具体任务进行定制化,而无需从头开始。本文将介绍BERT的注意力机制及其工作原理。 也可阅读:什么是BERT?点击这里! 学习目标 理解BERT中的注意力机制 BERT中如何进行标记化? BERT中如何计算注意力权重? BERT模型的Python实现 该文章是数据科学博文马拉松的一部分。 BERT中的注意力机制 让我们从最简单的角度开始理解什么是注意力。注意力是模型试图在句子中对那些更重要的输入特征加重权重的一种方式之一。 让我们通过以下示例来理解注意力机制的基本工作原理。 示例1 部分单词比其他单词更受关注 在上面的句子中,BERT模型可能更倾向于给单词“cat”和动词“jumped”赋予更多权重,而不是“bag”,因为了解它们对于预测下一个单词“fell”的过程更加重要。 示例2 考虑以下句子: 部分单词比其他单词更受关注 为了预测单词“spaghetti”,注意力机制会更加关注动词“eating”,而不是“bland”这个副词。 示例3 同样地,在像下面这样的翻译任务中: 输入句子:How was your day…

Leave a Comment

迎接NexusRaven-V2:一款13B LLM在零转移功能调用方面优于GPT-4,并具有将自然语言指令转化为可执行代码的能力

LLMs可以通过在与代码相关的数据集上进行微调来生成代码片段,包括函数调用。这些模型可以根据提供的输入来提供关于函数调用的建议或生成代码,通过提供上下文或提示来提供关于函数调用的建议或生成代码。语言模型可用于自然语言理解代码相关的查询或指令。开发者可以输入问题或描述,模型可以解释这些内容并提供相关的函数调用或代码段作为答案。 LLMs可以通过根据上下文或部分代码提供的内容提出函数调用或建议相关的函数来协助完成代码。这有助于开发者更快地编写更准确的代码。LLMs可以根据给定的任务或问题描述引导合适的API或过程,以帮助开发者找到其代码中需要调用的正确函数。将LLMs集成到开发环境中可为开发者提供实时协助,指导他们进行函数调用、参数类型或潜在错误的处理。 Nexusflow的研究人员提出了一个开源的LLM模型,NexusRaven-V2。它可以将自然语言指令转换为可使用工具的可执行代码。OpenAI Assistant API是实现协助工具和代理程序使用软件工具的关键。NexusRaven-V2旨在推进合作伙伴和代理程序的开源模型。 在涉及嵌套和复合函数的人工生成用例中,NexusRaven-V2的函数调用成功率比GPT-4高出最多7%。NexusRaven经过了针对Meta的CodeLlama-13 B指令进行的调整。它使用Nexusflow的管道,仅从开源代码语料库中来源,而不使用专有的LLM。对于社区开发者和企业来说,它具有商业上的宽容度。 观察到,在我们的人为策划基准测试中,NexusRaven-V2的函数调用成功率平均比最新的GPT-4模型高出4%。值得注意的是,在4个需要嵌套和复合函数调用的挑战性任务中,NexusRaven-V2表现出比GPT-4更强大的适应性,能够处理开发者对函数描述的差异。 该团队发布了开源的工具,使用户能够无缝替换主流专有的函数调用API,并在其软件工作流程中使用NexusRaven-V2。他们还提供在线的演示和Colab笔记本,用于入门和集成演示。他们公开了评估基准测试Nexus-Function-Calling并建立了一个Huggingface 排行榜,其中包含大量真实的人工策划的函数调用示例,涵盖了各种函数调用用例和难题。 在未来,函数调用LLMs可以受益于教育环境,为学习者提供实时协助,指导他们正确调用函数,从而帮助他们理解编程概念。

Leave a Comment

EU对AI监管的初步协议:对ChatGPT的影响

欧洲联盟最近达成了一项初步协议,概述了对先进人工智能模型进行监管的法规,特别强调了广为认可的ChatGPT。这标志着建立全球首个全面人工智能监管的重要进展。 人工智能系统的透明度 为了增强透明度,通用人工智能系统的开发者,包括令人敬畏的ChatGPT,必须遵守基本要求。这些要求包括实施可接受使用政策,及时更新模型训练方法的信息,并提供详细的培训数据摘要。此外,还必须承诺尊重版权法。 对具有“系统风险”的模型的其他规定 被确定为具有“系统风险”的模型面临更严格的监管。这种风险的确定取决于在模型训练过程中使用的计算能力。值得注意的是,任何超过每秒10万亿次操作的模型,其中包括OpenAI的GPT-4,都属于此类别。欧盟的执行机构有权根据多种标准(如数据集大小、注册商业用户和最终用户)指定其他模型。 还有:惊人的消息:ChatGPT易受数据泄露攻击 对高度可行模型的行为准则 高度可行模型,包括ChatGPT,在欧洲委员会制定更全面和持久的控制措施之前,需要采取行为准则。如果不合规,就需要证明遵守人工智能法。需要注意的是,虽然开源模型可以豁免某些控制,但如果被认定存在系统风险,它们也不会免责。 对模型的严格义务 纳入监管框架的模型必须报告其能源消耗,进行红队或对抗性测试,评估和减轻潜在的系统风险,并报告任何事件。此外,它们还必须确保实施强大的网络安全控制、披露用于微调模型的信息,并在开发时遵守更节能的标准。 批准过程和关注点 欧洲议会和欧盟的27个成员国尚未批准这项初步协议。与此同时,法国和德国等国家提出了关切。这些担忧围绕着对欧洲人工智能竞争对手的压制风险,例如Mistral AI和Aleph Alpha等公司。法国和德国特别担心过多的监管会阻碍全球人工智能领域的创新和竞争力。 还有:欧洲人工智能巨头MISTRAL AI筹集了3.85亿欧元 我们的观点 在应对人工智能监管的复杂领域中,欧盟的做法寻求在促进创新和防范潜在风险之间取得微妙的平衡。随着提议等待批准,一些成员国提出了担忧。这凸显了在AI领域的监管程度上达成共识的挑战。在制定人工智能治理未来时,平衡AI开发者的愿望与社会安全的需要仍然是一项关键任务。

Leave a Comment

Meta AI推出可重新调光的高斯编码化身:一种建立高保真可重新调光头像的人工智能方法,可通过动画生成新颖表情

在一项具有突破性的举措中,Meta AI的研究人员解决了实现动态3D头像的高保真重照的长期挑战。传统方法常常需要在捕捉面部表情的复杂细节方面迎头赶上,尤其是在效率至上的实时应用中。Meta AI的研究团队通过推出可重光高斯编码人偶的方法回应了这一挑战,该方法有望重新定义人偶逼真度的领域。 研究团队致力于解决的核心问题是在动态面部序列中捕捉亚毫米细节(如头发和毛孔)更加清晰的需求。在高效建模人类头部的多种材料(包括眼睛、皮肤和头发)以及适应全频反射的同时,固有复杂性也引发了现有方法的局限性,迫切需要一种能够将逼真与实时性能无缝融合的创新解决方案。 对于可重光人偶的现有方法,实时性能和真实度之间一直没有找到平衡。一个持久存在的挑战是需要一种方法能够在实时应用中捕捉到动态面部细节。Meta AI的研究团队意识到了这一差距,并推出了“可重光高斯编码人偶”作为一种具有改变性的解决方案。 Meta AI的方法引入了基于3D高斯的几何模型,提供了亚毫米级精度的准确性。这是在捕捉动态面部序列方面的重大进步,确保人偶展现出生动的细节,包括头发和毛孔的微妙之处。可重光外观模型是这种创新方法的关键组成部分,其基于可学习辐射传输技术构建。 https://arxiv.org/abs/2312.03704 这些人偶的独特之处在于它们在人偶构建方面的综合方法。基于3D高斯的几何模型为人偶提供了骨干,使得可以使用高斯喷洒技术进行高效渲染。外观模型由可学习辐射传输驱动,结合了漫反射球谐和反射高斯球面。这种组合使人偶能够通过点光源和连续照明进行实时重照。 除了这些技术方面,该方法还引入了表情、凝视、视角和照明的可分解控制。借助潜在表情代码、凝视信息和目标视角方向,可以实现人偶的动态动画。这种控制水平在人偶动画方面迈出了重要的一步,提供了丰富多样的互动用户体验。 这些人偶不仅是理论上的进步,它们也带来了实际结果。该方法允许通过头戴摄像头实时驱动的视频动画来对各个方面进行可分解控制。这种能力创造了动态的、互动的内容,让实时视频输入能够无缝驱动人偶。 总之,Meta AI的“可重光高斯编码人偶”证明了创新在解决复杂问题中的力量。通过将基于3D高斯的几何模型与一种革命性的可学习辐射传输外观模型相结合,研究团队已经超越了现有方法的局限性,树立了人偶逼真度的新标准。

Leave a Comment

薛定谔桥是如何击败扩散模型在文本转语音(TTS)合成中的?

随着人工智能的不断发展,自然语言处理、自然语言生成和计算机视觉这些领域最近取得了巨大的流行,这都要归功于大型语言模型的引入。扩散模型在生成文本到语音合成(TTS)方面已经证明非常成功,显示出了很高的生成质量。然而,它们的先验分布受限于引入噪声并对所需生成目标提供很少信息的表示形式。 最近的研究中,清华大学和微软亚洲研究院的研究人员团队介绍了一种名为Bridge-TTS的新的文本到语音系统。这是首次尝试在已建立的扩散式TTS方法中利用干净可预测的替代方法替代噪声高斯先验。该替代先验提供了有关目标的强结构信息,并从文本输入提取的潜在表示中获取。 该团队表示,主要贡献在于开发出了一个完全可管理的薛定谔桥,它连接了真实的梅尔谱图和干净的先验。建议的Bridge-TTS使用的是一种数据到数据的过程,这比起扩散模型的数据到噪声过程改善了先前分布的信息内容。 该团队已经对这种方法进行了评估,并在LJ-Speech数据集上进行了实验验证,评估结果突出显示了建议方法的有效性。在50步骤/1000步骤合成设置中,Bridge-TTS表现出比扩散对应方法Grad-TTS更好的性能。它甚至在少量步骤的情况下比强大且快速的TTS模型表现更好。Bridge-TTS方法的主要优势在于合成质量和采样效率。 该团队总结了主要贡献如下。 从无污染的文本潜在表示中产生了梅尔谱图。与传统的数据到噪声过程不同,这个作为扩散模型上下文中的条件信息的表示形式被设计成无噪声。薛定谔桥被用来研究数据到数据的过程。 针对配对数据,提出了一个完全可计算的薛定谔桥。这个桥使用柔性形式的参考随机微分方程(SDE)。这种方法允许对设计空间进行实证调查,并提供了一个理论解释。 研究了采样技术、模型参数化和噪声调度如何对改善TTS质量发挥作用。还实现了不对称噪声调度、数据预测和一阶桥采样器。 完全可计算的薛定谔桥使得对底层过程的完整理论解释成为可能。通过实证研究,我们可以了解到不同因素如何影响TTS的质量,包括不对称噪声调度、模型参数化决策和采样过程的效率。 该方法在推理速度和生成质量方面取得了很好的结果。在1000步和50步的生成情况下,它明显优于基于扩散的Grad-TTS。它在4步生成中也优于FastGrad-TTS,优于基于transformer的模型FastSpeech 2和最先进的蒸馏方法CoMoSpeech在2步生成中。 该方法仅经过一次训练就取得了出色的结果。这种效率在创作过程的多个阶段都可见,展示了建议方法的可靠性和效力。

Leave a Comment

如何在不依赖OpenAI或LM Studio的情况下使用AutoGen?

介绍 你准备好了吗,要在没有依赖OpenAI和LM Studio的情况下创建你的AI团队了吗?不再需要花大钱或下载应用程序。从设置llama-cpp-python到使用autogen框架探索本地LLM的强大功能。准备好在不依赖OpenAI API的情况下发挥Autogen的全部潜力了吗。 学习目标 在我们深入了解细节之前,让我们概述本文的关键学习目标: 学习如何评估和比较不同的AI库和工具。 探索llama-cpp-python作为OpenAI API的替代方案。 将所获知识应用于两个真实世界的用例:构建算法导师团队和自动化财务图表生成。 通过集成的IPython探索AutoGen改进的用户体验,实时执行代码并看到结果。 本文是数据科学博客马拉松的一部分。 认识你的工具:Llama-cpp-python,AutoGen和本地LLMs 但是你可能会问,这个技术工具包有什么特别之处?Llama-cpp-python是你在本地运行LLMs的入口,包括像LLaMA这样的大牌。就像你的电脑上有AI超级明星,而且支持不同的BLAS后端,速度超乎想象! AutoGen AutoGen是一个统一的多代理对话框架,作为使用基础模型的高级抽象。它结合了能力强大、可定制和可对话的代理,通过自动对话集成LLMs、工具和人类参与者。它使代理能够自主沟通和协作,有效地简化复杂任务并自动化工作流程。 如果你渴望深入了解AutoGen的能力,并探索它如何促进战略性的AI团队建设,不妨看看我们专门的博客:“借助AutoGen轻松实现战略性AI团队建设。”这个综合资源提供了见解、用例和更详细的介绍,展示了AutoGen如何改变你的AI开发方式。 库/工具 一些库/工具提供了一个Web服务器,旨在替代OpenAI API。 除了上述选项,还有其他选择,但最佳选择取决于你的偏好和需求。 Llama-cpp-python Llama-cpp-python是llama.cpp库的Python绑定。它通过ctypes接口提供对C API的低级访问,提供了高级Python API用于文本补全、类似OpenAI的API和LangChain兼容性。它支持多个BLAS后端以加快处理速度,也支持硬件加速。…

Leave a Comment

约翰霍普金斯大学和圣克鲁兹加利福尼亚大学的研究人员揭示了D-iGPT:图像AI学习方面的突破性进展

自然语言处理(NLP)已经进入了一个转型期,引入了大型语言模型(LLMs),例如GPT系列,为各种语言任务设置了新的性能标准。自回归预训练是这一惊人成就的主要因素之一,这种技术教会模型预测序列中最可能的标记。由于这种基本技术,模型能够吸收语法和语义之间的复杂交互,从而为他们理解语言的能力提供卓越的贡献,就像一个人一样。自回归预训练在NLP之外也在计算机视觉方面起到了重要作用。 在计算机视觉中,自回归预训练起初取得了成功,但随后的发展显示出明显的范式转变,更倾向于BERT风格的预训练。特别值得注意的是,从iGPT的首次结果可以看出,自回归和BERT风格的预训练在各种任务上的表现类似。然而,由于在视觉表示学习方面更加有效,后续的研究更偏向于BERT风格的预训练。例如,MAE表明,可扩展的视觉表示学习方法可能就是简单地预测随机屏蔽像素的值。 在这项研究中,约翰斯·霍普金斯大学和加州大学圣克鲁兹分校的研究团队重新审视了iGPT,并质疑自回归预训练是否能够产生高度熟练的视觉学习者,尤其是在广泛应用时。研究团队在其过程中融入了两个重要的改变。首先,研究团队使用BEiT将照片“分词”为语义标记,考虑到图像本身具有噪声和冗余。这个修改将自回归预测的重点从像素转移到语义标记上,从而更加复杂地理解各个图像区域之间的相互作用。其次,研究团队在生成解码器中添加了一个判别解码器,它自回归地预测下一个语义标记。 对于已看到的像素预测语义标记是这个额外组件的责任。此外,值得注意的是,像CLIP这样以判别方式训练的模型最适合该预训练路径的语义视觉标记。研究团队将这种改进方法称为D-iGPT。通过对各种数据集和任务进行广泛测试,证实了他们所提议的D-iGPT的效能。仅使用ImageNet-1K作为相关数据集,他们的基准模型在可达到86.2%的Top-1分类准确率上超越了之前的最先进技术的0.6%。 此外,他们的大规模模型在3600万个公开可用数据集上实现了89.5%的Top-1分类准确率。D-iGPT在公共数据集上达到了先前最先进的训练水平,尽管使用的训练数据更少,模型尺寸更小。研究团队还在相同的预训练和微调数据集上分析了D-iGPT在语义分割上的表现,发现其优于MAE相等的方法。

Leave a Comment

斯坦福大学和FAIR Meta的研究人员发布了CHOIS:一种具有突破性的AI方法,可通过语言引导合成逼真的三维人物-物体互动

斯坦福大学和FAIR Meta的研究人员引入了CHOIS来解决在3D场景中生成物体和人类的同步运动的问题。该系统基于稀疏的物体航点、物体和人类的初始状态以及文本描述来运作。它通过在指定的3D环境中为两者产生逼真且可控的动作来控制人类和物体之间的交互。 利用类似AMASS这样的大规模、高质量的动作捕捉数据集,人们对生成式人体运动建模的兴趣日益增加,包括有条件的动作和文本生成。之前的研究使用VAE公式来从文本生成多样化的人体运动,而CHOIS则专注于人体与物体的互动。与现有方法通常集中在手部动作合成不同,CHOIS考虑到在抓取物体之前的全身动作,并根据人体的动作预测物体的运动,为交互式3D场景模拟提供了综合解决方案。 CHOIS解决了在3D环境中合成逼真人类行为的关键需求,这对计算机图形学、具体化人工智能和机器人技术至关重要。CHOIS通过基于语言描述、初始状态和稀疏物体航点来生成同步的人类和物体运动来推动该领域的发展。它解决了现实运动生成、适应环境杂乱以及从语言描述中合成交互等挑战,为多样化的3D场景中可控人体与物体交互提供了综合系统。 该模型使用条件扩散方法根据语言描述、物体几何和初始状态生成同步的物体和人体运动。在采样过程中加入约束以确保逼真的人与物接触。训练阶段使用损失函数来引导模型预测物体变换而无需明确强制接触约束。 CHOIS系统经过与基准模型和消融实验的严格评估,展示了在条件匹配、接触准确性、减少手部与物体的穿透以及脚部漂浮等指标上表现出的卓越性能。在FullBodyManipulation数据集上,物体几何损失增强了模型的能力。CHOIS在3D-FUTURE数据集上的表现超过了基准模型和消融模型,展示了其对新物体的泛化能力。人类感知研究突出了CHOIS与基准模型相比,在与输入文本的对齐和交互质量方面表现更好。定量指标,包括位置和方向误差,衡量了生成结果与真实运动之间的偏差。 总之,CHOIS是一个基于语言描述和稀疏物体航点生成逼真的人与物体交互的系统。该过程在训练过程中考虑到物体几何损失,并在采样过程中使用有效的引导项来增强结果的逼真度。CHOIS学习到的交互模块可以集成到根据语言和3D场景合成长期交互的流水线中。CHOIS在生成与提供的语言描述相一致的逼真人与物体交互方面有显著改进。 未来的研究可以探索通过集成额外的监督,如物体几何损失,来提高生成的物体运动与输入航点的匹配度。研究如何使用更高级的引导项来强制接触约束,可能会得到更逼真的结果。将评估扩展到多样化的数据集和场景将测试CHOIS的泛化能力。进一步的人类感知研究可以提供对生成的交互更深入的洞察。将学习到的交互模块应用于根据3D场景的物体航点生成长期交互也将扩大CHOIS的适用性。

Leave a Comment

腾讯研究员发布FaceStudio:一种创新的人工智能文本到图像生成方法,专注于保留身份

文本到图像扩散模型代表了人工智能研究中一个有趣的领域。它们旨在根据文本描述创建逼真的图像,利用扩散模型进行生成。该过程涉及从基本分布中逐步生成样本,逐渐转化为与目标图像相似,同时考虑文本描述。多个步骤参与其中,将逐步引入噪音来生成图像。 目前的文本到图像扩散模型面临一个现有的挑战:仅凭文本描述准确地描绘一个主题。当需要生成复杂细节,如人脸特征时,尤其明显。因此,在探索超越文本线索的保持身份的图像合成方面,人们越来越有兴趣。 腾讯的研究人员提出了一种新的方法,专注于人体图像的身份保持图像合成。他们的模型采用了直接向前传递的方法,绕过复杂的微调步骤,以便快速高效地生成图像。它利用文本提示并结合样式和身份影像的额外信息。 他们的方法涉及一种多身份跨注意机制,使模型能够将来自不同身份的特定引导细节与图像中的不同人体区域相关联。通过使用包含人体图像的数据集对模型进行训练,并以人脸特征作为身份输入,模型学会在强调身份特征的同时重建人体图像。 他们的模型展示了在保留主体身份的同时合成人体图像的出色能力。此外,它使用户能够将自己的面部特征投影到不同风格的图像(如卡通),使用户能够在不损害身份的前提下以不同的风格进行可视化。此外,当提供相应的参考照片时,它在混合多个身份的创意生成方面表现出色。 他们的模型在单镜头和多镜头场景中展示了出色的性能,凸显了其在保护身份方面的设计的有效性。尽管基线图像重建大致保持图像内容,但在细粒度身份信息方面存在困难。相反,他们的模型成功地从身份引导分支中提取身份信息,从而为面部区域实现了更好的结果。 然而,该模型复制人脸的能力引发了伦理关注,尤其是可能创建冒犯性或文化不恰当的图像。负责任地使用这项技术至关重要,需要制定准则以防止在敏感情境中滥用。

Leave a Comment

麻省理工学院(MIT)和苏黎世联邦理工学院(ETH Zurich)的研究人员开发了一种机器学习技术,通过动态分离器选择来增强混合整数线性规划(MILP)求解能力

高效地应对复杂的优化问题,从全球包裹路由到电力网管理,一直是一个持久的挑战。传统方法,特别是混合整数线性规划(MILP)求解器,一直是破解复杂问题的首选工具。然而,它们的缺点在于计算强度,往往导致次优解或长时间的求解。为了解决这些限制,麻省理工学院和苏黎世联邦理工学院的研究人员开创了一种数据驱动的机器学习技术,承诺彻底改变我们解决复杂物流挑战的方式。 在物流领域,优化是关键,挑战是令人生畏的。尽管圣诞老人可能有他神奇的雪橇和驯鹿,但联邦快递等公司需要处理迷宫般的节假日包裹路线。公司使用的软件骨干是MILP求解器,它采用分而治之的方法来解决庞大的优化问题。然而,这些问题的复杂性往往导致求解时间长达数小时甚至数天。由于时间限制,公司经常被迫中断求解器的中间过程,接受亚优解。 研究团队确定了导致求解时间延长的一个关键中间步骤,即分隔管理。分隔管理是每个求解器的核心方面,但往往被忽视。分隔管理负责识别理想的分隔算法组合,这是一个具有指数数量潜在解决方案的问题。研究人员认识到这一点,试图用数据驱动的方法重新激活MILP求解器。 现有的MILP求解器采用通用算法和技术来导航广阔的解决方案空间。然而,麻省理工学院和苏黎世联邦理工学院的团队引入了一个过滤机制,以简化分隔搜索空间。他们将庞大的13万个潜在组合减少到了约20个可管理的选项。这个过滤机制依赖于递减边际效益的原理,即最大的效益来自一小组算法。 创新之处在于将机器学习融入MILP求解器框架。研究人员利用一个在问题特定数据集上训练的机器学习模型,从缩小的选项中选择最佳算法组合。与具有预定义配置的传统求解器不同,这种数据驱动的方法允许公司通过利用自己的数据来针对特定问题定制通用的MILP求解器。例如,像联邦快递这样经常解决路由问题的公司可以使用过去的实际数据来优化和增强他们的解决方案。 这个机器学习模型基于上下文情境强化学习的形式。这个迭代学习过程包括选择一个潜在解决方案,获得有关其有效性的反馈,并在随后的迭代中对其进行优化。结果是将MILP求解器的求解时间大幅加快,从30%到令人瞩目的70%,而不影响准确性。 总之,麻省理工学院和苏黎世联邦理工学院之间的合作努力在优化领域取得了重大突破。通过将经典的MILP求解器与机器学习相结合,研究团队为解决复杂的物流挑战开辟了新的途径。加快求解时间并保持准确性为MILP求解器带来了实际优势,使其更适用于实际场景。这项研究对优化领域做出了贡献,并为在解决复杂实际问题中广泛整合机器学习铺平了道路。

Leave a Comment

来自麻省理工学院和FAIR Meta的研究人员发布了RCG(Representation-Conditioned Image Generation):一种在无条件图像生成中开创性的人工智能框架

如何在不依赖人工标注的情况下生成高质量图像? MIT CSAIL和FAIR Meta的这篇论文解决了不依赖人工标注生成高质量图像的挑战。他们提出了一个名为Representation-Conditioned Image Generation(RCG)的新型框架,该框架利用从图像分布经过预训练编码器获得的自监督表示分布。这个框架在无条件生成图像方面取得了优秀的结果,并且在有条件生成图像方面与领先方法一直保持竞争力。 历史上,监督学习主导了计算机视觉,但是像对比学习这样的自监督学习方法缩小了差距。尽管先前的图像生成工作在使用人工标注进行有条件生成方面表现出色,但无条件生成面临挑战。引入的框架RCG通过在没有人工标注的情况下在类有条件和类无条件图像生成方面取得了卓越的成果。 RCG取得了最先进的结果,标志着自监督图像生成的重大进展。 使用自监督教育的Representation Diffusion Model(RDM)可以帮助弥合图像生成中监督学习和无监督学习之间的差距。RCG将RDM与像素生成器集成,从而实现了潜在优势的类无条件图像生成。 RCG框架将图像生成条件化为通过预训练编码器从图像分布获得的自监督表示分布。利用像素生成器对像素进行条件化,RCG通过通过去噪扩散隐式模型进行的表示空间采样来集成RDM的训练。 RCG集成了无需分类器的指导,以改善生成模型的性能,如MAGE所示。像Moco v3这样的预训练图像编码器将表达式规范化为输入到RDM中。 RCG框架在类无条件图像生成方面表现出色,实现了最先进的结果,并在类有条件图像生成方面与领先方法相媲美。在ImageNet 256×256数据集上,RCG达到了3.31的Frechet Inception Distance和253.4的Inception Score,表明生成了高质量的图像。通过对表示进行条件化,RCG显著改善了像ADM,LDM和MAGE等不同像素生成器的类无条件生成,并进一步改善了性能的训练周期。 RCG的自我条件化图像生成方法在各种现代生成模型中具有通用性,始终改善类无条件生成。 RCG框架借助自监督表示分布在类无条件图像生成方面取得了突破性成果。其与多样的生成模型的无缝集成显著改善了它们的类无条件性能,而其不依赖于人工标注的自我条件化方法有望超越有条件方法。RCG的轻量级设计和任务特定的训练适应性使其能够利用大型无标签数据集。 RCG已经被证明是一种非常有效和有前途的高质量图像合成方法。

Leave a Comment

“超快速BERT:指数级加速语言建模”

语言模型和生成型人工智能因其功能而闻名,是人工智能行业的热门话题全球研究人员正在提升其效能和能力这些系统通常是深度学习模型,它们在广泛标注的数据上进行预训练,并融合了自注意力神经网络它们使用各种层次——前馈、递归、嵌入和注意力——来处理输入文本并产生[…]

Leave a Comment

Can't find what you're looking for? Try refining your search: