Press "Enter" to skip to content

四海吧 Posts

为什么微软的Orca-2 AI模型标志着可持续AI的重要进展?

探索微软Orca-2在可持续智能人工智能领域所取得的突破性进展Orca-2摆脱了大型语言模型(LLMs)的高能耗特性,通过强调智能设计而不是规模,挑战了现状了解这种转变如何打开新的可能性,使先进的人工智能更具包容性、环保责任和影响力探索Orca-2在塑造可持续人工智能未来方面的重要性,将技术进步与环境责任承诺相一致

Leave a Comment

见面吉加GPT:Cerebras 实现 Andrei Karpathy 的nanoGPT,用只有565行代码训练GPT-3规模的AI模型

训练大型变压器模型面临重大挑战,尤其是在追求具有数十亿甚至数万亿参数的模型时。主要障碍在于如何在多个GPU上高效分配工作负载,同时减轻内存限制。当前的情况依赖于复杂的大型语言模型(LLM)扩展框架,如Megatron、DeepSpeed、NeoX、Fairscale和Mosaic Foundry。然而,随着模型大小的增加,这些框架引入了相当大的复杂性。讨论的研究介绍了Cerebras的gigaGPT作为解决这些挑战的新颖方法,提供了一种消除对复杂并行化技术的需要的替代方法。 对于训练大型变压器模型,像Megatron和DeepSpeed这样的方法依赖于多GPU之间的分布式计算。然而,随着模型大小超过几十亿个参数,这些方法会遇到内存限制,需要复杂的解决方案。相比之下,Cerebras的gigaGPT引入了一种范式转变。它实现了nanoGPT,它具有仅565行的非常紧凑的代码库。这个实现可以训练具有超过1000亿个参数的模型,而无需额外的代码或依赖第三方框架。GigaGPT利用了Cerebras硬件的大量内存和计算能力。与其同行不同的是,它可以无缝操作而不引入额外的复杂性,既提供了简洁可靠的代码库,又能够训练GPT-3规模的模型。 GigaGPT在其核心是实现了基本的GPT-2架构,与nanoGPT的原则紧密对齐。它使用了学习的位置嵌入、标准的自注意力机制、模型中的偏置以及模仿nanoGPT的结构的选择。值得注意的是,该实现不仅适用于特定的模型大小;gigaGPT通过训练具有111M、13B、70B和175B个参数的模型,证明了它的多功能性。 与GPT-2分词器和nanoGPT的预处理代码配合使用的OpenWebText数据集成为测试基础。GigaGPT的性能得到了证明,它可以从数百万个参数的模型扩展到具有数百亿个参数的模型,而不需要专门的并行化技术。这565行代码涵盖了整个代码库,展示了其简单和高效。 该实现的成功在特定的模型配置中得到了进一步的体现。例如,111M配置与Cerebras-GPT相一致,保持了相同的模型维度、学习率、批量大小和训练计划。类似地,13B配置与相应的Cerebras-GPT配置相匹配,70B配置借鉴了Llama-2 70B。70B模型保持了稳定性和性能,展示了其可扩展性。在验证了70B模型之后,研究人员通过配置基于GPT-3论文的175B模型来推动界限。最初的步骤展示了该模型在处理增加的规模时的内存问题,暗示了gigaGPT可能扩展到超过1万亿个参数的模型。 总之,gigaGPT成为训练大型变压器模型的一项突破性解决方案。研究团队的实施不仅通过提供简洁和易于操作的代码库简化了过程,还使得训练GPT-3规模的模型成为可能。利用Cerebras硬件的广阔记忆和计算能力,标志着在使大规模AI模型训练更加可访问、可扩展和高效方面的重要进步。这种创新的方法为机器学习研究人员和从业者解决训练大规模语言模型中的复杂性提供了一个有前途的途径。 Introducing gigaGPT: our implementation of @karpathy’s nanoGPT that trains GPT-3 sized models in just 565 lines of…

Leave a Comment

亚利桑那州立大学的这项人工智能研究揭示了ECLIPSE:一种新颖的对比学习策略,以改善文本到图像的非扩散先验

扩散模型在给定文本提示时已被证明在生成高质量照片方面非常成功。这种文本到图片(T2I)生成的范例已成功用于一些下游应用,包括深度驱动的图片生成以及主体/分割识别。两个受欢迎的基于文本条件的扩散模型,CLIP模型和潜在扩散模型(LDM),通常被称为稳定扩散,对这些进展至关重要。LDM在研究中以开源软件的形式免费提供,因此得到了广泛熟知。而对于未CLIP模型,却鲜有关注。这两种模型类型的基本目标都是根据文本提示训练扩散模型。 与未CLIP模型不同,LDM只有一个文本到图片扩散模型,而不需要文本到图片先验和扩散图片解码器。这两个模型家族都在图像的矢量量化潜空间内运作。因为未CLIP模型在多个组合基准测试中通常优于其他SOTA模型,如T2I-CompBench和HRS-Benchmark,所以研究团队在本文中将重点放在它们身上。这些T2I模型通常有很多参数,需要优秀的图像-文本对进行训练。与LDM相比,如DALL-E-2、卡洛和康定斯基等未CLIP模型由于它们的早期模块,其总模型大小要大得多(≥ 2B),约有10亿参数。 按照顺序,这些未CLIP模型的训练数据分别为250M、115M和177M个图像-文本对。因此,仍然存在两个重要问题:1)使用文本到图片先验能否提高文本组合的SOTA性能?2)或者模型大小的增加才是关键因素?通过增加参数和数据效率,研究团队旨在改善他们对T2I先验的认识,并在目前的公式上作出重大改进。先验的T2I目标是在扩散过程的每个时间步骤中直接估计无噪声图像嵌入,正如先前的研究所建议的那样,它们也是扩散模型。为了研究这个先前的传播过程,研究团队进行了实证调查。 图1比较了SOTA文本到图片模型在三个组合任务(颜色、形状和纹理)上的平均性能以及总参数数量。ECLIPSE只需要很少的训练数据,但却能产生更好的结果,并且使用较少的参数。所展示的ECLIPSE使用康定斯基解码器,通过仅使用500万个图像-文本对进行训练,使用约3300万个参数训练了一个T2I先验模型。 研究团队发现了扩散过程对性能的轻微负面影响,并且对产生正确图片没有影响。此外,由于扩散模型收敛速度较慢,训练它们需要显著的GPU小时或天数。因此,在本研究中,非扩散模型作为替代方法。由于缺乏无分类器引导,这种方法可能会限制组合性的可能性,但却大大提高了参数效率并减少了对数据的依赖。 在这项研究中,亚利桑那州立大学的研究团队提出了一种独特的对比学习技术,称为ECLIPSE,来增强T2I非扩散先验并克服上述缺点。研究团队优化了传统方法,即通过优化证据下界(ELBO)产生图像嵌入来从所提供的文本嵌入生成图片。研究团队建议使用预训练的视觉语言模型的语义对齐(文本和图片之间)特征来监督早期训练。研究团队使用相对较少的图像-文本对(0.34% – 8.69%)使用ECLIPSE训练紧凑的(97%更小)的非扩散先验模型(具有3300万个参数)。研究团队为未CLIP扩散图片解码器的变体(卡洛和康定斯基)引入了ECLIPSE训练的先验。ECLIPSE训练的先验模型优于拥有10亿参数的对应版本,并且优于基准先验学习算法。他们的研究结果表明了一条可能的T2I生成模型的路径,这种模型在不需要很多参数或数据的情况下提高了组合性。 如图1所示,它们的总参数和数据需求显著降低,并通过增加T2I在unCLIP家族之前取得了与相似参数模型相媲美的性能。贡献:1)在unCLIP框架下,研究团队提供了ECLIPSE,这是首个利用对比学习进行文本到图像先验的尝试。2)通过全面的实验,研究团队证明了ECLIPSE在资源受限环境中优于基线先验的优越性。3)值得注意的是,ECLIPSE先验仅需使用训练数据的2.8%和模型参数的3.3%即可获得与更大模型相当的性能。4)研究团队还研究了当前T2I扩散先验的缺点,并提供了实证观察结果。

Leave a Comment

“用GPT-4打造个性化的人工智能交易顾问”

介绍 近年来,将人工智能(AI)整合到股票交易中已经改变了投资者的决策方式。随着大型语言模型(LLMs)如GPT-3和GPT-4的出现,发生了一场范式转变,使个人投资者和交易者更容易获得复杂的市场分析和见解。这种革命性的技术利用大量的数据和复杂的算法,提供了以前仅由机构投资者独占的市场理解深度。本文重点介绍使用LLMs开发个性化AI交易顾问,旨在根据风险偏好、投资时间、预算和期望回报来匹配个人投资者的投资配置,为零售投资者提供个性化、战略性的投资建议。 由GPT-3和GPT-4等大型语言模型(LLMs)驱动的股票交易顾问已经彻底改变了金融咨询服务。它们可以利用人工智能来分析历史股票数据和当前的财经新闻,为投资者提供与其独特投资组合和财务目标相符合的个性化投资建议。我们将尝试构建一个顾问来预测市场行为和趋势,根据个人风险承受能力、投资期限、可用资本和期望回报提供量身定制的建议。 学习目标 通过本文,读者将能够: 了解AI和像GPT-3这样的LLMs如何改变股市分析和交易。 认识到基于个人风险偏好和投资目标的AI驱动工具提供个性化投资建议的能力。 了解AI如何利用历史和实时数据制定投资策略和预测。 了解股票交易中的AI如何使复杂的投资策略对更广泛的受众(包括零售投资者)可行。 发现如何利用AI驱动的工具进行个人投资和股票交易决策。 了解利用LLMs构建股票交易顾问的概念。 本文作为数据科学博文马拉松的一部分进行发布。 关于数据集 该项目的数据集从纽约证券交易所获取,并在Kaggle上提供,包括覆盖七年的四个CSV文件。其中包括关键的财务指标“fundamentals.csv”,提供历史股价和股票分割调整的“prices.csv”和“prices-split-adjusted.csv”,以及提供附加公司信息(如部门分类和总部)的“securities.csv”。这些文件的综合提供了对公司业绩和股票市场动态的全面了解。 数据准备 使用类似GPT-4这样的大型语言模型(LLMs)来实现股票交易顾问,需要进行关键的数据准备。这个过程包括重要的任务:数据清洗、归一化和分类,使用提供的数据集:fundamentals.csv、prices.csv、prices-split-adjusted.csv和securities.csv。 步骤1:数据清洗 在“基本数据集”中,我们使用中值插补来处理“For Year”、“Earnings Per Share”和“Estimated Shares Outstanding”的缺失值(173个、219个和219个缺失值)。 我们将“Period Ending”列转换为日期时间格式,使其适合进行数字字段分析。…

Leave a Comment

Together AI推出了StripedHyena-7B:一种替代性的人工智能模型,与最优秀的开源变压器在短期和长期上下文评估中具有竞争力

AI ​​一起为序列建模架构作出了重大贡献,并引入了StripedHyena模型。它通过为传统的Transformer提供了新的选择,专注于计算效率和增强性能,彻底改变了这一领域。 此发布包括基础模型StripedHyena-Hessian-7B(SH 7B)和聊天模型StripedHyena-Nous-7B(SH-N 7B)。StripedHyena基于去年创建的H3、Hyena、HyenaDNA和Monarch Mixer等有效的序列建模架构的重要经验教训。 研究人员强调,该模型在训练、微调和生成过程中处理长序列时具有更快的速度和更高的内存效率。StripedHyena通过将门控卷积和注意力结合到他们所称的Hyena运算符中的混合技术中。此外,这是与强大的Transformer基础模型竞争的首个替代架构。在包括OpenLLM leaderboard任务的短上下文任务中,StripedHyena优于Llama-2 7B、Yi 7B和最强Transformer替代方案(如RWKV 14B)。 该模型在处理短上下文任务和处理较长提示的过程中通过研究各种基准进行了评估。在Project Gutenberg书籍上进行的困惑度缩放实验表明,困惑度在32k处饱和或在此点之后下降,这意味着模型能够吸收来自较长提示的信息。 StripedHyena通过一种独特的混合结构实现了效率,该结构将注意力和门控卷积组织成Hyena运算符。他们使用创新的嫁接技术优化了这种混合设计,在训练过程中实现了架构修改。 研究人员强调,StripedHyena的主要优势之一是其在训练、微调和生成长序列等各种任务中的速度和内存效率的提升。它在32k、64k和128k上的端到端训练中,分别比使用FlashAttention v2和自定义内核进行优化的Transformer基准性能提高了30%、50%和100%。 未来,研究人员希望在几个领域取得显著进展,其中包括StripedHyena模型。他们希望创建能够处理更长上下文的更大模型,从而扩大信息理解的限制。此外,他们还希望融入多模态支持,通过允许它处理和理解来自不同来源(如文本和图像)的数据,提高模型的适应性。 总之,该模型有望通过引入额外的计算(例如在门控卷积中使用多个头)改进Transformer模型。这种受线性注意力启发的方法,在H3和MultiHyena等架构中已被证明有效,提高了模型在训练过程中的质量,并为推理效率提供了优势。

Leave a Comment

这篇AI研究分享了关于图上大型语言模型(LLMs)的全面概述

著名的大型语言模型(LLMs)如GPT,BERT,PaLM和LLaMA在自然语言处理(NLP)和自然语言生成(NLG)领域取得了一些重大进展。这些模型在大型文本语料库上进行了预训练,并在多个任务中表现出令人难以置信的性能,包括问答,内容生成,文本摘要等。 虽然LLMs已被证明能够处理纯文本,但在文本数据与图形的结构信息相连的应用中,处理图形推理任务变得越来越必要。研究人员一直在研究LLMs如何应用于基本图形推理任务,包括匹配子图,最短路径和连接推理。与LLMs的整合相关的图形应用包括纯图形,文本丰富的图形和文本配对的图形,具体的技术包括将LLMs用作任务预测器,图形神经网络(GNNs)的特征编码器或与GNNs对齐器,具体取决于它们的功能和与GNNs的交互。 LLMs在基于图形的应用中越来越受欢迎。但是,鲜有研究探讨LLMs和图形之间的相互作用。在最近的研究中,一组研究人员提出了一种系统地概述了大型语言模型与图形整合的情况和方法。目的是将可能的情况分为三个主要类别:文本丰富的图形,文本配对的图形和纯图形。团队分享了使用LLMs在图形上的具体方法,例如将LLMs用作对齐器,编码器或预测器。每种策略都有其优势和缺点,研究的目的是对比这些不同的方法。 该团队强调了这些技术的实际应用,展示了在与图形相关的活动中使用LLMs的好处。该团队分享了有关基准数据集和开源脚本的信息,以帮助应用和评估这些方法。结果强调了对这一快速发展领域进行更多调查和创造性的需求。 该团队总结了他们的主要贡献如下。 该团队通过系统分类使用语言模型在图形中的情况进行了贡献。这些情况被分为三类:文本丰富,文本配对和纯图形。这个分类法提供了一个理解这些不同环境的框架。 使用图形方法仔细分析了语言模型。评估总结了适用于各种图形环境的代表性模型,使其成为最全面的评估。 整理了与语言模型在图形上相关的大量材料,包括真实世界应用,开源代码库和基准数据集。 在语言模型在图形领域进一步研究方向上提出了六个可能的方向,深入探讨了基本理念。

Leave a Comment

这篇AI论文揭示了生成型AI模型的网络安全意义-风险、机遇和伦理挑战

生成型人工智能(GenAI)模型,如ChatGPT、Google Bard和Microsoft的GPT,已经革新了人工智能互动。它们通过创建多样化的文本、图像和音乐等内容来改变多个领域,影响着沟通和问题解决。ChatGPT被数百万人迅速接受,反映了GenAI融入日常数字生活,改变了人们对人工智能的认知和互动方式。它能够理解和生成类似人类对话的能力,使得更广泛的受众更容易接触和理解人工智能,显著改变了人们的感知。 GenAI模型的发展状况迅速演进,从GPT-1到最新的迭代版本如GPT-4,每一次迭代都展示了在语言理解、内容生成和多模态能力方面的重大进展。然而,这种进化也带来了一些挑战。这些模型日益复杂的特性带来了伦理问题、隐私风险和恶意实体可能利用的漏洞。 在这方面,最近有一篇论文对GenAI,尤其是ChatGPT的网络安全和隐私影响进行了全面的探讨。它揭示了ChatGPT中存在的可能践踏伦理边界和侵犯隐私的漏洞,这些漏洞可能被恶意用户利用。该论文指出了类似GenAI工具的潜在威胁,如越狱、反向心理和提示注入攻击,展示了这些工具可能带来的潜在威胁。它还探讨了网络罪犯如何滥用GenAI进行社会工程攻击、自动化攻击和恶意软件创建的问题。此外,它还讨论了利用GenAI的防御技术,强调了网络防御自动化、威胁情报、安全代码生成和伦理准则等来加强系统防御,抵御潜在攻击。 作者广泛探讨了操作ChatGPT的方法,讨论了像DAN、SWITCH和CHARACTER Play这样的破解技术,旨在覆盖限制并绕过伦理约束。他们强调了如果这些方法被恶意用户利用,可能导致有害内容的生成或安全漏洞。此外,他们详细介绍了一些令人担忧的情景,如果不受限制地使用ChatGPT-4的能力,可能会突破互联网的限制。他们深入探讨了提示注入攻击,展示了像ChatGPT这样的语言模型中的漏洞,并提供了使用ChatGPT生成攻击载荷、勒索软件/恶意软件代码和影响CPU的病毒的示例。这些探索突显了重大的网络安全问题,说明了类似ChatGPT这样的AI模型在社会工程、网络钓鱼攻击、自动化攻击和多态恶意软件生成方面的潜在滥用。 研究团队探索了ChatGPT在网络安全方面的几种应用: – 自动化:ChatGPT通过分析事件、生成报告和提供防御策略来协助SOC分析师。 – 报告:根据网络安全数据生成易于理解的报告,帮助识别威胁和评估风险。 – 威胁情报:处理大量数据以识别威胁、评估风险并推荐缓解策略。 – 安全编码:帮助在代码审查中检测安全漏洞并建议安全编码实践。 – 攻击识别:通过分析数据描述攻击模式,有助于理解和防止攻击。 – 伦理准则:生成AI系统伦理框架的摘要。 – 增强技术:与入侵检测系统集成,提高威胁检测能力。 – 事件响应:提供及时指导并创建事件响应手册。 – 恶意软件检测:通过分析代码模式来检测潜在恶意软件。…

Leave a Comment

迎接EAGLE:基于压缩的快速LLM解码的新机器学习方法

大型语言模型(LLMs)如ChatGPT在自然语言处理领域取得了巨大的革命性进展,展示了他们在各种语言相关任务中的能力。然而,这些模型面临着一个关键问题——自回归解码过程,其中每个标记都需要进行完整的前向通行。这种计算瓶颈在拥有庞大参数集的LLMs中尤为明显,在实时应用中产生了障碍,并给具有受限GPU能力的用户带来了挑战。 来自Vector Institute、滑铁卢大学和北京大学的研究人员介绍了EAGLE(Extrapolation Algorithm for Greater Language-Model Efficiency),以应对LLM解码中固有的挑战。与Medusa和Lookahead等传统方法有所不同,EAGLE采取了一种独特的方法,专注于对第二层顶层上下文特征向量的外推。与前辈们不同,EAGLE努力高效地预测后续特征向量,为文本生成提供了显著加速的突破。 EAGLE方法的核心是部署了一种轻量级插件——FeatExtrapolator。这个插件与原始LLM的冻结嵌入层一起进行训练,根据第二顶层的当前特征序列预测下一个特征。EAGLE的理论基础建立在特征向量随时间的可压缩性上,为加快标记生成铺平了道路。值得注意的是,EAGLE具有出色的性能指标;与普通解码相比,它的速度提高了三倍,比Lookahead快了一倍,并且相对于Medusa加速了1.6倍。最为关键的是,它保持了与普通解码一致性,确保了生成文本分布的保持。 https://sites.google.com/view/eagle-llm EAGLE的能力远不止于加速。它可以在标准GPU上进行训练和测试,使更广泛的用户群体能够使用。它与各种并行技术的无缝集成增加了其应用的灵活性,进一步巩固了它作为高效语言模型解码工具包中宝贵的补充的地位。 考虑到该方法对FeatExtrapolator的依赖,这是一个轻量级但功能强大的工具,与原始LLM的冻结嵌入层合作。这种合作根据第二顶层的当前特征序列预测下一个特征。EAGLE的理论基础根植于特征向量随时间的可压缩性,为更流畅的标记生成过程提供了途径。 https://sites.google.com/view/eagle-llm 传统的解码方法需要对每个标记进行完整的前向通行,而EAGLE的特征级外推提供了一个新的解决方案。研究团队的理论探索最终形成了一种方法,不仅显著加速了文本生成,而且保持了生成文本的分布的完整性——这是维护语言模型输出质量和连贯性的关键因素。 https://sites.google.com/view/eagle-llm 总结起来,EAGLE在解决LLM解码长期存在的低效问题上脱颖而出。通过巧妙地解决自回归生成的核心问题,EAGLE的研究团队提出了一种不仅能大幅加速文本生成,而且能保持分布一致性的方法。在实时自然语言处理需求激增的时代,EAGLE的创新方法使其成为前沿技术的领跑者,填补了尖端技术能力与实际应用之间的鸿沟。

Leave a Comment

Mistral AI发布MoE 8x7B版本的语言模型突破性进展

总部位于巴黎的初创公司Mistral AI推出了一款语言模型——MoE 8x7B。Mistral LLM经常被比作缩小版的GPT-4,它由8个拥有每个拥有70亿参数的专家组成。值得注意的是,在每个记号的推理中,只有其中的2个专家会被使用,展示了一种简化而高效的处理方式。 该模型采用混合专家(MoE)架构,以实现令人印象深刻的性能和效率。与传统模型相比,这使得性能更高、效率更优。研究人员强调,MoE 8x7B在文本生成、理解以及需要高级处理的编码和SEO优化等任务方面,表现比之前的模型(例如Llama2-70B和Qwen-72B)更好。 这在AI社区引起了很大轰动。著名的AI咨询师和以色列机器学习和深度学习社区的创始人表示,Mistral以此类发布闻名,并将其视为业界的特色。开源AI倡导者Jay Scambler指出了发布的不寻常之处。他表示,它成功地引起了极大关注,暗示这可能是Mistral故意采取的一种策略,以吸引AI社区的关注和好奇。 Mistral在AI领域的发展过程中也取得了里程碑式的成就,包括拿下创纪录的1.18亿美元种子轮融资,该轮融资被报道为欧洲历史上最大的融资规模。该公司在9月推出了其首个大型语言AI模型Mistral 7B,进一步获得了认可。 MoE 8x7B模型拥有8个专家,每个专家拥有70亿参数,相比之下,GPT-4每个专家拥有16个专家和1660亿参数。与估计的GPT-4的1.8万亿参数相比,该模型的估计总参数为420亿。此外,MoE 8x7B对语言问题有更深入的理解,从而改进了机器翻译、聊天机器人交互和信息检索。 MoE架构允许更高效的资源分配,从而实现更快的处理速度和更低的计算成本。Mistral AI的MoE 8x7B标志着语言模型发展的重大进步。其卓越的性能、效率和多样性为各个行业和应用领域带来了巨大的潜力。随着AI的不断发展,像MoE 8x7B这样的模型预计将成为寻求增强数字专长和内容策略的企业和开发者的重要工具。 总之,Mistral AI的MoE 8x7B发布引入了一种结合了技术复杂性和非传统营销策略的新颖语言模型。研究人员对这种尖端语言模型的效果和用途感到兴奋,AI社区将继续审查和评估Mistral的架构。MoE 8x7B的能力可能会为教育、医疗保健和科学发现等各个领域的研究和发展开辟新的道路。

Leave a Comment

这篇AI论文揭示了HiFi4G:照片级人物建模和高效渲染的突破性技术

以体积记录和真实表现4D(时空)人类表演来消除观众和表演者之间的障碍。它提供各种沉浸式的VR / AR体验,如远程呈现和远程教育。一些早期系统使用非刚性配准明确地从录制的镜头中重新创建纹理模型。然而,它们仍然容易受到遮挡和纹理缺陷的影响,从而导致重建输出中的缺口和噪音。最近的神经突破,如NeRF,通过优化基于坐标的多层感知器(MLP),而不是诉诸于显式重建,以实现照片级别的体积渲染。 某些动态NeRF变体旨在通过额外的隐式变形场保持一个规范的特征空间,用于在每帧中重现特征。然而,这样的规范设计对重要的拓扑变化或大规模运动敏感。通过平面因子化或哈希编码,最新的方法消除了变形场,并简洁地描述了4D特征网格。它们极大地加快了交互式程序渲染和训练的速度,但在运行时内存和存储问题上有待解决。最近,3D高斯点(3DGS)回归到了表示静态场景的显式范例。它基于GPU友好的3D高斯基元的光栅化,实现了以前无法实现的实时高质量辐射场渲染。一些正在进行的项目修改3DGS以适应动态设置。 一些集中在捕捉动态高斯的非刚性运动,但在过程中失去渲染质量。其他的失去了原始3DGS的明确和GPU友好的优雅,并且不能处理长期运动,因为它们使用额外的隐式变形场来填补运动信息。在本研究中,上海科技大学、NeuDim、字节跳动和DGene的研究团队介绍了HiFi4G,这是一种完全明确且紧凑的基于高斯的方法,用于从密集视频中重现高保真度的4D人类表演(参见图1)。他们的主要概念是将非刚性跟踪与3D高斯表示相结合,将运动和外观数据分离,以实现紧凑和压缩友好的表示。HiFi4G在当前隐式渲染技术的优化速度、渲染质量和存储开销方面表现出色。 图1展示了我们的高分辨率紧凑高斯点光栅。HiFi4G将经典的非刚性融合技术与多视角人类表演视频的可微光栅化进展相结合,有效生成紧凑的4D资产。 借助明确表示的帮助,他们的结果也可以轻松集成到基于GPU的光栅化流水线中,让用户在佩戴VR头盔时见证高保真度的虚拟现实人类表演。研究团队首先提供了一个由细粒度高斯和粗略变形图组成的双图技术,以自然地将高斯表示与非刚性跟踪连接起来。对于前者,研究团队使用NeuS2在使用嵌入式变形(ED)以关键帧的方式之前为每帧创建几何代理。这种明确的跟踪技术将序列分成若干部分,在每个片段内提供丰富的运动先验。类似于关键体积更新,研究团队通过使用3DGS从先前的片段减去错误的高斯并更新新的高斯来限制当前片段中的高斯数量。 接下来,研究团队构建了一个细粒度的高斯图,以通过从粗略的ED网络中插值每个高斯运动进一步初始化。通过简单地将高斯图与ED图弯曲并转换到屏幕空间,会导致严重的不自然扭曲;而持续优化而没有任何限制则会产生抖动的伪影。为了适当地平衡高斯特征的更新和非刚性运动先验,研究团队建议了一个4D高斯优化方法。研究团队使用时态正则化器确保每个高斯的外观属性的一致性,例如不透明度、缩放系数和球面谐波(SH)。研究团队建议对动态特性(位置和旋转)进行平滑处理,以在相邻高斯之间生成尽可能刚性的移动。 为了惩罚那些展示出小型、非刚性运动的区域上的闪烁瑕疵,这些正则化器添加了自适应加权机制。研究团队在优化后生成了时空紧凑的四维高斯模型。研究团队提出了一种伴随压缩技术,该技术采用了常规的残差校正、量化和熵编码,用于对高斯参数进行处理,以使其HiFi4G对消费者有用。每帧具有显著的压缩比约为25倍,并且仅需要不到2MB的存储空间,使其能够在各种设备上进行沉浸式观测,包括虚拟现实头显设备。 简而言之,他们的主要贡献包括以下几点: • 研究团队引入了一种紧凑的四维高斯模型,将高斯飞溅与非刚性跟踪相连接,用于人体表演渲染。 • 研究团队提供了一种双图结构方法,可以有效地恢复具有空间时间一致性的四维高斯模型,采用不同的正则化设计。 • 研究团队提供了一种互补的压缩方法,可以在多个平台上实现低存储的沉浸式人体表演体验。

Leave a Comment

简洁与准确相遇:使用AWS Trainium进行高性价比的GPT NeoX和Pythia模型训练

大型语言模型(或LLM)已成为日常对话的话题它们被迅速采用的证据是从“Facebook的4.5年”到“ChatGPT的短短2个月”的时间内就达到了1亿用户的数量生成式预训练变压器(GPT)使用因果自回归更新[…]

Leave a Comment