Press "Enter" to skip to content

Google AI揭示了Mirasol3B:一种跨音频、视频和文本模式学习的多模自回归模型

在机器学习这个广阔的领域中,解码嵌入在不同模态(音频、视频和文本)中的复杂性是一个巨大的挑战。时间对齐和不对齐模态之间的复杂同步以及视频和音频信号中的庞大数据量促使研究人员寻求创新的解决方案。这就是Google专门团队开发的Mirsol3B,一种巧妙的多模自回归模型。这个模型解决了不同模态的挑战,并且在处理更长的视频输入方面表现出色。

在深入了解Mirsol3B的创新之前,了解多模机器学习的复杂性是至关重要的。现有的方法在同步时间对齐的模态(音频和视频)和不对齐的模态(如文本)之间存在同步困难。这种同步挑战在视频和音频信号中的大量数据的情况下会更加复杂,通常需要压缩。越来越明显的是,需要能够无缝处理更长视频输入的有效模型。

Mirsol3B标志着在应对这些挑战方面的范式转变。与传统模型不同,它采用了多模自回归架构,将时间对齐和上下文模态的建模分开。Mirsol3B由用于时间对齐模态(音频和视频)的自回归组件和用于不对齐模态(如文本信息)的独立组件组成,提出了一种新颖的观点。

Mirsol3B的成功取决于其对时间对齐和上下文模态的熟练协同。视频、音频和文本具有不同的特点;例如,视频是一种具有高帧率的时空视觉信号,而音频是一种具有更高频率的一维时间信号。为了桥接这些模态,Mirsol3B采用了交叉注意机制,促进自回归组件之间的信息交流。这确保了模型全面理解不同模态之间的关系,而无需精确同步。

Mirsol3B的创新优势在于将自回归建模应用于时间对齐模态,保留了关键的时间信息,尤其是在长视频中。视频输入被智能地分割成较小的块,每个块包含可管理的帧数。组合器是一个学习模块,会处理这些块,生成联合的音频和视频特征表示。这种自回归策略使模型能够了解各个块及其时间关系,这对于有意义的理解是至关重要的一个方面。

组合器是Mirsol3B成功的核心部分,它是一个学习模块,旨在有效地协调视频和音频信号。该模块通过选择较少的输出特征来应对处理大量数据的挑战,从而有效地减少了维度。组合器表现出各种风格,从简单的基于Transformer的方法到Memory Combiner(如Token Turing Machine,支持具有可微分内存单元)。这两种风格都有助于模型能够高效处理广泛的视频和音频输入。

Mirsol3B的性能令人印象深刻。该模型在包括MSRVTT-QA、ActivityNet-QA和NeXT-QA在内的各种基准测试中始终优于最先进的评估方法。即使与拥有800亿参数的更大模型(如Flamingo)相比,Mirsol3B凭借其3,000亿参数的紧凑性能表现出卓越能力。值得注意的是,该模型在开放式文本生成环境中表现出色,展示了它的泛化能力和生成准确的响应的能力。

总的来说,Mirasol3B在解决多模态机器学习挑战方面迈出了重要的一步。其创新的方法,结合自回归建模、时间对齐模态的战略分割以及高效的Combiner,为该领域设定了新的标准。研究团队优化性能的能力,即使使用相对较小的模型也不损失准确性,使Mirasol3B成为在需要强大多模态理解的实际应用中有希望的解决方案。随着追求能够理解我们世界复杂性的AI模型的探索继续进行,Mirasol3B在多模态领域脱颖而出,成为进步的标志。

Leave a Reply

Your email address will not be published. Required fields are marked *