人类通过观察世界学习了大量的背景信息。自去年以来,Meta团队一直在开发能够学习世界运作内部模型的计算机,使它们能够更快地学习,规划如何完成具有挑战性的工作,并快速适应新颖的条件。为了使系统有效,这些表征必须直接从未标记的输入(如图像或声音)中学习,而不是手动组装标记数据集。这个学习过程被称为自我监督学习。
生成式架构通过遮盖或删除用于训练模型的数据的部分来进行训练。这可以用图像或文本来完成。然后,它们会猜测缺少或失真的像素或单词。然而,生成式方法的一个主要缺点是,模型试图填补任何知识上的空白,尽管真实世界存在的不确定性。
Meta的研究人员刚刚推出了他们的第一个人工智能模型。通过比较图像的抽象表征(而不是比较像素本身),他们的图像联合嵌入预测架构(I-JEPA)可以学习和改进。
根据研究人员的说法,JEPA将摆脱固定性预训练所困扰的偏见和问题,因为它不涉及将图像的多个视图/增强的表征折叠成单个点。
I-JEPA的目标是使用更接近个体思维方式的表征来填补知识空白。所提出的多块遮罩方法是另一个重要的设计选项,它有助于将I-JEPA引向开发语义表征。
I-JEPA的预测器可以被认为是一个有限的、原始的世界模型,它可以基于有限的上下文信息描述静止图像中的空间不确定性。此外,这个世界模型的语义性质使得它能够推断出以前未知的图像部分,而不仅仅依赖于像素级别的信息。
为了查看模型在被要求预测蓝框内的输出时的结果,研究人员训练了一个随机解码器,将I-JEPA预测的表征转换回像素空间。这种定性分析证明了模型可以学习视觉对象的全局表征,而不会失去这些对象在框架中的位置。
使用I-JEPA进行预训练需要很少的计算资源。它不需要额外的复杂数据增强来提供不同的视角。研究结果表明,I-JEPA可以学习稳健的、预先构建的语义表征,而不需要自定义视角增强。在ImageNet-1K上进行的线性探测和半监督评估也超过了像素和令牌重构技术。
与其他语义任务的预训练方法相比,尽管依赖于手动制作的数据增强,I-JEPA仍然表现出色。I-JEPA在对象计数和深度预测等基本视觉任务上胜过这些方法。由于使用了更少复杂的模型和更灵活的归纳偏差,I-JEPA适用于更多的情况。
团队认为,JEPA模型在视频解释等领域的创造性应用前景非常广阔。使用和扩展这样的自我监督方法来开发广泛的世界模型是一个重大进步。