麻省理工学院的研究人员提出了一种新的多模式技术，将机器学习方法融合在一起，以更类似于人类的方式进行学习

麻省理工学院的研究人员提出了一种新的多模式技术，将机器学习方法融合在一起，以更类似于人类的方式进行学习机器学习第1张

人工智能在我们日常遇到的所有主要用例和应用中都是革命性的。其中一个领域围绕着大量的音频和视觉媒体。想想所有能够生成有趣视频、艺术性惊人的图像、复制名人声音或只需一键记录整个讲座的人工智能应用程序。所有这些模型都需要大量的数据进行训练。大多数成功的系统都依赖于带注释的数据集来自我教育。

最大的挑战是存储和注释此数据，并将其转换为模型可以摄入的可用数据点。说起来容易做起来难，公司需要帮助每年收集并创建金标准数据点。

现在，来自麻省理工学院、麻省理工-IBM沃森人工智能实验室、IBM研究和其他机构的研究人员已经开发出一种能够有效解决这些问题的开创性技术，即分析未标记的音频和视觉数据。这种模型具有很大的潜力和潜力，可以改善当前模型的训练方式。这种方法与许多模型共鸣，例如语音识别模型、转录和音频创建引擎以及对象检测。它结合了两种自我监督学习体系结构：对比学习和遮蔽数据建模。这种方法遵循一个基本思想：复制人类如何感知和理解世界，然后复制相同的行为。

正如麻省理工学院的博士后Yuan Gong所解释的那样，自我监督学习非常重要，因为如果你看看人类如何收集和学习数据，其中很大一部分是没有直接监督的。目标是在机器中实现相同的过程，使它们能够从未标记的数据中学习尽可能多的功能。这种训练成为可以利用和改进的强大基础，具体取决于用例的监督学习或强化学习。

这里使用的技术是对比音频 – 视觉遮蔽自编码器（CAV-MAE），它使用神经网络从音频和视觉数据中提取和映射有意义的潜在表示。这些模型可以在10秒YouTube剪辑的大型数据集上进行训练，利用音频和视频组件。研究人员声称，CAV-MAE比任何其他先前方法都要好得多，因为它明确强调了音频和视觉数据之间的关联，而其他方法则没有。

CAV-MAE方法包括两种方法：遮蔽数据建模和对比学习。遮蔽数据建模包括：

获取视频及其匹配的音频波形。
将音频转换为频谱图。
遮蔽75%的音频和视频数据。

然后，该模型通过联合编码器/解码器恢复缺失的数据。重建损失，即衡量重建预测和原始音频-视觉组合之间差异的损失，用于训练模型。这种方法的主要目的是将相似的表示映射到彼此靠近的位置。它通过关联音频和视频数据的相关部分来实现，例如连接口部的口型。

将基于CAV-MAE的模型与其他模型进行测试证明非常有启发性。测试是在音频视频检索和音频-视觉分类任务上进行的。结果表明，对比学习和遮蔽数据建模是互补的方法。 CAV-MAE在事件分类方面优于以前的技术，并保持与使用行业级计算资源训练的模型竞争力。此外，多模态数据显着提高了单模态表示的微调和音频事件分类任务的性能。

麻省理工学院的研究人员认为，CAV-MAE代表了自我监督音频-视觉学习进展的突破。他们设想，它的用例可以涵盖动作识别，包括运动、教育、娱乐、摩托车和公共安全，跨语言自动语音识别和音频-视频生成。虽然当前的方法侧重于音频-视觉数据，但研究人员的目标是将其扩展到其他模态，认识到人类感知涉及音频和视觉提示以外的多种感官。

很有意思看到这种方法随着时间的推移表现如何，并且有多少现有模型尝试纳入这种技术。

研究人员希望随着机器学习的进步，像CAV-MAE这样的技术将变得越来越有价值，使模型能够更好地理解和解释世界。