这篇人工智能论文提出了一种针对大规模视觉与语言导航（VLN）训练的有效范式，并对管道中的每个组成部分的影响进行了定量评估

这篇人工智能论文提出了一种针对大规模视觉与语言导航（VLN）训练的有效范式，并对管道中的每个组成部分的影响进行了定量评估四海第1张

已经收集了多个人类演示用于学习视觉导航，最近的大规模数据集包含数百个交互场景，这些都显著提高了智能体的性能。然而，要进行如此大规模的训练需要解决一些关键的子问题，例如如何构建导航图，恢复损坏的渲染图像和生成导航指令。所有这些都对收集的数据质量产生重大影响，因此应该进行深入探索。

研究如何有效利用大规模数据来适当地训练导航智能体非常必要，一个能够理解人类自然语言并在逼真环境中导航的智能体是一个复杂而模块化的系统。

为了训练大规模的视觉与语言导航网络（VLNs），澳大利亚国立大学、OpenGVLab、上海人工智能实验室、UNC教堂山分校、阿德莱德大学和Adobe研究团队提供了一种新的范式，通过统计评估管道中每个组件的影响。他们使用Habitat模拟器，从HM3D和Gibson数据集中使用环境，为环境构建导航图。他们采样新的轨迹，创建指令，并训练智能体解决下游导航问题。

与AutoVLN和MARVAL等先前方法不同，这些导航图通过过度视点采样和聚合过程构建，采用了引入的图形创建启发式方法。这种方法产生了具有广泛室外覆盖范围的全连接网络。

研究人员还训练了Co-Modulated GAN，从HM3D和Gibson环境中的损坏生成图像的破损、变形或缺失部分生成逼真图像，减少了视觉数据噪声的影响。与MARVAL相比，这种大规模训练方案是完全可复现且易于执行的，同时明显提高了智能体的性能。

广泛的实验证明，如果智能体要在特定指令的下游任务（如R2R）上表现更好，导航图必须是完全可遍历的。此外，研究结果还表明，从新场景中学习而不仅仅是增加数据量，智能体通常可以使用更多样化的视觉数据，并提高对新环境的泛化能力。

此外，团队验证了在基于LSTM的基本模型提供的增强指令上训练的智能体在各种导航任务上表现良好。他们得出结论，通过在预训练和微调过程中将增强数据与原始数据整合，可以提高智能体的泛化能力。

令人惊讶的是，通过将上述分析作为数据增强和智能体训练的指导方针，所提出的VLN模型可以通过简单的模仿学习在R2R测试集上实现80%的成功率，而无需预探索、波束搜索或模型集成，并消除了已知和未知环境之间的导航差距。这一结果相比先前最佳方法（73%）有了巨大的改进，将性能差距缩小到了6个百分点以内，接近人类水平。对于诸如CVDN和REVERIE等几个语言引导的视觉导航挑战，该方法推动了最新技术的发展。即使增强数据是离散的，该方法在连续环境（R2R-CE）中将VLN性能提高了5%的成功率，这是一个更为现实但具有挑战性的场景。