Press "Enter" to skip to content

深度学习模型中的直观物理学习,灵感来自发展心理学

理解物理世界是大多数人毫不费力地运用的关键技能。然而,对于人工智能来说,这仍然是一个挑战;如果我们要在现实世界中部署安全和有用的系统,我们希望这些模型能够分享我们对物理的直觉感知。但在构建这些模型之前,还有另一个挑战:我们将如何衡量这些模型理解物理世界的能力?也就是说,理解物理世界意味着什么,我们如何量化它?

幸运的是,发展心理学家们花了数十年的时间研究婴儿对物理世界的认知。在这个过程中,他们将模糊的物理知识概念划分为一组具体的物理概念。他们还开发了违反预期(VoE)范式,用于测试婴儿对这些概念的理解。

在我们今天在《自然·人类行为》杂志上发表的论文中,我们扩展了他们的工作,并开源了物理概念数据集。这个合成视频数据集将VoE范式转移到评估五个物理概念:固体性、物体持久性、连续性、”不可改变性”和方向惯性。

有了对物理知识的基准,我们转向构建一个能够学习物理世界的模型的任务。再次,我们寻求发展心理学家的启发。研究人员不仅记录了婴儿对物理世界的认知,还提出了可能实现这种行为的机制。尽管存在差异,但这些解释都将将物理世界分解为一组随时间变化的物体。

受到这项工作的启发,我们构建了一个我们称之为PLATO(通过自动编码和跟踪对象学习物理)的系统。PLATO将世界表示为一组物体,并对其进行推理。它根据物体过去所在的位置以及它们与其他物体的相互作用,对物体在未来的位置进行预测。

在对简单物理相互作用的视频进行PLATO训练后,我们发现PLATO通过了我们物理概念数据集的测试。此外,我们还训练了与PLATO一样大甚至更大的“扁平”模型,但没有使用基于对象的表示。当我们测试这些模型时,我们发现它们没有通过我们所有的测试。这表明对象对于学习直观物理是有帮助的,支持发展文献中的假设。

我们还想确定开发这种能力需要多少经验。婴儿在两个半月大的时候就显示出了对物理知识的证据。PLATO与之相比如何?通过改变PLATO使用的训练数据量,我们发现PLATO可以在仅需28小时的视觉经验下学习我们的物理概念。由于我们数据集的有限和合成性质,我们无法直接比较婴儿和PLATO接受的视觉经验量。然而,这个结果表明,如果通过对世界进行对象表示的归纳偏见来支持,直观物理可以通过相对较少的经验来学习。

最后,我们想测试PLATO的泛化能力。在物理概念数据集中,我们测试集中的所有对象也都出现在训练集中。如果我们用PLATO测试它从未见过的对象会怎样呢?为了做到这一点,我们利用了麻省理工学院研究人员开发的另一个合成数据集的子集。该数据集也探索了物理知识,尽管外观和PLATO从未见过的一组对象不同。PLATO在没有任何重新训练的情况下通过了测试,尽管它是在全新的刺激下测试的。

我们希望这个数据集能够为研究人员提供对他们的模型理解物理世界能力更具体的了解。将来,这可以通过增加测试的物理概念列表和使用更丰富的视觉刺激(包括新的物体形状甚至真实世界的视频)来扩展,以测试直观物理的更多方面。

Leave a Reply

Your email address will not be published. Required fields are marked *