Press "Enter" to skip to content

关于数据驱动的方程式发现

Published December 3, 2023 by 四海吧

Photo by ThisisEngineering RAEng on Unsplash — 照片由ThisisEngineering RAEng拍摄，来自Unsplash

通过经过实验证实的分析表达式来描述自然界，从引力的基本定律到量子力学等等，这一直是科学成功的标志，尤其是在物理学方面。随着气候变化、聚变和计算生物学等挑战，我们的焦点转向了更多的计算，对于具有较低成本但仍保持物理一致性的简明而坚固的减模型的需求也在增长。科学机器学习是一个新兴领域，有望提供这样的解决方案。本文对最近针对熟悉机器学习或统计学基础的科学家和工程师的数据驱动方程发现方法进行了简要回顾。

动机与历史视角

仅仅良好地拟合数据已被证明是一种短视的努力，正如托勒密的宇宙中心模型曾是最准确的观测模型，直到开普勒的日心说模型出现。因此，将观测结果与基本物理原理相结合在科学中起着重要作用。然而，在物理学中，我们经常忽视我们的世界模型已经是数据驱动的程度。以粒子标准模型为例，该模型包含19个参数，这些参数的数值是通过实验证实的。用于气象学和气候的地球系统模型，虽然在基于流体力学的物理一致核心上运行，但也需要对其敏感参数进行仔细校准以符合观测结果。最后，简化建模正受到聚变和空间天气社区的推崇，并且在将来可能仍然与相关领域保持关联。在生物学和社会科学等领域，一阶方法不太有效，统计系统识别已经发挥了重要作用。

机器学习中有各种方法，可直接从数据预测系统的演变。近年来，深度神经网络在天气预报领域取得了重大进展，正如谷歌DeepMind团队和其他团队所证明的那样。部分原因在于它们可以利用大量可用资源，以及气象数据的普遍可用性和物理数值天气预测模型，该模型通过数据同化在全球范围内插值了这些数据。然而，如果生成数据的条件发生变化（例如气候变化），这种完全数据驱动的模型可能很难泛化。这意味着将这种黑匣子方法应用于气候模拟和其他数据不足的情况可能是可疑的。因此，在本文中，我将强调从数据中提取方程的方法，因为方程更具可解释性，并且更少受过拟合的影响。按照机器学习的术语，我们可以将这些范式称为高偏差低方差。

首先值得一提的方法是由Schmidt和Lipson开展的开创性工作，他们使用遗传编程（GP）进行从数据中提取方程的符号回归。他们从简单的动力系统（如双摆）的轨迹数据中提取了方程。该过程包括生成候选符号函数，推导这些表达式中涉及的偏导数，并将其与从数据中数值估计的偏导数进行比较。重复该过程，直到达到足够的准确性。重要的是，由于有大量的潜在精确的候选表达式，可以选择满足“简洁性”原则的表达式。简洁性以表达式中的项数的倒数来衡量，而预测准确性以仅用于验证的保留实验数据的误差来衡量。这种简洁建模原则构成了方程发现的基础。

遗传编程（GP）的思想是通过尝试一族可能的表达式术语来探索可能的分析表达式空间。此表达式编码在上图的树中，其结构可以被表示为一种“基因”。新树通过选择和交叉最佳候选者的基因序列的变异来获得。例如，要获得右侧框中的方程，只需按照右侧树的层次结构中的箭头进行操作。</figcaption></figure><p>这种方法的优点是可以探索各种可能的分析表达式组合。它在各种系统中进行了尝试，特别值得一提的是<a href= — 通常，x(t)（有时称为响应函数）是从观测数据或模型数据获得的。然后，目标是估计f = f(x)（ODE的右侧）的最佳选择。通常，尝试使用一组单项式，并继续找出稀疏系数向量。稀疏系数向量的每个元素控制该单项式对整个表达式的重要性。

通常，x(t)（有时称为响应函数）是从观测数据或模型数据获得的。然后，目标是估计f = f(x)（ODE的右侧）的最佳选择。通常，尝试使用一组单项式，并继续找出稀疏系数向量。稀疏系数向量的每个元素控制该单项式对整个表达式的重要性。

Published in 四海

Leave a Reply

Web Analytics