

近年来,机器学习(ML)在天气预报中的应用越来越多。现在,ML模型在准确性方面可以与基于物理的运算模型相媲美,有希望这一进展很快能够提高全球天气预报的精度。采用客观和确定的评估指标对新方法进行开放和可重现的评估对实现这一目标至关重要。
Google、Deepmind和欧洲中心VoAGI-Range Weather Forecasts最近的研究提出了WeatherBench 2,这是一种用于天气预测模型的基准和比较框架。除了对用于训练大多数ML模型的ERA5数据集进行彻底复制外,WeatherBench 2还具有开源的评估代码和公开可用的云优化的基准和基线数据集。
目前,WeatherBench 2针对全球VoAGI范围(1-15天)的预测进行了优化。研究人员计划在不久的将来考虑将评估和基线纳入更多工作,例如现在预报和短期(0-24小时)和长期(15+天)预测。
天气预报的准确性很难用简单的得分来评估。对于某个用户来说,平均温度可能比风阵的频率和严重程度更重要。因此,WeatherBench 2包括了许多指标。为了与气象机构和世界气象组织进行标准评估一致,定义了几个重要的标准指标来总结该研究。
WeatherBench 2.0(WB2)是基于数据驱动的全球天气预报的黄金标准。它受到了自第一个WeatherBench基准发布以来出现的所有新AI技术的启发。WB2的构建目标是尽可能接近许多气象中心使用的操作预报评估。它还为将实验方法与这些操作标准进行比较提供了坚实的基础。
通过公开提供评估代码和数据,目标是促进高效的机器学习操作并确保可重现的研究结果。研究人员相信,根据社区的需求,可以在WB2中增加更多的指标和基线。该论文已经暗示了几个潜在的扩展,包括更多关注在细尺度上评估极端事件和影响变量,也许通过站点观测。