比较基于数据驱动的天气模型和WeatherBench
基准数据集对于机器学习研究非常重要。它们是标准化的数据集,易于获取、预处理和清洗,非常适合机器学习。
基于数据的天气预报是一个非常活跃的课题。包括NVIDIA、DeepMind和华为在内的研究实验室发布了可以与已建立的天气预报服务相媲美的机器学习算法。
如何比较这些基于数据驱动的天气模型与“标准”天气预报基准?基准数据集和标准化评估可能会有所帮助。
在这里,我们总结了WeatherBench,一个由Stephan Rasp等人在2020年开发的气候和天气建模基准数据集[1]。
在本博文中,我们将:
- 回顾著名的基准数据集,如MNIST,并给出一些关键标准以获得一个好的基准数据集。
- 介绍ERA5全球天气再分析数据集,它是WeatherBench的基础。
- 讨论WeatherBench和相应排行榜的当前状态。
基准数据集
最著名的基准数据集可能是MNIST,最初为图像处理系统开发的手写数字集合。MNIST包含70,000幅图像,其中60,000幅用于训练,10,000幅用于测试,每幅图像是一个28×28灰度像素的正方形。正如Yann LeCun所指出的,
对于那些希望在现实数据上尝试学习技术和模式识别方法而又不希望在预处理和格式化上花费大量精力的人来说,它是一个很好的数据库。
![AI天气模型的基准数据集 四海 第2张-四海吧 MNIST数据集中手写数字的示例。来源:Josef Steppan [CC-BY-SA 4.0]](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*Ft2rLuO82eItlvJn5HOi9A.png)
其他有趣的基准数据集包括
- FashionMNIST:在线零售商Zalando开发的类似于MNIST的时尚产品图像集合,共有70,000幅图像。
- ImageNet:超过20,000个类别的14 million张图像。用于ImageNet Large Scale Visual Recognition…