见证关系深度学习基准（RelBench）：一系列逼真、大规模且多样化的关系数据库机器学习基准数据集

在人工智能（AI）和机器学习（ML）这两个快速发展的领域中，寻找有效的、自动化的和适应性强的方法变得极其重要。AI和ML方法的不断提升已经改变了机器可以完成的事情以及人类如何与机器交互的可能性。

包括深度学习在内的AI领域完全依赖于数据，重要的数据存储在数据仓库中，通过主外键关系链接在多个表中分散存储。使用这样的数据开发ML模型存在许多困难，需要大量的时间和工作，因为现有的ML方法并不适合直接从跨越多个关系表的数据中学习。目前的方法要求将数据通过一种称为特征工程的过程转换成单个表。

为了克服这一挑战，斯坦福大学、Kumo AI、耶鲁大学、马克斯普朗克学院和伊利诺伊大学厄巴纳-香槟分校的研究团队最近提出了关系深度学习。这种端到端的深度表示学习技术可以处理分散在多个表中的数据。该方法已经被开发成一种将关系表作为异构图的基本方法。该图模型中的每个表行代表一个节点，而主外键关系定义了边。

使用消息传递神经网络（MPNNs），可以自动遍历并学习多个表，从而提取利用所有输入数据的表示，并且不需要任何手动特征工程。研究团队还提出了RELBENCH，这是一个包括基准数据集和关系深度学习实现的综合框架。这些数据集涵盖了各个领域，从亚马逊产品目录中的图书评论到像Stack Exchange这样的网站上的对话。

RELBENCH包含三个核心模块，具体如下：

数据模块：RELBENCH的数据模块提供了有效使用关系数据集的框架。其中包括三个重要特性：时间数据划分、任务规范和数据加载。

模型模块：该模块通过将未处理数据转换为图形表示来构建图神经网络（GNNs）的预测模型。使用强大的深度学习库PyTorch Geometric，RELBENCH对几种广泛使用的GNN架构进行了基准测试。该模块允许模型架构的灵活性，对于桥接预测模型和原始关系数据开发之间的差距至关重要。

评估模块：该模块创建了一个统一的评估模型性能的过程。它以系统化的方式评估预测文件，提供了模型的有效性的量化指标。该模块与各种受欢迎的深度学习工具配合使用，因为它被设计为与深度学习框架无关。这种适应性使研究人员和从业者可以使用他们选择的框架，而不会牺牲评估过程。