Press "Enter" to skip to content

「ULTRA 知识图谱推理的基础模型」

Graph ML 的新内容有哪些?

一种模型来统治它们所有

训练一个通用的模型来解决任意数据集,一直是机器学习研究人员的梦想,特别是在基础模型的时代。虽然在感知领域,比如图像或自然语言中已经实现了这样的梦想,但是在推理领域(比如图形)能否复制这样的成果仍然是一个开放的挑战。

由DALL-E 3的输出编辑而成的图像

在本博客文章中,我们证明了这样一个通用的推理模型存在,至少对于知识图谱(KG)来说是存在的。我们创建了一个名为ULTRA的单一预训练推理模型,它可以泛化到具有任意实体和关系词汇的新KG,并用作任何KG推理问题的默认解决方案。

本文是基于我们最近的论文(预印本)撰写的,与Xinyu Yuan (Mila),Zhaocheng Zhu (Mila) 和Bruno Ribeiro (Purdue / Stanford) 共同合作完成的。请关注 Twitter 上的MichaelXinyuZhaochengBruno以获取更多关于Graph ML的内容。

大纲

  1. 为何KG表示学习在2018年停滞不前
  2. 理论:什么使模型具有归纳性和可迁移性?
  3. 理论:多关系图中的等变性
  4. ULTRA:用于KG推理的基础模型
  5. 实验:甚至在零样本推理和规模行为中表现最佳
  6. 代码、数据、检查点

为何KG表示学习在2018年停滞不前

自2018年以来,预训练-微调范式一直与我们同在,当时的ELMoULMFit显示了初步的有希望结果,并且后来有了BERTGPT的证明。

在大型语言模型(LLM)和更通用的基础模型(FM)时代,我们经常有一个单一的模型(例如GPT-4或Llama-2),它在大量的数据上进行预训练,并能够以零样本方式执行各种语言任务(或至少可以在特定数据集上进行微调)。如今,多模态FM甚至能够在同一模型中支持语言、视觉、声音和其他形式。

在图形机器学习中,情况有所不同。尤其是在2023年底的KG表示学习中发生了什么?这里的主要任务是边级的:

  • 实体预测(或知识图谱补全)(h,r,?):给定一个头节点和关系,对图中可能为真实尾部的所有节点进行排序。
  • 关系预测(h,?,t):给定两个节点,预测它们之间的关系类型。

原来,直到现在,它一直在2018年之前的某个时候。关键问题是:

每个知识图谱都有自己的实体和关系集合,没有一个单一的预训练模型可以应用于任何图谱。

举个例子,如果我们看一下Freebase(Google知识图谱背后的知识图谱)和Wikidata(最大的开源知识图谱),它们具有完全不同的实体集合(8600万个对比10000万个)和关系集合(1500个对比6000个)。当前的知识图谱表示学习方法是否有希望在一个图谱上进行训练并转移到另一个图谱上呢?

Freebase和Wikidata的不同词汇表。照片由作者提供。

❌ 传统的转导方法,如TransE、ComplEx、RotatE等以及其他基于嵌入的方法,从训练图谱中学习了一个固定的实体集合和关系类型,甚至无法支持添加到同一图谱的新节点。浅层基于嵌入的方法不能进行迁移(事实上,我们认为这种方法不再有意义,除非是一些学生项目练习)。

🟡 诸如NodePieceNeural Bellman-Ford Nets之类的归纳实体方法不学习实体嵌入。相反,它们根据固定的关系将训练(已知)和新推理(未知)节点参数化为函数。由于它们只学习关系嵌入,所以它们可以转移到具有新节点的图谱,但是转移到具有不同关系的新图谱(如Freebase到Wikidata)仍然是不可实现的。

相对实体表示实现归纳GNN。照片由作者提供。

如果在推理时同时有新的实体和关系(完全新的图谱),该怎么办呢?如果不学习实体或关系嵌入,理论上是否可能进行迁移?让我们进一步研究一下理论。

理论:什么使模型具有归纳性和可迁移性?

让我们更正式地定义设置:

  • 知识图谱是具有任意节点和关系类型的有向多关系图
  • 图谱没有特征,即我们不假定实体和关系具有文本描述(也没有预先计算的特征向量)
  • 给定一个查询(头部,关系,?),我们希望对底层图谱中的所有节点进行排名,并最大化返回一个真实尾部的概率
  • 转导设置:训练时的节点和实体集合与推理时相同
  • 归纳(实体)设置:关系集合必须在训练时固定,但节点在训练和推理时可以不同
  • 归纳(实体和关系)设置:推理时允许出现新的未知实体和关系

神经网络学习的是什么,以便能够推广到新数据?根据主要参考资料——Bronstein、Bruna、Cohen和Veličković撰写的关于几何深度学习。

在基础模型中,可学习的不变性是什么?LLMs是在固定的令牌词汇表上进行训练的(子词单元、字节,甚至是像Lexinvariant LLMs中的随机初始化向量),视觉模型学习功能来投影图像块,音频模型学习投影音频块。

对于多关系图,可学习的不变性是什么?

首先,我们将介绍标准的齐变图中的不变性。

标准(单一)置换齐变的图模型:当早期的GNN研究(Scarselli et al. 2008Xu et al. 2018Morris et al. 2018)表明归纳图任务极大地受益于假设顶点ID是任意的时,图机器学习迈出了巨大的一步。也就是说,如果重新分配顶点ID,图模型的预测不应该改变。这被称为神经网络对节点ID的排列齐变。这一认识引起了巨大的兴奋,并产生了大量的新图表示方法,只要神经网络对节点ID的排列齐变,我们就可以称之为图模型。

单关系图。GNN对节点置换齐变:重新标记节点ID后,迈克尔·杰克逊的节点向量将具有相同的值。作者:图像

节点ID的置换齐变使得GNN能够将从一个训练图到另一个(不同的)测试图所学到的模式在归纳(零样本)转移。这是齐变的结果,因为神经网络无法使用节点ID来生成嵌入,它必须使用图结构。这就创造了我们所知道的图中的结构表示(参见Srinivasan & Ribeiro (ICLR 2020))。

多关系图中的齐变性

现在图中的边可能具有不同的关系类型 – 是否有适用于此类图的GNN理论?

1️⃣ 在我们之前的工作中,Weisfeiler和Leman Go Relational(与Pablo Barceló,Christopher Morris和Miguel Romero Orth等人合作,LoG 2022), 我们推导出了多关系图的WL表达能力层次结构,更侧重于节点层任务。而Huang等人(NeurIPS 2023)的重大后续工作将该理论扩展到了链接预测,形式化了条件消息传递和逻辑表达能力使用的关系WL。✍️ 让我们记住条件消息传递 – 我们后面会用到它 – 它可以明显改善链接预测性能。

通过引入由入/出边方向引起的全局读取向量来增加提案与 Emanuele Rossi et al 的最新工作对于研究同质MPNN中的定向性相似 (详细信息请参见VoAGI上的博文)。然而,这些工作并没有设想即使在测试时,关系也会发生变化。

2️⃣ 双重齐变(多关系)图模型:最近,Gao等人(2023年)提出了双重齐变的概念适用于多关系图。双重齐变强制神经网络对节点ID和关系ID的联合置换是齐变的。这确保了神经网络学习节点和关系之间的结构模式,使其能够将学到的模式在归纳(零样本)转移到具有新节点和新关系的另一个图中。

多关系图中的双重齐变性。重新排列节点ID和关系ID不会改变关系结构。因此,输出节点状态应保持相同(但重新排列)。作者:图像

➡️ 在我们的工作中,我们发现关系相互作用的不变性,即使关系身份不同,它们的基本互动仍然保持不变,并且这些基本互动可以通过一张关系图来捕捉。在关系图中,每个节点都是原始图中的一个关系类型。如果原始图中有与这些关系类型对应的边相交(即它们共享一个头或尾节点),则在该图中的两个节点将连接起来。根据相交关系,我们在关系图中区分出4种边类型

  • 头对头(h2h)—两个关系可以从同一个头实体开始;
  • 尾对头(t2h)—一个关系的尾实体可以是另一个关系的头实体;
  • 头对尾(h2t)—一个关系的头实体可以是另一个关系的尾实体;
  • 尾对尾(t2t)—两个关系可以有相同的尾实体。
原始图中的不同相交模式会产生关系图中的不同相互作用。最右边:示例关系图(为了清晰起见,省略了反向边)。图像由作者提供

关系图的几个不错的特性:

  • 可以从任何多关系图中构建(通过简单的稀疏矩阵乘法)
  • 这四种基本互动永远不会改变,因为它们只是编码了基本的拓扑结构——在有向图中,总会有头节点和尾节点,而且我们的关系将具有这些相交模式

基本上,通过关系图学习表示可以转换为任何多关系图!这就是可学习的不变性。

事实上,我们正在进行形式证明的工作(即将在即将发表的作品中发布😉),证明了通过关系图中的相互作用来表示关系是一种双重等变模型!这意味着学习到的关系表示与身份无关,而是依赖于关系、节点以及节点和关系之间的联合相互作用。

ULTRA:知识图推理的基础模型

在所有支持我们的理论基础的基础上,我们现在准备介绍ULTRA。

ULTRA是一种统一的、可学习的和可迁移的图表示方法。ULTRA利用关系图的不变性(和等变性)及其基本互动,并应用条件消息传递来获取相对关系表示。也许最酷的事实是

单个预训练的ULTRA模型可以在任何可能的多关系图上进行零-shot推理,并且可以在任何目标图上进行微调。

换句话说,ULTRA基本上是一个基础模型,可以在任何图输入上运行推理(已经有良好的性能),并且可以在任何目标图上进行微调。

ULTRA的关键组成部分是由关系图构建的相对关系表示。给定一个查询 (Michael Jackson, genre, ?),我们首先使用全1向量(其他节点都初始化为0)初始化关系图中的genre节点。通过运行一个图神经网络(GNN),关系图的结果节点嵌入是在genre节点上条件生成的——这意味着每个初始关系都会有自己的关系特征矩阵,这在理论和实践方面都非常有用!

ULTRA使用相对关系表示(关系图上的一种标签技巧),使每个关系(例如,“genre”)都有自己独特的关系表示矩阵。图像由作者提供

在实践中,给定一个输入知识图和一个(h,r,?)查询,ULTRA执行以下操作:

  1. 关系图的构建;
  2. 从条件消息传递GNN中的关系图获取关系特征(以已初始化的查询关系r为条件);
  3. 利用所获得的关系表示对已初始化的头节点h进行归纳链接预测GNN;

步骤2和3通过稍微不同的修改实现了神经贝尔曼-福特神经网络(NBFNet)。 ULTRA只学习了4种基本交互的嵌入(h2t,t2t,t2h,h2h)和GNN权重 – 总体上非常小。我们实验的主要模型只有177k个参数。

ULTRA采取的三个主要步骤:(1)构建关系图;(2)在关系图上运行条件消息传递,以获取相对关系表示;(3)在实体级别上使用这些表示进行归纳链接预测GNN。图片由作者提供。

实验:即使在零-shot推理和微调中表现最佳

我们在基于Freebase、维基数据和Wordnet的3个标准知识图谱上对ULTRA进行了预训练,并在50多个各种规模(1k – 120k节点和2k边 – 1.1M边)的其他知识图谱上进行了零-shot连接预测。

在已知SOTA数据集上的平均结果来看,单个预训练的ULTRA模型在零-shot推理模式下优于现有的专门在每个图上训练的SOTA模型,甚至进一步通过微调可以提高10%的性能。令人惊奇的是,单个已训练的ULTRA模型可以适应不同大小的图(节点尺寸差异为100倍,边尺寸差异为500倍),而已知GNN在尺度概化方面存在问题(请参阅Yehudai et al,ICML 2021 和 Zhou et al,NeurIPS 2022等重要工作)。

单个预训练的ULTRA甚至在零-shot推理模式下也优于特定图表上端到端训练的SOTA模型(请看平均栏)。微调可以进一步提高性能。图片由作者提供。

🙃 实际上,通过对57个测试图表进行测试,我们已经测试无法再测试ULTRA。如果您有新的基准测试隐藏在某个地方 – 让我们知道!

规模行为

我们可以通过将更多图表添加到预训练混合中来进一步提高零-shot性能,尽管我们观察到在训练4个以上图表后某种性能饱和。

缩放定律》的研究预测更大型模型在更多的定性数据上训练将获得更好的性能,因此这绝对是我们的议程之一。

零-shot性能随着预训练混合中更多不同的图表而提高。图片由作者提供。

结论:代码,数据,检查点

因此,知识图谱推理的基础模型终于出现了,我们已经超过了2018年的门槛!一个单独的预训练ULTRA模型可以对来自任何领域的知识图谱(多关系图)进行链接预测。你只需要一个具有多于1种边类型的图即可启动。

📈 在零-shot模式下,ULTRA在各种知识图谱基准测试中表现出非常有希望的性能,但是您可以通过简短的微调进一步提高性能。

我们在GitHub上提供所有的代码、训练数据和预训练模型检查点,这样你就可以立即开始在你的数据上运行ULTRA了!

📜 预印本: arxiv

🛠️ 代码、数据:Githtub仓库

🍪 检查点:2个检查点(每个2 MB)在Github仓库

🌎 项目网站:这里

作为结束语,知识图谱推理只是推理领域中许多有趣问题的一小部分,大部分问题仍然没有通用的解决方案。我们相信知识图谱推理的成功将在其他推理领域带来更多突破(例如,我们最近发现LLMs实际上可以学习和应用文本规则)。让我们对推理的未来保持乐观!

Leave a Reply

Your email address will not be published. Required fields are marked *