第一章 为什么你应该学习非欧几里得机器学习
“我们舒适和熟悉的欧几里得空间及其线性结构总是机器学习的正确选择吗?最近的研究表明不一定是这样,有时候会有害,令人兴奋的工作浪潮已经证明了这一点。从两年前关于分层数据的双曲表示法开始,一场重大的推动使得在非欧几里得空间的表示法、新的算法和模型、以及对非欧几里得机器学习的基本功能的新视角方面产生了许多新的想法。” Fred Sala , Ines Chami , Adva Wolf , Albert Gu , Beliz Gunel 和 Chris Ré ,2019
本文中你将学到什么
- 畸变测量了在另一个空间中表示数据时距离的保留情况。
- 对于某些数据,欧几里得空间意味着高畸变,因此使用球形或双曲线空间等非欧几里得空间。
- 使用黎曼几何工具,如流形和黎曼度量,进行非欧几里得机器学习。
- 流形是局部欧几里得的弯曲空间。
- 指数和对数映射用于从流形到其切空间的转换。
- 黎曼度量允许计算流形上的最短距离。
在深入探讨应用于机器学习的非欧几何系列中之前,我必须回答一个重要的问题。学习更多关于非欧几里得机器学习是否值得?
为了回答这个问题,我开始研究非欧几里得机器学习。我很快找到了一些资源。第一个是斯坦福大学的资源,上面的引用就是从中提取的。作者认为,机器学习是根据欧氏几何设计的,这更多的是出于传统或方便考虑,而不是理性思考。
到目前为止,欧几里得几何的选择似乎不是一个主要问题。但是作者通过引用Bronstein等人对几何深度学习范式的描述来引起我们的注意。
“[m] 许多科学领域研究带有非欧几里得空间的基本结构的数据。” Bronstein等人。
当我继续阅读这篇文章时,我偶然发现了一个我不熟悉的方面:空间扁平的概念。
“我们选择使用欧几里得空间,与其固有属性之一——扁平性一起使用。” Fred Sala , Ines Chami , Adva Wolf , Albert Gu , Beliz Gunel 和 Chris Ré ,2019
斯坦福文章的作者提到了扁平性的影响。以下是他们提出的三个观点,您可以在我们的系列文章中阅读以获得更多的直觉:
- 更好的表示法——他们认为,欧几里得空间不适合某些数据集,例如可以由树描述的分层数据。
- 发挥模型的全部潜力——他们认为,为了推动模型性能的极限,我们可以通过从欧几里得几何到非欧几里得几何的转换来改善数据所在的空间。
- 更灵活的操作——他们认为,在非欧几里得空间中的操作更加灵活,需要的维度更少。作者稍后在他们的文章中解释了这一点,但我们将在我们的小猪AI系列中尝试简化。
将非扁平实体表示为扁平空间
根据输入数据的条件具有适当的几何形状非常重要。下面,我们展示一个非欧几里得数据的例子,该数据被“强制”适应二维欧几里得空间。这是我们众所周知的球形星球,被压缩成平面。然而,这是通过不可忽略的畸变完成的。通过畸变,我们的意思是从原始空间[地球-球体]到表示数据的空间[地图-平面]的距离未被保留。
例如,在下面的图片中,墨西哥(右图)实际上与格陵兰(右图)的面积几乎相同,但在真实的投影中(左图)看起来要小得多。
有许多表示地球的方式都涉及到某种程度的畸变。
例如,著名的墨卡托投影中自然存在畸变。格陵兰的问题展示了从球形表示到平面表示的信息丢失。这种投影不是保面积的,这是这种情况下所期望的核心属性。事实上,面积约为2.2百万平方公里的格陵兰岛看起来比面积约为17.8百万平方公里的南美洲要大。这个墨卡托投影保留了角度,但不保留面积,因此不完美。
现在,其他数据集也被迫位于欧几里得空间中,我们观察到畸变。这是图形的情况:在欧几里得空间中,我们无法嵌入大类图形而不产生低畸变或丢失信息。
畸变有几种更严谨的数学定义。本质上,我们希望通过评估距离的保留程度来评估嵌入的质量。这里,我们定义如下:
畸变〜AVG {图形距离/嵌入距离}
例如。
在下面的图中,我们可以通过Poincare型不等式证明,我们无法在欧几里得空间中嵌入两个圆形而不产生畸变。请注意,畸变为1是完美的畸变-图形距离与嵌入空间距离完全匹配。任何不同于1的畸变意味着我们没有保留图形距离。
在上面的正方形中,对角线上的两个相对节点的距离在图形距离方面为2。然而,在欧几里得嵌入中,最短路径的距离为√2。
这个畸变的概念非常重要,因为欧几里得几何学不允许有图形数据的理想“投影”。特别是对于分层图形数据,为了最小化畸变,解决方案是使用双曲空间。
注意。我们将在下一章中更多地了解这个非欧几里得空间的例子。
在非欧几里得空间中表示数据
很难理解我们如何以除了向量Rn之外的任何方式表示数据。此外,我们如何远离我们熟知的欧几里得距离,以比较两个向量表示?
在黎曼几何中,我们可以通过流形来描述解决方案。流形是一种看起来像Rn但只在局部有效的对象。这意味着我们可以在局部使用向量来表示我们的数据点。但仅在局部!
相似性或距离的概念是机器学习中的关键。如果我们正在构建一个NLP模型,我们希望在表示文本输入的嵌入空间中保留语义相似性的概念。换句话说,我们希望两个意义相似的单词在欧几里得空间中也是相似的,即欧几里得距离很小。同样,两个意义不相似的单词应该在欧几里得空间中相距很远,即欧几里得距离很大。
因此,在逃脱欧几里得几何时需要有等效的方法。这种方法由黎曼度量描述。黎曼度量允许我们在非欧几里得空间中比较两个实体并保留这种直观的距离概念。
👀 我记得。
现在,我们需要记住,在这种非欧几里得框架中,我们可以在我们的数据表示上局部执行操作,并且我们有一个度量来测量距离。因此,我们有能力在非欧几里得空间中进行机器学习。
🙌🏻 为什么我应该学习非欧几里得空间中的机器学习?
到目前为止,我们知道没有欧几里得这个天才的机器学习实际上是有意义的。实际上存在着一些项目,它们采用不同的几何框架来解决传统的机器学习问题。
现在,一个自然而然的问题出现了:学习该领域的存在是否值得我们花费时间?
这是一个相当可怕的领域,涉及到非平凡的数学。但是我的朋友Aniss Medbouhi,KTH的ML博士研究员,将帮助我们克服这个领域的内在复杂性。
我对这个领域不太信服的另一个原因是,我读到它大多适用于可以用树来描述的分层数据。乍一看,它并不涉及我日常工作中处理的数据。
然而,下面的摘要给我们提供了相关数据集的想法:
“然而,最近的研究表明,用于嵌入复杂网络的等距空间不是平坦的欧几里得空间,而是带有负曲率的双曲空间。我们提出了一个新的概念,利用这些最新的见解,并建议在双曲空间中学习图形的神经嵌入。我们提供了实验证据,表明在自然几何中嵌入图形可以显着提高几个真实世界公共数据集的下游任务的性能。” Chamberlain等。
“然而,复杂的符号数据集通常表现出潜在的分层结构,而最先进的方法通常在欧几里得向量空间中学习嵌入,这些方法不考虑此属性。为此,我们介绍了一种新方法,通过将它们嵌入到双曲空间中 – 或更准确地说,嵌入到n维Poincaré球中 – 来学习符号数据的分层表示。”Nickel和Kiela
Chamberlain等人列出了上述数据集:
(1) 跆拳道:扎卡里的跆拳道俱乐部包含34个顶点,分为两个派系。[4]
(2) Polbooks:关于2004年总统选举期间出版的美国政治书籍的网络,并由在线书商Amazon.com销售。书籍之间的边表示相同的买家频繁购买书籍。
(3) 足球:2000年秋季常规赛期间,美国大学分区IA之间的美式足球比赛网络。[2]
(4) Adjnoun:查尔斯·狄更斯的小说《大卫·科波菲尔德》中常见形容词和名词的邻接网络。[3]
(5) Polblogs:2005年记录的关于美国政治的网络日志之间的超链接网络。[1]
此外,在生物学中,我们还发现了这个参考数据集:
- 生物学:如蛋白质等进化数据。[5]
最后,自然语言处理数据,即文本数据,是另一种层次数据。因此,许多领域可以受益于了解非欧几里得机器学习的进展。
既然我们知道了如何更好地表示某些数据集,关键是将其与机器学习联系起来。任何下游的机器学习任务都需要先摄取数据。清理我们的基础数据并准确表示它需要花费大量时间。数据表示的质量非常重要,因为它直接影响我们模型的性能。例如,在自然语言处理中,我建议我的学生专注于提供良好嵌入的架构,例如上下文嵌入。已经进行了大量的研究来改进嵌入,从浅层神经网络(fasttext、word2vec)到深度神经网络和转换器(sentence-transformers、BERT、RoBERTa、XLM)。但是,值得注意的是,数据表示与手头的任务非常相关,研究表明,某些浅层神经网络对于某些任务提供比深层神经网络更好的结果。
结论
在本文中,我们看到我们可以利用非欧几里得几何来解决特定于球形数据和层次数据(如图形)的现有问题。将这些数据集嵌入到欧几里得空间中时,需要付出一种扭曲的代价,该代价不允许保留从原始空间到嵌入空间的距离。这种扭曲在我们的地球表示中是直观的,我们有许多方法来表示我们的地球,其中一些不能保留预期的核心属性,例如面积保持。同样对于图形,需要保留核心属性,扭曲底层空间可能会导致下游机器学习任务的性能下降。
在下一章中,我们将了解更多关于球形和双曲几何的知识。我们将更加关注后者,并对如何在这样的空间中更好地嵌入层次数据提供直觉。
与贡献者联系。
KTH 皇家理工学院的机器学习博士研究员。
Linkedin。https://www.linkedin.com/in/aniss-medbouhi/
微软数据科学家和 EPITA 巴黎教师。
Linkedin。https://www.linkedin.com/in/mastafa-foufa/
[1] Lada A. Adamic 和 Natalie Glance。政治博客圈和 2004 年美国选举。第三届国际链发现研讨会 – LinkKDD ’05,第 36-43 页,2005 年。
[2] Michelle Girvan 和 Mark E. J. Newman。社交和生物网络中的社区结构。在国家科学院的会议记录中,99:7821-7826,2002 年。
[3] Mark E. J. Newman。使用矩阵的特征向量在网络中查找社区结构。物理评论 E – 统计,非线性和软物质物理学,74(3):1-19,2006 年。
[4] Wayne W. Zachary。小组内冲突和压制的信息流模型。人类学研究杂志,33:452-473,1977 年。
[5] AlQuraishi, Mohammed. “ProteinNet:用于蛋白质结构机器学习的标准化数据集。”BMC生物信息学20.1 (2019):1-10。