Press "Enter" to skip to content

突破数据障碍:零样本学习、一次学习和少样本学习如何改变机器学习

突破数据障碍:零样本学习、一次学习和少样本学习如何改变机器学习 四海 第1张

 

介绍

 

在当今快速变化的世界中,技术每天都在进步,机器学习和人工智能以流程自动化和提高效率的能力,已经彻底改变了多个行业。然而,人类仍然在传统机器学习算法上具有明显的优势,因为这些算法需要成千上万个样本来响应潜在的相关性并识别一个对象。

想象一下,在算法起作用之前,使用指纹或面部识别解锁智能手机时,需要进行100次扫描的沮丧感。这种功能永远不会被推向市场。

然而,自2005年以来,机器学习专家已经开发出可以彻底改变游戏规则的新算法。在过去近20年的改进中,产生了可以从最少(零、一或少数)数量的样本中学习的算法。

在本文中,我们探讨了这些算法背后的概念,并全面理解这些学习技术的工作原理,同时也揭示了在实施它们时面临的一些挑战。

 

零样本学习如何工作?

 

零样本学习是训练模型对其从未见过的对象进行分类的概念。核心思想是利用另一个模型的现有知识来获得新类别的有意义的表示。

突破数据障碍:零样本学习、一次学习和少样本学习如何改变机器学习 四海 第2张

它使用语义嵌入或基于属性的学习,以有意义的方式利用先前的知识,从而提供对已知类别和未知类别之间关系的高级理解。这两者可以同时或独立使用。

语义嵌入是单词、短语或文档的向量表示,它们在连续的向量空间中捕捉它们之间的潜在含义和关系。这些嵌入通常使用无监督学习算法(例如Word2Vec、GloVe或BERT)生成,目标是创建一种紧凑的语言信息表示,其中相似的含义用相似的向量编码。通过这种方式,语义嵌入允许对文本数据进行高效准确的比较和操作,并通过将实例投影到连续的共享语义空间中来推广到未见类别。

基于属性的学习使得能够对未见类别的对象进行分类,而无需访问这些类别的任何标记示例。它将对象分解为其有意义和显著的属性,这些属性作为中间表示,使模型能够建立起已见类别和未见类别之间的对应关系。该过程通常包括属性提取、属性预测和标签推断。

  1. 属性提取涉及为每个对象类别推导出有意义和有区分性的属性,以弥合低级特征和高级概念之间的差距。
  2. 属性预测涉及使用机器学习技术学习实例的低级特征和高级属性之间的对应关系,以识别特征之间的模式和关系,从而推广到新颖类别。
  3. 标签推断涉及使用预测的属性和属性与未见类别标签之间的关系来预测新实例的类别标签,而无需依赖于标记示例。

尽管零样本学习具有巨大的潜力,但仍然存在一些挑战,例如:

  • 领域适应:目标领域中实例的分布可能与源领域中的分布显著不同,导致对已见和未见类别学习的语义嵌入之间存在差异。这种领域偏移可能会损害性能,因为模型可能无法在不同领域的实例和属性之间建立有意义的对应关系。为了克服这一挑战,提出了各种领域适应技术,例如对抗性学习、特征解缠和自监督学习,旨在通过使源域和目标域中的实例和属性分布对齐来实现。

 

单样本学习如何工作?

 

在开发传统的神经网络(例如用于识别汽车)的过程中,模型需要成千上万个样本,从不同角度和不同对比度下拍摄,以有效区分它们。单样本学习采用了一种不同的方法。它不是识别给定的汽车,而是确定图像A是否等同于图像B。这是通过推广模型从以前任务的经验中获得的信息来实现的。单样本学习主要用于计算机视觉。

突破数据障碍:零样本学习、一次学习和少样本学习如何改变机器学习 四海 第3张

实现这一目标的技术包括记忆增强神经网络(Memory Augmented Neural Networks,MANNs)和孪生网络(Siamese Networks)。通过独立应用这些技术,一次学习模型可以快速适应新任务,并且即使在非常有限的数据情况下也能表现出色,使其适用于获取标记数据昂贵或耗时的实际场景。

记忆增强神经网络(MANNs)是一类先进的神经网络,旨在从极少数示例中学习,就像人类只需一个新对象实例就能学习一样。MANNs通过额外的内存组件存储和访问信息来实现这一目标。

想象一下,MANN就像一个聪明的机器人带着一本笔记本。机器人可以使用笔记本记住以前见过的东西,并使用这些信息来理解它遇到的新事物。这使得机器人比常规AI模型学习速度快得多。

另一方面,孪生网络(Siamese Networks)旨在通过采用两个或多个具有共享权重的相同子网络来比较数据样本。这些网络学习一个能够捕捉数据样本之间重要差异和相似性的特征表示。

将孪生网络想象成一对总是一起工作的双胞胎侦探。他们共享相同的知识和技能,他们的工作是比较两个物品并决定它们是否相同或不同。这些侦探查看每个物品的重要特征,然后将他们的发现进行比较以做出决策。

孪生网络的训练分为两个阶段:验证阶段和泛化阶段。

  • 在验证阶段,网络确定两个输入图像或数据点是否属于同一类。网络使用孪生子网络分别处理两个输入。
  • 在泛化阶段,模型通过有效学习能够区分不同类别的特征表示来概括对输入数据的理解。

完成这两个阶段后,模型能够确定图像A是否对应于图像B。

一次学习非常有前景,因为它不需要重新训练来检测新的类别。然而,它面临一些挑战,如高内存需求和巨大的计算能力需求,因为需要两倍的操作来进行学习。

 

Few-Shot Learning是如何工作的?

 

最后要介绍的学习方法是Few-Shot Learning,它是元学习的一个子领域,旨在开发能够从少量标记示例中学习的算法。

突破数据障碍:零样本学习、一次学习和少样本学习如何改变机器学习 四海 第4张

在这种情况下,原型网络(Prototypical Networks)和模型无关元学习(Model-Agnostic Meta-Learning,MAML)是两种在少样本学习场景中取得成功的重要替代技术。

 

原型网络(Prototypical Networks)

 

原型网络是一类为少样本分类任务设计的神经网络。其核心思想是在特征空间中为每个类别学习一个原型或代表性示例。原型作为基础用于通过比较新输入与已学习的原型之间的距离进行分类。

涉及三个主要步骤:

  1. 嵌入(Embedding):网络使用神经网络编码器(例如卷积神经网络(CNN)或循环神经网络(RNN))为每个输入计算一个嵌入。嵌入是捕捉输入数据显著特征的高维表示。
  2. 原型计算(Prototype computation):对于每个类别,网络通过对支持集的嵌入(每个类别的一小部分标记示例)求平均来计算原型。原型在特征空间中代表类别的“中心”。
  3. 分类(Classification):给定一个新输入,网络计算其嵌入并计算输入的嵌入与原型之间的距离(如欧氏距离)。然后将输入分配给与最近原型对应的类别。

学习过程涉及最小化鼓励原型靠近其各自类别嵌入并远离其他类别嵌入的损失函数。

 

模型无关元学习(MAML)

 

MAML是一种元学习算法,旨在找到模型参数的最优初始值,以便它可以通过少量梯度步骤快速适应新任务。MAML是模型无关的,意味着它可以应用于任何使用梯度下降训练的模型。

MAML涉及以下步骤:

  1. 任务采样:在元训练期间,从任务分布中采样任务,其中每个任务是一个少样本学习问题,具有少量标记示例。
  2. 任务特定学习:对于每个任务,使用任务的训练数据(支持集)进行少量梯度步骤来微调模型的参数。这会产生具有更新参数的任务特定模型。
  3. 元学习:元目标是最小化所有任务在验证数据(查询集)上的任务特定损失的和。通过梯度下降来更新模型的初始参数以实现此目标。
  4. 元测试:在元训练之后,模型可以通过少量梯度步骤快速对新任务进行微调,利用学到的初始化。

MAML需要大量的计算资源,因为它涉及多个嵌套的梯度更新,这带来了挑战。其中一个挑战是任务多样性。在许多少样本学习场景中,模型必须适应各种任务或类别,每个任务或类别只有少量示例。这种多样性可能会使得在没有大量微调或适应的情况下,开发出能够有效处理不同任务或类别的单一模型或方法变得具有挑战性。

 

结论

 

机器学习的令人难以置信的世界赋予我们突破性的技术,如零样本学习、一次样本学习和少样本学习。这些方法使得AI模型能够通过仅有少量示例来学习和识别对象或模式,就像人类一样。这为医疗保健、零售和制造等各个行业开辟了无限可能性,因为这些行业并不总是拥有大量标记数据的奢侈品。   Christophe Atten领导着一支在金融领域的数据科学家团队,并自2022年起成为VoAGI AI Writer,专注于将原始数据转化为有见地的解决方案。

  原文。经许可转载。  

Leave a Reply

Your email address will not be published. Required fields are marked *