企业如何提高多语言产品分类器的准确性？这篇人工智能论文提出了LAMM：一种针对训练数据有限语言的主动学习方法，旨在增强分类准确性

企业如何提高多语言产品分类器的准确性？这篇人工智能论文提出了LAMM：一种针对训练数据有限语言的主动学习方法，旨在增强分类准确性四海第1张

通过利用不同语言共享的表示形式，跨语言学习已被认为可以提高自然语言处理模型在数据有限的低资源语言（LRL）上的准确性。然而，高资源语言（HRL）和低资源语言（LRL）的准确性存在显著差异，这与LRL的预训练数据相对稀缺有关，即使对于最先进的模型也是如此。在专业环境中，常常会对语言级准确性设定目标。这时候，像神经机器翻译、音译和类似数据上的标签传播等技术非常有用，因为它们可以用于合成增强现有训练数据。

这些方法可以用来增加训练数据的数量和质量，而无需采用代价过高的手动注释。由于机器翻译的局限性，即使翻译通常会提高LRL的准确性，但它可能需要赶上商业目标。

亚马逊的研究团队提出了一种通过使用主动学习有选择地收集标记数据来提高低资源语言（LRL）准确性的方法。虽然以前已经研究过多语言数据的主动学习，但大部分研究集中在为单一语言训练模型上。为此，他们正在努力完善一种能够有效地在语言之间进行翻译的单一模型。这种方法被称为语言感知主动学习多语言模型（LAMM），类似于已经显示主动学习可以在使用单一模型的情况下提高模型在各种语言上的性能的工作。然而，这种方法不提供专门针对和提高LRL准确性的手段。由于他们坚持为已经超过准确性目标的语言获取标签，今天最先进的主动学习算法在满足语言级目标至关重要的情况下浪费了手动注释。为了提高LRL的准确性而不对HRL的性能产生负面影响，他们提出了一种基于主动学习的策略来有策略地收集标记数据。建议的策略LAMM可以增加在所有相关语言中实现准确性目标的可能性。

研究人员将LAMM作为具有多个目标的MOP来构建。其目标是选择以下未标记数据的示例：

不确定的（模型对结果没有信心）
来自语言家族，分类器的性能可能优于目标。

亚马逊的研究人员使用典型的基于池的主动学习设置，将LAMM的性能与两个基准进行比较，使用四个多语言分类数据集。其中两个示例是亚马逊评论和MLDoc。亚马逊内部使用了两个多语言产品分类数据集。以下是标准的流程：

最低置信度（LC）收集可能具有最大熵不确定性的样本。
均匀分配（EC），为了填充每种语言的注释预算，收集具有高熵的样本，并将注释预算在语言之间均匀分配。

他们发现LAMM在所有LRL上的表现优于竞争对手，而在HRL上略微不如。使用LAMM时，HRL标签的百分比减少了62.1%，而与LC相比，AUC的准确性仅降低了1.2%。使用四个不同的产品分类数据集，其中两个是公开可用的，另外两个是亚马逊内部使用的专有数据集，他们展示了相对于强大基线，LAMM可以将LRL的性能增加4-11%。