这篇AI论文介绍了子句编码器：一种对文本进行细粒度语义表示的对比学习上下文嵌入AI模型

来自宾夕法尼亚大学、华盛顿大学和腾讯AI实验室的研究人员提出了一种子句编码器，这是一种对比学习的上下文嵌入模型，它为文本序列中的原子命题生成不同的嵌入。与传统的句子嵌入不同，它通过学习不同含义单元的上下文嵌入，专注于细粒度的语义表示。该模型在检索支持事实和识别条件语义相似性等任务中具有很好的效果。子句编码器与句子编码器具有相似的推理成本和空间复杂度，展示了其实用性。

子句编码器通过为文本序列中的原子命题生成不同的嵌入，专注于细粒度的语义表示。应用包括检索支持事实和识别条件语义相似性。精细级别的有效编码有望影响文本评估、归属和事实估计。受到文本归属需求的影响，子句编码器设计具有潜在的跨文档信息链接应用。

该研究挑战了将整个文本序列编码为定长向量的常见做法，引入了子句编码器。子句编码器架构在跨文档信息链接方面具有潜在应用，为具有不同信息粒度的任务提供了灵活性。该研究旨在评估子句编码器在检索支持事实和识别条件语义相似性等任务中的实用性。

该模型为文本序列中的不同原子命题生成不同的上下文嵌入。使用二进制标记掩码作为输入，基于Transformer架构将子句编码器应用于检索支持事实和识别条件语义相似性。尽管研究承认英文文本的实验局限性，但提出了更广泛的语言适用性潜力，并引入了创建子句编码器训练数据的自动过程。

子句编码器在识别相同上下文中命题之间的微妙语义差异方面优于句子编码器，提高了精确性和召回率。子句编码器在原子事实检索方面表现与文档级和句子级模型相当，展示了增强的记忆能力。研究强调了子句编码器在不同粒度的多向量检索中的潜力，表明其在各种检索任务中的灵活性。

该架构在跨文档信息链接和具有不同粒度的各种任务方面具有潜力。原子事实检索评估显示了子句编码器在检索支持命题方面的实用性。子句编码器提高了多向量检索的召回率，突出了其在各种检索任务中的潜在优势。该研究强调了子句编码器在文本归属中解决粒度挑战的重要性。

研究表明，所展示的发现可能为进一步的长篇文本评估、归属和事实估计研究铺平道路。研究承认在英文文本方面实验规模有限，提出了对多语种子句编码器的未来研究，并指出了对其他语言的潜在扩展。研究强调了对持续探索的需求，希望该工作将激发子句编码器应用的进展，进一步推动该领域的研究。