该AI研究提出了使用OpenAI嵌入向量进行强大的Lucene集成搜索

该AI研究提出了使用OpenAI嵌入向量进行强大的Lucene集成搜索四海第1张

最近，在机器学习的搜索领域中，应用深度神经网络取得了重大进展，特别强调了双编码器架构中的表示学习。在这个框架中，各种类型的内容，包括查询、段落，甚至包括图像等，被转化为紧凑且有意义的“嵌入”，表示为密集向量。基于这种架构构建的密集检索模型成为增强大型语言模型（LLMs）中检索过程的基石。这种方法在当今生成式人工智能的更广泛领域中已经广受欢迎，并被证明在增强LLMs的整体能力方面非常有效。

叙述表明，由于需要处理大量的密集向量，企业应该将专用的“向量存储”或“向量数据库”纳入到他们的“AI堆栈”中。一些初创公司积极推动这些向量存储作为创新和现代企业架构的重要组成部分。其中一些显著的例子包括Pinecone、Weaviate、Chroma、Milvus和Qdrant等。一些支持者甚至已经提出这些向量数据库最终可能取代长期存在的关系数据库。

本文提出了与这种叙述相对立的观点。这些论点围绕着一个简单的成本效益分析，考虑到搜索在许多组织中代表着一个现有且已经建立的应用，从而导致在这些能力上进行了重大的先前投资。生产基础设施主要由以开源Lucene搜索库为中心的广泛生态系统主导，尤其是由Elasticsearch、OpenSearch和Solr等平台推动。

该AI研究提出了使用OpenAI嵌入向量进行强大的Lucene集成搜索四海第3张 — https://arxiv.org/abs/2308.14963

上面的图片展示了一个标准的双编码器架构，其中编码器从查询和文档（段落）生成密集向量表示（嵌入）。检索被构建为向量空间中的k最近邻搜索。实验集中在MS MARCO段落排序测试集上进行，该集合由大约880万个从网络中提取的段落组成。用于评估的是标准开发查询和来自TREC 2019和TREC 2020深度学习跟踪的查询。

研究结果表明，今天可以使用Lucene直接构建一个使用OpenAI嵌入的向量搜索原型。嵌入API的日益普及支持了我们的论点。这些API简化了从内容中生成密集向量的复杂过程，使其更易于从业者使用。确实，当您构建搜索生态系统时，只需要Lucene就足够了。但正如事实所证明的那样，只有时间会告诉我们是否正确。最后，这提醒我们，在快速发展的人工智能世界中，权衡成本与收益仍将是一种主要思维方式。