现代生成式人工智能应用中的矢量数据库的作用

为了使大规模生成式人工智能应用程序良好运作，需要一个能处理大量数据的良好系统。其中一个重要的系统是向量数据库。这个数据库很特殊，因为它能处理各种类型的数据，如文本、声音、图片和视频，以一种数值/向量形式。

什么是向量数据库？

向量数据库是一种专门设计用于高维向量高效处理的存储系统。这些向量可以被看作是多维空间中的点，通常表示更复杂数据（如图像、文本或声音）的嵌入或压缩表示。向量数据库允许在这些向量之间进行快速相似性搜索，从大量数据集中快速检索出最相似的项。

向量数据库：

传统数据库：

结构化数据存储：传统数据库，如关系型数据库，设计用于存储结构化数据。这意味着数据被组织成预定义表、行和列，确保数据完整性和一致性。
优化CRUD操作：传统数据库主要优化了CRUD操作。这意味着它们被设计成能够高效地创建、读取、更新和删除数据条目，使它们适用于各种应用，从Web服务到企业软件。
固定模式：许多传统数据库的一个特点是固定的模式。一旦定义了数据库结构，进行更改可能会复杂和耗时。这种刚性确保了数据的一致性，但可能不如一些现代数据库的无模式或动态模式灵活。

旧数据库在嵌入式数据方面存在问题。它们无法处理它们的复杂性。向量数据库解决了这个问题。

使用向量数据库，生成式人工智能应用程序可以做更多的事情。它能够根据含义查找信息，并长时间记住事物。

矢量数据库应用程序内部的过程

向量数据库

矢量数据库的高级架构图

向量数据库的高级架构

该图显示了向量数据库的基本工作流程。流程始于原始数据输入，接下来对数据进行预处理以清洁和标准化数据。

然后对这些数据进行向量化，将其转换为适用于相似性搜索和高效存储的格式。向量化后，数据被存储和索引以便实现快速准确的检索。当进行查询时，数据库通过利用索引来高效地检索最相关的数据。

生成式人工智能通常涉及嵌入式数据。以自然语言处理（NLP）中的词嵌入为例。词语或句子被转化为捕捉语义含义的向量。在生成类似人类的文本时，模型需要快速比较和检索相关的嵌入，并确保生成的文本保持上下文的含义。

向量Redis

类似地，在图像或声音生成中，嵌入在编码模式和特征方面起着关键作用。为了使这些模型能够发挥最佳功能，它们需要一个允许即时检索相似向量的数据库，使矢量数据库成为生成式人工智能拼图中的关键组成部分。

为自然语言创建嵌入通常涉及使用预训练模型，如 OpenAI 的 GPT、BERT。

预训练模型：

GPT-3 和 GPT-4：OpenAI 的 GPT-3（生成式预训练转换器 3）是 NLP 社区中的一个巨大模型，具有 1750 亿个参数。随后，GPT-4 以更多的参数继续推动生成高质量嵌入的界限。这些模型在多样的数据集上进行训练，使它们能够创建捕捉各种语言细微差别的嵌入。
BERT 及其变种：BERT（双向编码器的变换器表示）由 Google 开发，是另一个重要的模型，已经进行了各种更新和迭代，如 RoBERTa 和 DistillBERT。BERT 的双向训练，即以两个方向阅读文本，特别擅长理解词语周围的上下文。
ELECTRA：这是一个更近期的模型，效率高，效果与 GPT-3 和 BERT 这样的更大型模型相当，同时需要更少的计算资源。ELECTRA 在预训练期间区分真实数据和假数据，有助于生成更精细的嵌入。

对于矢量数据库新秀的不断增长的资金

随着人工智能的日益普及，许多公司正在投入更多资金来改进和加快其矢量数据库的算法。这可以从矢量数据库初创公司Pinecone、Chroma DB和Weviate最近的投资中看出。

大公司如微软也有自己的工具。例如，Azure 认知搜索允许企业使用矢量数据库创建人工智能工具。

甲骨文最近还宣布了其数据库 23c的新功能，引入了集成的矢量数据库。命名为“AI 矢量搜索”，它将具有新的数据类型、索引和搜索工具，用于使用向量存储和搜索类似文档和图像的数据。它支持检索增强生成 (RAG)，将大型语言模型与业务数据结合，以更好地回答语言问题，而无需共享私人数据。

索引：鉴于向量的高维性，传统的索引方法不够用。矢量数据库使用像分层可导航小世界 (HNSW) 图或Annoy 树这样的技术，允许对向量空间进行高效的划分和快速的最近邻搜索。

Annoy 树

Annoy 树（来源）

分层可导航小世界 (HNSW) 图

分层可导航小世界 (HNSW) 图（来源）

当向量数据库与生成型人工智能模型同时工作时，真正的魔力展现出来。以下是原因：

随着生成型人工智能和向量数据库的融合，出现了几个令人激动的可能性：

人工智能世界变化迅速，它涉及许多行业，带来了好处和新问题。现在，人工智能需要良好的数据处理。这是因为大型语言模型、生成型人工智能和语义搜索的原因。