documents – 四海吧

“深入挖掘 Rust 编写的矢量数据库 Qdrant”

Published November 21, 2023 by 四海吧

介绍 Vector数据库已经成为存储和索引非结构化和结构化数据表示的首选位置。这些表示是由嵌入模型生成的向量嵌入。向量存储已成为开发带有深度学习模型的应用程序的重要组成部分，尤其是大型语言模型。在向量存储的不断发展中，Qdrant是最近推出的一个功能齐全的向量数据库。让我们深入了解一下。学习目标熟悉Qdrant的术语，以更好地理解它深入研究Qdrant Cloud并创建Clusters 学习如何创建我们的文档的嵌入并将它们存储在Qdrant Collections中探索在Qdrant中查询的工作原理在Qdrant中调试过滤器，以检查其工作原理本文作为Data Science Blogathon的一部分发表。什么是嵌入？嵌入是一种以数字形式表示数据的方式，即以n维空间中的数字或数值向量的形式表示不同类型的数据，如文本、照片、音频、视频等。嵌入使我们能够以这种方式对相关数据进行分组。使用特定模型可以将某些输入转换为向量。Google创建的一种广为人知的嵌入模型是将单词转化为向量（向量是具有n维的点），称之为Word2Vec。每个大型语言模型都有一个嵌入模型，用于生成LLM的嵌入。嵌入的用途是什么？将单词转换为向量的一个优点是可以进行比较。当拿到两个单词作为数字输入或向量嵌入时，计算机可以进行比较，尽管它无法直接比较它们。可以将具有可比较嵌入的单词分组在一起。因为它们彼此相关，诸如“王”、“皇后”、“王子”和“公主”这些术语将出现在一个聚类中。从这个意义上讲，嵌入帮助我们找到与给定术语相关的单词。这可以用于句子，我们输入一个句子，提供的数据返回相关的句子。这为许多用例奠定了基础，包括聊天机器人、句子相似性、异常检测和语义搜索。我们开发的用于根据我们提供的PDF或文档回答问题的聊天机器人利用了这种嵌入概念。所有生成式大型语言模型都使用这种方法，以获得与他们提供的查询相关联的内容。什么是向量数据库？如前所述，嵌入是各种数据的表示，通常是非结构化数据以数字格式在n维空间中。那么我们该如何存储它们呢？传统的关系型数据库管理系统（RDMS）不能用于存储这些向量嵌入。这就是向量存储/向量数据库发挥作用的地方。向量数据库的设计目的是以高效的方式存储和检索向量嵌入。有许多不同的向量存储器，它们通过所支持的嵌入模型和用于获取相似向量的搜索算法的种类而有所不同。什么是Qdrant？ Qdrant是一种新型的向量相似性搜索引擎和向量数据库，采用Rust语言构建的可用于生产的服务。Qdrant具有用户友好的API，用于存储、搜索和管理具有元数据的高维点（点就是向量嵌入），这些元数据称为载荷。这些载荷成为有价值的信息，提高搜索精度，并为用户提供有见地的数据。如果您熟悉其他向量数据库，如Chroma，Payload类似于元数据，它包含有关向量的信息。 Qdrant是用Rust编写的，即使在负载很重的情况下也是快速可靠的向量存储。Qdrant与其他数据库的区别在于它提供的客户端API数量。目前，Qdrant支持Python、TypeScript/JavaScript、Rust和Go。它使用HSNW（层次可导航小世界图）进行向量索引，并提供了许多距离度量，如余弦、点和欧氏距离。它还提供了一个内置的推荐API。了解Qdrant术语要顺利开始使用Qdrant，熟悉Qdrant向量数据库中的术语/主要组件是一个好习惯。…

Leave a Comment

使用牛轧糖提升科学文件处理

Published November 7, 2023 by 四海吧

简介在不断发展的自然语言处理和人工智能领域中，从科学PDF等非结构化数据源中提取有价值的信息变得越来越重要。为了解决这个挑战，Meta AI推出了“Nougat”或称“学术文档的神经光学理解”，这是一种基于Transformer的先进模型，旨在将科学PDF转录成常见的Markdown格式。Nougat出现在Lukas Blecher、Guillem Cucurull、Thomas Scialom和Robert Stojnic的论文《Nougat：学术文档的神经光学理解》中。这为光学字符识别（OCR）技术带来了开创性的转变，而Nougat是Meta AI强大的AI模型中的最新成员。在本文中，我们将探讨Nougat的能力，了解它的架构，并演示使用该模型转录科学文档的实际示例。学习目标了解Meta AI最新的科学文档Transformer模型Nougat。了解Nougat如何借鉴其前身Donut，并引入先进的文档AI方法。学习Nougat，包括其视觉编码器、文本解码器和端到端训练过程。深入了解OCR技术的发展，从ConvNets的早期阶段到Swin架构和自回归解码器的革命性能量。本文作为数据科学博文马拉松的一部分发表。 Nougat的诞生 Nougat并不是Meta AI家族中的第一个Transformer模型。它继承了它的前身“Donut”的理念，展示了以Transformer为基础的模型中视觉编码器和文本解码器的能力。这个概念很简单：将像素数据输入模型，获得文本输出。这种端到端方法消除了复杂的流水线，并证明了注意力就是所需的一切。让我们简要讨论驱动Nougat等模型的“视觉编码器、文本解码器”范式的基本概念。作为Nougat的前身，Donut引入了在单个模型中结合视觉和文本处理的能力。与传统的文档处理流水线不同，这些模型在端到端操作，将原始像素数据转化为文本内容。这种方法利用了Transformer架构的注意力特性来产生结果。 Nougat接过火炬在Donut取得成功的基础上，Meta AI推出了Nougat，将OCR技术推向了一个新的水平。与其前身一样，Nougat采用了基于Swin Transformer的视觉编码器和基于mBART的文本解码器。Nougat从科学PDF的原始像素中预测文本的Markdown形式。这代表了将科学知识转录成熟悉的Markdown格式的重大突破。 Meta…

Leave a Comment

“解锁LangChain和Flan-T5 XXL | 高效文档查询指南”

Published September 23, 2023 by 四海吧

介绍大型语言模型（LLMs）是一类特定的人工智能模型，旨在理解和生成类似于人类的文本。术语“大型”通常通过它们拥有的参数数量来量化。例如，OpenAI的GPT-3模型有1750亿个参数。可以将其用于各种任务，例如文本翻译、回答问题、写作论文、总结文本。尽管有很多资源展示了LLMs的能力，并提供了有关如何设置聊天应用程序的指导，但很少有人深入研究它们在现实业务场景中的适用性。在本文中，您将学习如何使用LangChain和Flan-T5 XXL构建基于大型语言的应用程序来创建文档查询系统。学习目标在深入研究技术细节之前，让我们确定本文的学习目标：了解如何利用LangChain构建基于大型语言的应用程序简要介绍文本到文本框架和Flan-T5模型如何使用LangChain和任何LLM模型创建文档查询系统现在让我们深入了解这些部分，以理解每个概念。本文是Data Science Blogathon的一部分。 LangChain在构建LLM应用程序中的作用 LangChain框架旨在开发各种应用程序，例如聊天机器人、生成式问答（GQA）和摘要，以发挥大型语言模型（LLMs）的能力。LangChain为构建文档查询系统提供了全面的解决方案。这涉及通过分块对语料库进行预处理，将这些块转换为向量空间，在提出查询时识别相似块，并利用语言模型将检索到的文档细化为合适的答案。 Flan-T5模型概述 Flan-T5是谷歌研究人员开发的一种商业可用的开源LLM。它是T5（文本到文本转换Transformer）模型的变体。T5是一种先进的语言模型，它通过将NLP任务转换为基于文本的格式来训练。FLAN是Finetuned Language Net的缩写。让我们深入构建文档查询系统我们可以利用LangChain和Flan-T5 XXL模型在Google Colab的免费版中构建此文档查询系统。要在Google Colab中执行以下代码，我们必须选择“T4 GPU”作为我们的运行时。按照以下步骤构建文档查询系统： 1：导入必要的库…

Leave a Comment

改进数据分析：OpenAI、LangChain 和 LlamaIndex 为简单提取而设计

Published June 19, 2023 by 四海吧

介绍 OpenAI的API由OpenAI开发，提供了今天最先进的语言模型之一。通过利用此API和使用LangChain＆LlamaIndex，开发人员可以将这些模型的强大功能集成到自己的应用程序、产品或服务中。只需几行代码，您就可以利用OpenAI的语言模型的广泛知识和能力，开启令人兴奋的可能性世界。 OpenAI的语言模型的核心在于大型语言模型或简称LLM。LLM可以生成类似于人类的文本并理解复杂语言结构的上下文。通过在大量多样化的数据上进行训练，LLM已经获得了一种非凡的能力，能够理解和生成各种主题的上下文相关文本。学习目标在本文中，我们将探讨以下令人兴奋的可能性：使用OpenAI的API结合LangChain和LlamaIndex轻松从多个PDF文档中提取有价值的信息。如何格式化提示以提取不同数据结构中的值。如何使用GPTSimpleVectorIndex进行高效的搜索和检索文档。本文是Data Science Blogathon的一部分。 LlamaIndex和LangChain 使用这两个开源库构建利用大型语言模型（LLMs）的应用程序。 LlamaIndex提供了LLMs和外部数据源之间的简单接口，而LangChain提供了构建和管理LLM驱动应用程序的框架。尽管LlamaIndex和LangChain仍在开发中，但它们仍具有革命性的潜力，可以改变我们构建应用程序的方式。所需库首先，让我们安装必要的库并导入它们。 !pip install llama-index==0.5.6 !pip install langchain==0.0.148 !pip install PyPDF2…

Leave a Comment

Tag: documents

“深入挖掘 Rust 编写的矢量数据库 Qdrant”

使用牛轧糖提升科学文件处理

“解锁LangChain和Flan-T5 XXL | 高效文档查询指南”

改进数据分析：OpenAI、LangChain 和 LlamaIndex 为简单提取而设计