Press "Enter" to skip to content

270 search results for "T5"

“解锁LangChain和Flan-T5 XXL | 高效文档查询指南”

介绍 大型语言模型(LLMs)是一类特定的人工智能模型,旨在理解和生成类似于人类的文本。术语“大型”通常通过它们拥有的参数数量来量化。例如,OpenAI的GPT-3模型有1750亿个参数。可以将其用于各种任务,例如文本翻译、回答问题、写作论文、总结文本。尽管有很多资源展示了LLMs的能力,并提供了有关如何设置聊天应用程序的指导,但很少有人深入研究它们在现实业务场景中的适用性。在本文中,您将学习如何使用LangChain和Flan-T5 XXL构建基于大型语言的应用程序来创建文档查询系统。 学习目标 在深入研究技术细节之前,让我们确定本文的学习目标: 了解如何利用LangChain构建基于大型语言的应用程序 简要介绍文本到文本框架和Flan-T5模型 如何使用LangChain和任何LLM模型创建文档查询系统 现在让我们深入了解这些部分,以理解每个概念。 本文是Data Science Blogathon的一部分。 LangChain在构建LLM应用程序中的作用 LangChain框架旨在开发各种应用程序,例如聊天机器人、生成式问答(GQA)和摘要,以发挥大型语言模型(LLMs)的能力。LangChain为构建文档查询系统提供了全面的解决方案。这涉及通过分块对语料库进行预处理,将这些块转换为向量空间,在提出查询时识别相似块,并利用语言模型将检索到的文档细化为合适的答案。 Flan-T5模型概述 Flan-T5是谷歌研究人员开发的一种商业可用的开源LLM。它是T5(文本到文本转换Transformer)模型的变体。T5是一种先进的语言模型,它通过将NLP任务转换为基于文本的格式来训练。FLAN是Finetuned Language Net的缩写。 让我们深入构建文档查询系统 我们可以利用LangChain和Flan-T5 XXL模型在Google Colab的免费版中构建此文档查询系统。要在Google Colab中执行以下代码,我们必须选择“T4 GPU”作为我们的运行时。按照以下步骤构建文档查询系统: 1:导入必要的库…

Leave a Comment

这篇AI论文提出了COLT5:一种新的模型,用于处理长距离输入,采用条件计算以提高质量和速度

机器学习模型需要对长篇文本进行编码,以用于各种自然语言处理任务,包括总结或回答关于长篇文档的问题。由于注意力成本随输入长度的增加呈二次增长,并且必须对每个输入标记应用前馈和投影层,使用Transformer模型处理长文本在计算上是昂贵的。近年来出现了几种“高效Transformer”策略,降低了对长输入的注意机制的开销。然而,前馈和投影层,尤其是对于更大的模型,承载着大部分的计算负载,并且可能使分析长输入变得不可能。本研究介绍了COLT5,这是一种新的模型系列,通过同时改进注意力和前馈层的架构,构建在LONGT5的基础上,实现对长输入的快速处理。 COLT5的基础是某些标记比其他标记更重要,并且通过为重要标记分配更多的计算资源,可以以较低的成本获得更高的质量。例如,COLT5将每个前馈层和每个注意力层分为轻量级分支和重量级分支,轻量级分支应用于所有标记,重量级分支用于选择特定输入和组件的重要标记。与常规的LONGT5相比,轻量级前馈分支的隐藏维度小于重量级前馈分支的隐藏维度。此外,随着文档长度的增加,重要标记的百分比会减少,从而实现对长文本的可管理处理。 图1:有条件计算的COLT5 Transformer层概述。 图1显示了COLT5条件机制的概述。由于COLT5的存在,LONGT5架构经历了两个进一步的变化。重量级注意力分支在一组精心选择的重要标记上执行完全的注意力,而轻量级注意力分支具有较少的头部并应用局部注意力。COLT5引入的多查询交叉注意力大大加速了推理。此外,COLT5使用UL2预训练目标,他们表明这可以实现对长输入的上下文学习。 来自Google Research的研究人员建议COLT5,这是一种用于处理远程输入的新型模型,利用有条件的计算来获得更好的性能和更快的处理速度。他们证明COLT5在arXiv摘要和TriviaQA问答数据集上优于LONGT5,在SCROLLS基准测试上达到了SOTA水平。COLT5针对“关注”标记的缩放不是线性的,大大提高了长输入任务的质量和性能。COLT5在相同或更好的模型质量下,进行微调和推理速度明显更快。COLT5中的轻量级前馈和注意力层适用于所有输入,而重量级分支只影响由学习路由器选择的一部分重要标记。他们证明COLT5在各种长输入数据集上优于LONGT5,并且能够成功高效地处理长达64k个标记的输入。

Leave a Comment

分布式训练:使用🤗 Transformers和Amazon SageMaker训练BART/T5进行摘要

如果你错过了:我们在3月25日宣布与Amazon SageMaker合作,旨在更轻松地创建最先进的机器学习模型,并更快地发布尖端的NLP功能。 与SageMaker团队一起,我们构建了🤗优化的Transformers深度学习容器,以加速基于Transformers的模型训练。感谢AWS的朋友们!🤗 🚀 通过SageMaker Python SDK中的新HuggingFace估计器,您可以通过一行代码开始训练。 发布的博客文章提供了有关集成的所有信息,包括“入门”示例和文档、示例和功能的链接。 在此再次列出: 🤗 Transformers文档:Amazon SageMaker 示例笔记本 Hugging Face的Amazon SageMaker文档 Hugging Face的Python SDK SageMaker文档 深度学习容器 如果您对Amazon SageMaker不熟悉:“Amazon SageMaker是一项完全托管的服务,为每个开发人员和数据科学家提供快速构建、训练和部署机器学习(ML)模型的能力。SageMaker从机器学习过程的每个步骤中减轻了繁重的负担,使开发高质量模型更加容易。”[ REF…

Leave a Comment

语音合成、识别与更多功能的 SpeechT5

我们很高兴地宣布,SpeechT5现在已经在🤗 Transformers中可用,这是一个开源库,提供了易于使用的最先进的机器学习模型的实现。 SpeechT5最初在《SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing》一文中进行了描述,该论文是由微软亚洲研究院的研究人员撰写的。该论文作者发布的官方检查点可在Hugging Face Hub上找到。 如果您想立即开始,这里有一些Spaces上的演示: 语音合成(TTS) 语音转换 自动语音识别 介绍 SpeechT5不是一个,也不是两个,而是三种语音模型在一个架构中。 它可以进行: 语音转文本,用于自动语音识别或说话人识别, 文本转语音,用于合成音频,以及 语音转语音,用于在不同的声音之间进行转换或执行语音增强。 SpeechT5背后的主要思想是在文本转语音、语音转文本、文本转文本和语音转语音数据的混合中预训练单个模型。这样,模型可以同时从文本和语音中学习。这种预训练方法的结果是一个拥有文本和语音共享的统一的隐藏表示空间的模型。 SpeechT5的核心是一个常规的Transformer编码器-解码器模型。就像任何其他Transformer一样,编码器-解码器网络使用隐藏表示来建模序列到序列的转换。这个Transformer骨干网络对于所有SpeechT5任务都是相同的。 为了使同一个Transformer能够处理文本和语音数据,添加了所谓的预网络和后网络。预网络的任务是将输入文本或语音转换为Transformer使用的隐藏表示。后网络将来自Transformer的输出转换为文本或语音。…

Leave a Comment

Google AI开源Flan-T5:一种基于Transformer的语言模型,使用文本到文本的方法进行自然语言处理任务

大型语言模型,例如PaLM、Chinchilla和ChatGPT,为从阅读教学线索执行自然语言处理(NLP)任务开辟了新的可能性。先前的研究表明,指令调整,即在各种带有指令的NLP任务上微调语言模型,进一步提高了语言模型在给定指令的情况下执行未知任务的能力。通过比较它们的微调过程和策略,本文评估了开源指令泛化倡议的方法和结果。 该工作关注指令调整方法的细节,对各个因素进行剔除并直接进行比较。他们在“Flan 2022 Collection”中确定并评估了方法论改进,该术语用于数据收集以及适用于数据和指令调整过程的方法,重点关注将Flan 2022与PaLM 540B结合的新兴和最先进的结果。Flan 2022 Collection目前是公开可用的最全面的指令调整作业和技术集合,它已经通过数千个高级模板和更好的格式模式进行了扩充。 他们证明,在所有评估的评估基准上,训练在该集合上的模型优于其他公开集合,包括原始的Flan 2021、T0++、Super-Natural Instructions和OPT-IML的当代工作。对于具有相同大小的模型,MMLU和BIG-Bench Hard评估基准上的改进分别达到4.2%+和8.5%。根据对Flan 2022方法的分析,这些稳健的结果是由于更大更多样的任务集合以及用于微调和数据增强的几种简单策略。特别是,使用零样式、少样式和思考链的模板进行训练改善了所有这些上下文中的性能。 例如,少样式提示的增加10%可以将零样式提示的结果提高2%或更多。此外,已经证明,通过倒置输入-输出对,在任务来源的平衡和任务多样性的增强方面都对性能至关重要。在单任务微调中,得到的Flan-T5模型收敛更快,表现优于T5模型,表明经过指令调整的模型为后续应用提供了更具计算效率的起点。他们预计,公开提供这些结果和工具将简化用于指令定制的可用资源,并加快更通用的语言模型的发展。 本研究的主要贡献如下列举:• 方法论:证明混合使用零样式和少样式提示进行训练在两种环境中都能产生显著优越的结果。• 测量和展示有效指令调整的关键方法,包括缩放第3.3节,使用输入倒置增强任务多样性,添加思考链训练数据以及平衡各种数据来源。• 结果:这些技术决策相对于现有的开源指令调整集合,提高了保留任务性能3-17% • 发现:Flan-T5 XL为单任务微调提供了更稳健和有效的计算起点。• 公开提供新的Flan 2022任务集合、模板和研究方法供公众使用。源代码可在GitHub上获取。

Leave a Comment

纽约大学和谷歌AI研究员探索机器学习在高级演绎推理方面的前沿

使用大量推理规则和构建子证明的就业使得证明的复杂性在许多演绎推理任务中无限发展,例如医学诊断或定理证明。由于巨大的证明空间,不可能找到覆盖所有大小保证的数据。因此,从基本证明开始,通用推理模型应能够推广到更复杂的证明。 纽约大学和谷歌AI研究人员的一个团队证明,LLMs在接受上下文学习(ICL)和思维链(CoT)提示的训练后可以进行演绎推理。一些演绎规则,例如假言附加式,是早期研究的主要重点。评估也是在演示中进行的,这意味着测试用例与上下文演示的分布相同。 纽约大学、谷歌和波士顿大学的研究人员进行的一项新研究探讨了LLMs能否推广到比演示更复杂的证明。学术界根据三个维度对证明进行分类: 在演示的每个阶段使用的前提数量。 构成证明的顺序步骤的长度。 所使用的演绎规则。 总大小是这三个维度的函数。 该团队在两个重要方面对之前的研究进行了扩展,以评估LLMs的一般演绎推理能力。除了假言附加式外,他们测试LLMs是否掌握了所有演绎规则。他们的推理能力通过以下两种方式进行测试: 深度和宽度的推广涉及对比上下文示例提供的较长证明进行推理。 组合推广涉及在单个证明中使用大量的演绎规则。 根据他们的研究,推理任务在接受展示各种演绎规则的基本示例时最受益于上下文学习。为了防止模型过拟合,这些上下文示例必须包含它不熟悉的推导原则,例如分情况证明和反证法。此外,这些示例应该伴随有干扰项。 根据他们的发现,CoT可以使LLMs进行超领域推理,推广到组合证明。这些LLMs包括GPT-3.5 175B、PaLM 540B、LLaMA 65B和FLAN-T511B,其规模和训练目标各异。这一发现令人惊讶,考虑到大量文献主张LLMs缺乏组合泛化能力。ICL的泛化方式与监督学习不同,特别是在上下文样本上进行的梯度下降。明显地,使用与测试示例相同分布的上下文样本是更差的,因为它们在多个实例中被发现。例如,当上下文示例中包含特定演绎规则时,研究人员有时看到了更好的组合证明泛化效果。 似乎预训练并不能教育模型创建假设的子证明。没有明确的示例,LLMs无法推广到某些演绎规则(例如分情况证明和矛盾证明)。模型规模与性能之间的关系较弱。通过定制指导和更多的预训练,较小的模型(不是最小的,但可比较)可以与较大的模型竞争。 为了进一步了解ICL和CoT触发过程,研究人员指出了一个关键的领域需要今后进行研究。他们发现,最好的上下文示例通常来自于与测试示例本身不同的分布,即使是对于特定的测试示例。贝叶斯推理和梯度下降并不能解释这一点。他们有兴趣研究是否简单的示例效果更好,即使测试案例稍微复杂。需要进一步研究来了解如何更进一步地表征从特定实例进行推广。

Leave a Comment

通过检索增强生成,提升您的稳定扩散提示

文字到图像生成是一门快速发展的人工智能领域,应用广泛,包括媒体与娱乐、游戏、电子商务产品可视化、广告与营销、建筑设计与可视化、艺术创作和医学影像等各个领域稳定扩散是一种文字到图像模型,让您能够在几秒钟内创建高品质的图片在十一月份[…]

Leave a Comment

本AI论文介绍了BioCLIP:利用TreeOfLife-10M数据集来改变生物学和保护中的计算机视觉

许多生物学的分支,包括生态学、进化生物学和生物多样性学,越来越多地将数字图像和计算机视觉作为研究工具。现代技术极大地提高了他们分析来自博物馆、相机陷阱和公民科学平台的大量图像的能力。这些数据随后可以用于物种划分、理解适应机制、估计种群结构和丰度,以及监测和保护生物多样性。 然而,当试图使用计算机视觉来解决生物学问题时,寻找和训练适合特定任务的合适模型,并手动标记足够的数据以用于特定物种和研究仍然是重大挑战。这需要大量的机器学习知识和时间。 来自俄亥俄州立大学、微软、加州大学欧文分校和伦斯勒理工学院的研究人员正在研究在该努力中构建“生命之树”基础视觉的模型。该模型必须满足以下要求,以便广泛适用于真实生物学任务。首先,它需要能够适应调查各种不同类群的研究人员,而不仅仅是一个类群,并且最好能够推广到整个生命之树。此外,它应该获取生物图像的细粒度表示,因为在生物学领域常常会遇到外观相似的生物体,例如同属或为了适应而模仿对方外观的近亲物种。由于生命之树将生物事物组织成广泛的群组(如动物、真菌和植物)和非常细粒度的群组,这种粒度水平是重要的。最后,在数据收集和标记在生物学中的高昂费用的情况下,具有低数据区域(即零样本或少样本)的优秀结果是至关重要的。 当前训练在数亿张图像上的通用领域视觉模型在应用于进化生物学和生态学时表现不佳,尽管这些目标对计算机视觉来说并不新鲜。研究人员确定了在生物学中创建视觉基础模型的两个主要障碍。首先,需要更好的预训练数据集,因为目前可用的数据集在规模、多样性或标签细粒度方面都不足。其次,由于当前的预训练算法不能很好地满足这三个主要目标,因此有必要找到更好的预训练方法,利用生物领域的独特特征。 考虑到这些目标和实现障碍,团队提出了以下内容: TREEOFLIFE-10M,一个庞大的ML准备生物学图片数据集 BIOCLIP是一个基于适当类群在TREEOFLIFE-10M中进行训练的生命之树的视觉模型。 TREEOFLIFE-10M是一个广泛而多样的生物图像数据集,适用于ML。研究人员已经策划和发布了迄今为止最大的ML准备生物学图像数据集,其中包含超过1000万张照片,涵盖了生命之树上的45.4万个类群,并附带有分类标签。仅有270万张照片代表10,000个类群的iNat21是最大的ML准备生物学图像集合。现有的高质量数据集,如iNat21和BIOSCAN-1M,已纳入TREEOFLIFE-10M中。TREEOFLIFE-10M中的大部分数据多样性来自生命百科全书(eol.org),其中包含了该来源的最新选定的照片。TREEOFLIFE-10M中的每张图像的分类层次和更高分类排名都进行了最大程度的注释。借助TREEOFLIFE-10M,可以培训BIOCLIP和其他生物学的未来模型。 BIOCLIP是基于视觉的生命之树的表示。在像TREEOFLIFE10M这样的大规模标记数据集上训练视觉模型的一个常见且简单的方法是使用监督分类目标,从图像中学习预测分类标志。ResNet50和Swin Transformer也使用了这种策略。然而,这种方法忽视并没有利用复杂的分类系统——类群不是孤立存在的,而是在一个完整的分类系统中相互关联。因此,使用基本的监督分类进行训练的模型可能无法对未知的类群进行零样本分类或对训练期间不存在的类群进行很好的泛化。相反,团队采用了一种新方法,将BIOCLIP的广泛生物分类与CLIP风格的多模式对比学习相结合。通过使用CLIP对比学习目标,他们可以在将分类系统从王国级别扁平化为代表分类名称的字符串之后,学习将图片与相应的分类名称关联起来。当使用不可见的类群的分类名称时,BIOCLIP还可以进行零样本分类。 团队还建议并展示了一种混合文本类型训练技术的益处;这意味着他们保留了分类学名称的概括性,但在测试时更具灵活性,通过结合多种文本类型(例如,科学名称与通用名称)进行训练。例如,下游用户仍然可以使用通用物种名称,而BIOCLIP将表现出色。他们对BIOCLIP进行了全面评估,涵盖了涉及植物、动物和昆虫的十个细粒度图片分类数据集,以及一个专门策划的罕见物种数据集,在训练过程中未使用。BIOCLIP显著超过了CLIP和OpenCLIP,在少样本和零样本情况下,分别取得了平均绝对提升17%和18%的成绩。此外,它的内在分析可以解释BIOCLIP更好的泛化能力,表明它已经学习到了符合生命之树的分层表示。 尽管团队使用了CLIP目标来有效地学习数十万个分类群的视觉表示,BIOCLIP的训练仍然专注于分类。为了使BIOCLIP能够提取细粒度的特征级表示,他们计划在未来的工作中加入来自inaturalist.org的研究级照片,该网站拥有1亿张照片或更多,并收集物种外观的更详细的文本描述。

Leave a Comment

2023年需要重新访问的顶级生成AI GitHub存储库

介绍 随着2023年接近尾声,人工智能领域仍在不断前进。跟上最新进展就像追逐一个移动的目标。幸运的是,在GitHub这个充满活力的生态系统中,有大量宝贵的资源。在这里,我们回顾了一些顶级的AI GitHub仓库,为您2024年及以后的AI学习之旅提供一个跳板。这个精选列表虽然不是详尽无遗,但它突出了因其相关性、影响力和激发您的好奇心而获得其地位的仓库。 Hugging Face / Transformers 117k Stars | 23.3k Forks 这个仓库对任何对自然语言处理(NLP)感兴趣的人来说都是宝藏。它托管了各种预训练的基于Transformer的模型,如BERT、RoBERTa和T5,以及广泛的文档、教程和一个充满活力的社区。 主要特点 广泛的预训练模型,全面的文档,活跃的社区支持,多样化的应用可能性,以及与其他库的轻松集成。 点击这里探索这个生成式AI GitHub仓库。 Significant Gravitas / AutoGPT 155k Stars | 37.8k…

Leave a Comment

迎接EAGLE:基于压缩的快速LLM解码的新机器学习方法

大型语言模型(LLMs)如ChatGPT在自然语言处理领域取得了巨大的革命性进展,展示了他们在各种语言相关任务中的能力。然而,这些模型面临着一个关键问题——自回归解码过程,其中每个标记都需要进行完整的前向通行。这种计算瓶颈在拥有庞大参数集的LLMs中尤为明显,在实时应用中产生了障碍,并给具有受限GPU能力的用户带来了挑战。 来自Vector Institute、滑铁卢大学和北京大学的研究人员介绍了EAGLE(Extrapolation Algorithm for Greater Language-Model Efficiency),以应对LLM解码中固有的挑战。与Medusa和Lookahead等传统方法有所不同,EAGLE采取了一种独特的方法,专注于对第二层顶层上下文特征向量的外推。与前辈们不同,EAGLE努力高效地预测后续特征向量,为文本生成提供了显著加速的突破。 EAGLE方法的核心是部署了一种轻量级插件——FeatExtrapolator。这个插件与原始LLM的冻结嵌入层一起进行训练,根据第二顶层的当前特征序列预测下一个特征。EAGLE的理论基础建立在特征向量随时间的可压缩性上,为加快标记生成铺平了道路。值得注意的是,EAGLE具有出色的性能指标;与普通解码相比,它的速度提高了三倍,比Lookahead快了一倍,并且相对于Medusa加速了1.6倍。最为关键的是,它保持了与普通解码一致性,确保了生成文本分布的保持。 https://sites.google.com/view/eagle-llm EAGLE的能力远不止于加速。它可以在标准GPU上进行训练和测试,使更广泛的用户群体能够使用。它与各种并行技术的无缝集成增加了其应用的灵活性,进一步巩固了它作为高效语言模型解码工具包中宝贵的补充的地位。 考虑到该方法对FeatExtrapolator的依赖,这是一个轻量级但功能强大的工具,与原始LLM的冻结嵌入层合作。这种合作根据第二顶层的当前特征序列预测下一个特征。EAGLE的理论基础根植于特征向量随时间的可压缩性,为更流畅的标记生成过程提供了途径。 https://sites.google.com/view/eagle-llm 传统的解码方法需要对每个标记进行完整的前向通行,而EAGLE的特征级外推提供了一个新的解决方案。研究团队的理论探索最终形成了一种方法,不仅显著加速了文本生成,而且保持了生成文本的分布的完整性——这是维护语言模型输出质量和连贯性的关键因素。 https://sites.google.com/view/eagle-llm 总结起来,EAGLE在解决LLM解码长期存在的低效问题上脱颖而出。通过巧妙地解决自回归生成的核心问题,EAGLE的研究团队提出了一种不仅能大幅加速文本生成,而且能保持分布一致性的方法。在实时自然语言处理需求激增的时代,EAGLE的创新方法使其成为前沿技术的领跑者,填补了尖端技术能力与实际应用之间的鸿沟。

Leave a Comment

支持向量机(SVM)是什么?

支持向量机(SVM)是一种在机器学习领域中使用的监督学习算法。它主要用于执行分类和回归等任务。该算法可以处理各种任务,例如判断电子邮件是否为垃圾邮件、识别手写字体,甚至在图片中检测人脸。它非常适应性强,能处理大量信息和数据中的复杂关系。 SVM的主要任务是根据特征绘制最佳的分隔线(或平面),以区分不同组的事物。就像在数据集中找到不同类别之间的最佳边界一样。因此,无论是对文本、图像还是其他任何东西进行分类,SVM都是机器学习中的首选工具。 SVM的类型 线性支持向量机 当数据可以通过一条直线轻松分为两组时,线性SVM效果最好。想象一下你的数据就像是纸上的点,你可以画一条直线将它们整齐地分成两个不同的类。也就是说,数据应该是完全线性可分的。 非线性支持向量机 当数据无法通过一条直线分类成两组时,我们就会引入非线性SVM。这种情况下,数据不是线性可分的。在这种情况下,非线性SVM可以派上用场。在现实世界中,数据通常杂乱无章,不遵循简单的规律,这时我们就可以使用非线性SVM及其核技巧。 它是如何工作的? 想象一下,你手上有两组事物,比如绿色和蓝色的点,散落在地板上。SVM的任务是找到一条最佳的直线(或者如果你在三维世界中则是一个平面),将这些点分隔成各自的组。 现在,可能有很多条分隔这些点的直线,对吧?但是SVM会寻找一个特殊的直线——与最接近的绿色点到直线的距离和最接近的蓝色点到直线的距离之间有最大距离的直线。这个距离被称为“间隔”,SVM希望使其尽可能大。 那些在定义直线时起着关键作用的最近的点被称为“支持向量”。SVM专注于这些点,以绘制最佳的直线,使两组之间的空间最大化。 但是,如果你的点没有被一条直线整齐地分开呢?如果它们到处都是?这就是SVM可以使用所谓的“核技巧”将问题提升到一个更高维度空间的地方,这样可以绘制出更复杂的分割曲线或曲面。 用例与应用 1. 垃圾邮件过滤:想象一下,你的电子邮箱里有一堆邮件,其中一些是垃圾邮件,一些则不是。支持向量机(SVM)可以用来创建一个智能过滤器,学会区分垃圾邮件和普通邮件。它会查看邮件的各种特征,比如使用的词语,并绘制一条线来将垃圾邮件与非垃圾邮件分开,保持您的邮箱清洁。 2. 手写识别:如果你希望你的计算机识别不同人的手写。SVM可以做到这一点。通过分析手写字母的特征,比如形状和大小,SVM可以绘制线条或曲线来将一个人的手写与另一个人的手写分开,使其在邮政服务等应用中有用于识别数字。 3. 医学诊断:在医学领域,SVM可以帮助诊断疾病。假设你有关于患者的数据,其中一些患有某种疾病,另一些没有。SVM可以分析各种健康指标,并创建一个边界来区分健康患者和患有该疾病的患者。这可以帮助医生进行更准确的诊断。 4. 图像分类:考虑这样一个场景,你有很多图片,其中一些是猫,一些是狗。SVM可以成为一个英雄,创建一个系统,学会根据颜色、形状或图案等特征区分猫和狗。它绘制一条线(或更复杂的边界)来正确分类新的图片。 5. 股票市场预测:如果你对股票市场感兴趣,SVM可以派上用场。通过分析历史股票数据,考虑交易量和价格变动等各种因素,SVM可以创建一个模型来预测股票的涨跌。 参考资料: https://towardsdatascience.com/support-vector-machine-introduction-to-machine-learning-algorithms-934a444fca47…

Leave a Comment

伊利诺大学研究人员推出了Magicoder:一系列针对代码的完全开源大语言模型(LLM)

伊利诺伊大学厄巴纳香槟分校和清华大学的研究团队旨在通过引入Magicoder来解决从开源代码片段生成低偏差、高质量编码挑战的难题。Magicoder在各种编码基准测试中表现优于现有的语言模型,包括Python文本转代码生成、多语言编码和数据科学程序语言模型。 CodeGen、CodeT5、StarCoder和CODELLAMA等知名基础模型已经证明了语言模型在代码生成和理解方面的基本能力。指令微调的提出旨在通过使用指令-响应对来对预训练的语言模型进行微调,SELF-INSTRUCT和Evol-Instruct等方法则用于生成指令微调的合成数据。现有的代码基准测试,如HumanEval、MBPP、APPS和CodeContests,评估语言模型在从自然语言描述中开发单功能程序方面的能力。 Magicoder是一系列完全开源的用于代码的语言模型,使用OSS-INSTRUCT方法在75,000个合成指令数据上进行训练,该方法使用开源代码片段启发语言模型生成高质量的代码指令数据。该方法通过从GitHub获取种子代码片段,促使语言模型生成与种子代码相关的编码问题和解决方案,确保多样性和真实世界的相关性。评估使用HumanEval和MBPP等基准测试,重点关注pass1指标。使用INSTRUCTOR根据嵌入相似性对由OSS-INSTRUCT生成的数据进行分类。为了提高鲁棒性,采用了数据清洗技术,包括净化和提示过滤。 Magicoder以不超过70亿的适度参数量展现了与顶级代码模型竞争性能。使用OSS-INSTRUCT在75,000个合成指令数据上进行训练,Magicoder在Python文本转代码生成、多语言编码和数据科学程序语言建模方面超越了先进的代码模型。增强版MagicoderS进一步改进了代码生成性能,在各种基准测试中超过了类似或更大尺寸的其他模型。 MagicoderS-CL-7B在代码模型中同时实现了前沿结果,展示了强大和优越的代码生成能力。 总之,该研究突出了使用OSS-INSTRUCT的有效性,该方法利用语言模型从开源代码片段中生成编码挑战。经过OSS-INSTRUCT训练的Magicoder在不同的编码基准测试中比其他参数更大的语言模型表现更好。此外,当与Evol-Instruct结合时,它还增强了MagicoderS模型,在HumanEval基准测试中表现出与ChatGPT等领先模型相似的令人印象深刻的性能。该研究建议公开模型权重、训练数据和源代码,以支持未来对于代码的语言模型和扩展OSS-INSTRUCT到更大的基础模型以生成更高质量数据的研究工作。

Leave a Comment

亚马逊Alexa AI研究人员推出QUADRo:一种突破性资源,拥有超过440,000个标注示例,可增强QA系统

人工智能(AI)和机器学习(ML)的能力使它们成功地进入了各个行业。最近,随着大型语言模型(LLMs)和问答系统的引入,AI社区取得了很大的进展。从预先计算好的包含问题-答案配对的数据库中高效地检索响应是自动问答(QA)系统的常见步骤。 有两种主要的QA范例:开放式和闭塞式。开放式范例,或称为取阅和阅读,是一个两步骤过程,其中相关材料是从庞大的文档语料库(经常是互联网)中获得的,然后通过应用不同的模型和方法从已获得的材料中提取解决方案。另一方面,闭塞式方法较新,依赖于在训练中学习的技能,这些使用该范例的模型通常基于Seq2Seq模型如T5,可以在不使用外部语料库的情况下产生结果。 虽然闭塞式技术显示出了显着的结果,但对于许多工业应用来说,资源消耗太大,并对系统性能构成重大风险。数据库问答(DBQA)是一种从预先生成的问题-答案对数据库中检索响应而不是依赖于模型参数或大型语料库中的信息的方法。 这些系统的三个主要部分是问题和答案的数据库、查询数据库的检索模型和选择最佳答案的排名模型。DBQA技术能够进行快速的推理,并具备添加新对并避免重新训练模型的能力,从而引入新的信息。 数据库问答技术的检索和排名模型开发的主要问题之一是缺乏实质性的训练数据。现有资源在范围和内容方面还不足,因为其中很多需要改进注释过程的质量或只关注问题之间的相似性,忽视了答复。 为了克服这些挑战,一组研究人员提出了一个名为QUADRo的问题-答案数据库检索数据集和模型。这是一个新的、面向开放域的注释资源,专门用于训练和评估模型。这个资源中每一个15,211个输入问题都有30个相关问题-答案对。这个收集总共有443,000个标注样本。每对的二进制指示器标记了它在与输入查询的关系中的重要性。 该团队还进行了全面的实验,以评估该资源与几个重要QA系统组件的质量和特性的关系。这些组件包括训练方法、输入模型配置和答案的相关性。通过对在该数据集上训练的模型的行为和性能进行检查,实验证明了所建议的方法在检索相关响应方面的效果。 总之,该研究通过引入一种有用的资源并仔细评估该资源的属性,解决了自动质量保证系统中训练和测试数据的不足。重视培训策略和答案相关性等重要元素有助于对该资源的全面了解。

Leave a Comment

通过使用来自Amazon SageMaker JumpStart的Pinecone向量数据库和Llama-2进行检索增强生成技术来缓解幻觉

尽管在各个行业中,似乎无法阻挡的对LLM的采用,但它们只是整个技术生态系统中的一个组成部分,为新的AI浪潮提供动力许多对话型AI应用需要LLM,如Llama 2、Flan T5和Bloom,以回答用户的查询这些模型依赖参数化知识来回答问题模型[…]

Leave a Comment

2024年使用的前5个生成式人工智能框架

介绍 欢迎来到引人入胜的生成式人工智能(Generative AI)框架的领域,这是创新和创造力在数字化领域的交织。生成式人工智能的力量不仅仅是一种技术奇迹。它是一种塑造我们与机器互动和产生内容方式的动态力量。想象一下:只需要一个提示,就能创造故事、图像,甚至整个世界。这不是魔法,而是人工智能的进化。 生成式人工智能不仅仅是一组算法;它是由在线数据的广阔领域驱动的创造力强大动力。想象一下,能够提示人工智能生成文本、图像、视频、声音和复杂的代码。随着GenAI的进一步学习和发展,它在各个行业的应用不断增加。秘密在于训练-复杂的数学和大量的计算能力相结合,教会人工智能预测结果,模仿人类的行为和创造。 进入生成式人工智能世界的旅程涉及解开其工作原理背后的神秘。神经网络如何识别模式以产生新内容?哪些基础模型支持诸如ChatGPT和DALL-E之类的工具?与我们一同探索生成式人工智能的复杂性,探索其用途和功能。介绍这一技术革命前沿的五个框架。这是一段机器给想象力注入生命的旅程,可能性无限,就像他们在数字画布上绘制一样。 提升你的生成式人工智能水平,学习实践。检查我们的 GenAI顶尖计划! 什么是生成式人工智能框架? 生成式人工智能框架是GenAI的支柱,为机器创建多样且与上下文相关的内容提供了基础设施。这些框架作为AI模型(如LLMs、GANs、VAEs)的指导原则,使它们能够理解庞大数据集中的模式。组织可以利用无监督和半监督学习方法的力量,通过使用这些框架来训练AI系统。这种训练为从自然语言处理到图像生成等任务奠定了基础,使机器能够解释提示。 LangChain LangChain是Harrison Chase的创新软件开发框架,专为GenAI专业人员量身打造。它有助于重塑日常任务和项目的格局。LangChain通过强调利用大型语言模型(LLMs)来提升AI系统的能力,简化了应用程序创建过程。基于MIT许可证的开源原则下,LangChain引入了一个标准化的接口,包括代理、内存和链。 LangChain的代理扮演重要角色,使LLMs能够做出明智的决策,为创建动态聊天机器人、游戏和各种应用铺平道路。内存功能非常宝贵,允许在对LLMs进行调用时保留状态。对于像聊天机器人这样的应用程序来说,这一功能成为了保持连贯对话或存储先前查询结果的基石。链条不仅限于单个LLM调用,还便于序列的编排-这对于构建摘要工具、问答系统和需要多方交互的不同应用程序来说是一个福音。 LangChain的数据增强生成功能增加了更多的灵活性,使GenAI专业人员能够根据外部数据生成文本。从编写引人入胜的新闻文章到制作产品描述,这个框架增强了内容生成的能力。 LangChain在各种应用中展示了其能力,包括客户服务和教育的聊天机器人,娱乐和研究的游戏,以及商业和教育的摘要工具和问答系统。它涵盖了各种应用,如内容生成、翻译、代码生成、数据分析和医学诊断。在GenAI专业人员的工具包中,LangChain推动着生成式人工智能不断演进的创新和效率。 LlamaIndex LlamaIndex成为GenAI专业人员武器库中至关重要的工具。它为自定义数据和GPT-4等LLMs之间提供了一个无缝的桥梁。这个创新的库通过简化与数据和LLMs一起工作的复杂过程,显著增强了GenAI专业人员的日常工作和项目。LlamaIndex的多功能实用性在不同阶段得到展现,在数据摄取、结构化、检索和集成方面提供了不可或缺的支持。 首先,LlamaIndex在从各种来源(如API、数据库、PDF或外部应用程序)“摄取”数据方面表现出色,充当勤奋的数据收集者。然后,它进入“构建”阶段,在这个阶段中,它以一种LLMs轻松理解的方式组织数据。这些组织良好的数据成为“检索”阶段的基础,在这个阶段中,LlamaIndex在需要时便于找到和提取正确的数据。最后,它简化了“集成”过程,实现了与各种应用框架的无缝合并数据。 LlamaIndex由三个主要组件组成:用于收集的“数据连接器”,用于组织的“数据索引”和作为翻译器的“引擎”(LLMs)。这种设置使GenAI专业人员在检索增强生成(RAG)方面拥有强大的能力,将LLM的实力与自定义数据相结合。查询引擎、聊天引擎和代理等模块化构建提升了交互到对话水平,实现了动态决策。无论是创建问答系统、聊天机器人还是智能代理,LlamaIndex都是GenAI专业人员的不可或缺的盟友,为RAG企业提供坚实的基础,并通过LLMs和定制数据来超级增强应用。 Jarvis 微软的JARVIS平台引领人工智能创新,为GenAI专业人员提供无与伦比的工具来增强日常工作。JARVIS与ChatGPT和t5-base等AI模型进行协作,实现统一和先进的结果。作为任务控制器,JARVIS简化了工作流程,最大限度地发挥了各种开源大型语言模型(LLMs)在图像、视频、音频等方面的潜力。 JARVIS集成了多模态人工智能,将GPT-4的功能扩展到文本和图像处理。该平台连接到互联网,访问一个强大的模型网络,包括t5-base、stable-diffusion 1.5、Facebook的bart-large-cnn和Intel的dpt-large等20个强大的模型。JARVIS使用户可以提交复杂的多任务查询,指导不同的模型无缝协作执行复杂的任务。例如,生成一张有关外星人入侵的图像,并在此过程中创作相关的诗歌,这个流程变得简化,ChatGPT规划任务,选择适当的模型并执行任务,展示了JARVIS的高效性和协作潜力。 虽然JARVIS的能力是无可否认的突破性,但其使用也需要考虑资源。JARVIS需要至少16GB的VRAM和约300GB的存储空间来运行各种模型。JARVIS需要大量的资源,无法在普通个人电脑上本地运行。然而,尽管有这些限制,JARVIS标志着人工智能发展的重要飞跃,革新了人工智能能力和协作的领域。它重塑了GenAI专业人员与利用人工智能技术的交互方式的潜力是显而易见的,使其成为人工智能发展演进中的关键工具。 Amazon…

Leave a Comment

这项人工智能研究揭示了照片SLAM:提升便携式设备上的实时逼真地图制作水平

在计算机视觉和机器人技术中,使用相机进行同时定位与地图构建(SLAM)是一个关键的主题,旨在使自主系统能够导航并理解其环境。传统SLAM系统主要强调几何映射,可以产生精确但审美基础的环境表示。然而,最近神经渲染的进步表明,可以将逼真的图像重建融入SLAM过程中,从而提高机器人系统的感知能力。 现有方法在很大程度上依赖于隐式表示,使其计算要求高,并且不适用于资源受限的设备上部署,尽管神经渲染与SLAM的融合产生了有希望的结果。例如,ESLAM使用多尺度紧凑的张量组件,而Nice-SLAM使用分层网格来保存反映环境的可学习特征。随后,它们合作估计相机位置并通过减少多条射线样本的重建损失来增加特征。优化过程非常耗时。因此,为了确保有效的收敛,它们必须集成来自多个源的相关深度信息,例如RGB-D相机、密集光流估计器或单目深度估计器。此外,由于多层感知器(MLP)解码隐式特征,通常需要精确指定边界区域以规范射线采样以取得最佳结果。这限制了系统的潜力扩展。这些限制表明,在使用便携式平台进行SLAM实时探索和未知区域的建图能力中,无法实现其中一个主要目标。 在本文中,香港科技大学和中山大学的研究团队提出了Photo-SLAM。这个新颖的框架在解决目前方法的可扩展性和计算资源限制的同时,执行在线逼真的建图和精确的定位。研究团队跟踪一张点云的超基本地图,其中包括旋转、缩放、密度、球谐系数和ORB特征。通过在原始图片和渲染图片之间反向传播损失,超基本地图使系统能够学习相应的映射并使用因子图求解器优化跟踪。而不是使用射线采样,采用三维高斯喷洒来生成图像。虽然引入三维高斯喷洒渲染器可以降低视角重建的成本,但在在线增量建图中无法产生高保真度的渲染,特别是在单目情况下。此外,研究团队提出了一种基于几何的加密技术和基于高斯金字塔(GP)的学习方法,以实现无需依赖密集深度信息的高质量建图。 图1:Photo-SLAM是一种革命性的实时框架,支持RGB-D、立体和单目相机进行同时定位和逼真地图构建。它的渲染速度高达每秒1000帧,可以重建高保真度的场景视图。 重要的是,GP学习使得多级特征逐渐获取变得更加容易,显著提高了系统的建图性能。研究团队在其漫长的试验中使用了各种由RGB-D、立体和单目相机拍摄的数据集来评估他们提出的方法的有效性。实验结果清楚地表明,PhotoSLAM在渲染速度、逼真地图质量和定位效率方面达到了最先进的性能。此外,Photo-SLAM系统在嵌入式设备上的实时操作展示了它在有用的机器人应用中的潜力。图1和图2显示了Photo-SLAM的操作概述。 图2:显示了Photo-SLAM的四个关键组成部分,它维护一个具有超基本元素的地图,包括定位、显式几何映射、隐式逼真映射和闭环组件。 本作品的主要成果如下: • 研究团队基于超原生地图和同时定位技术创建了首个逼真的测绘系统。这个新的框架适用于室内和室外的单目、双目和RGB-D相机。 • 研究团队提出了使用高斯金字塔学习的方法,使得模型能够有效快速地学习多层次的特征,从而实现高保真度的测绘。该系统即使在嵌入式系统上也能以实时速度运行,并通过完全的C++和CUDA实现实现了最先进的性能。代码将公开提供。

Leave a Comment

“认识MMMU:一个全新的AI基准,旨在解决专家级多模式挑战,为人工智能通用智能铺平道路”

多模态预训练的进展解决了各种任务,如LXMERT、UNITER、VinVL、Oscar、VilBert和VLP等模型。FLAN-T5、Vicuna、LLaVA等模型增强了遵循指令的能力。而Flamingo、OpenFlamingo、Otter和MetaVL等模型则探索了上下文学习。VQA等基准注重感知,而MMMU则通过对要求专家级知识和有意识的推理的大学级问题的需求而脱颖而出。其独特的特点包括全面的知识覆盖、各种图像格式以及对专题特定推理的独特强调,使其与现有的基准相区别。 MMMU基准由来自IN.AI Research、滑铁卢大学、俄亥俄州立大学、独立研究机构、卡内基梅隆大学、维多利亚大学和普林斯顿大学的研究人员推出,涵盖了各种学科的大学级问题。强调专家级感知和推理,它是一个暴露现有模型面临重大挑战的基准。 该研究强调了评估朝着专家级人工智能发展取得进展的基准的必要性,超越了人类能力。目前的标准,如MMLU和AGIEval,侧重于文本,需要更多的多模态挑战。大型多模态模型(LMMs)显示出潜力,但现有的基准需要专家级领域知识。MMMU基准的引入旨在弥合这一鸿沟,涵盖了复杂的大学级问题,包括各种图像类型和交织的文本。它要求专家级感知和推理,为追求高级人工智能能力的LMMs提供了具有挑战性的评估。 专为评估专家级人工智能而设计的MMMU基准包含11,500个涵盖六个学科和30个主题的大学级问题。数据收集涉及根据视觉输入选择主题,参与学生标注者收集多模态问题,并进行质量控制。多个模型,包括LMM和LMMs,以零-shot的方式在MMMU上进行评估,测试它们在无微调或少量示范的情况下生成精确答案的能力。 MMMU基准对模型来说是具有挑战性的,因为GPT-4V的准确率仅为55.7%,表明还有很大的改进空间。专家级感知和推理需求使其成为LMMs和LMMs的严格评估。错误分析指出了视觉感知、知识表示、推理和多模态理解的挑战,为进一步研究提供了方向。MMMU以30种不同的图像格式覆盖大学级知识,强调了在基础模型中丰富培训数据集以增强在专门领域中的准确性和适用性的重要性。 总之,创建MMMU基准代表了对专家级人工智能评估中的LMMs的重大进展。这个基准挑战了当前模型对基本感知能力和复杂推理的评估,有助于了解专家级人工智能发展的进展。它强调了专家级性能和推理能力,突出了在视觉感知、知识表示、推理和多模态理解方面进一步研究的领域。建议通过丰富培训数据集与领域相关的知识,以提高准确性和在专门领域中的适用性。

Leave a Comment

开放AI为GPT-6和GPT-7的发布做准备:在中国申请商标

OpenAI近期为GPT-6和GPT-7在中国申请了商标,从战略角度表明了其在推进人工智能(AI)方面的承诺。这是继该公司早前为GPT-4和“Whisper”申请商标之后的一系列举措。尽管OpenAI的服务在中国不可访问,但这一积极的举步显示了该公司的全球愿景和在推出下一批LLM方面不断努力推动AI技术边界的努力。 OpenAI在中国的商标申请 OpenAI是AI领域的领先力量,在中国为GPT-6和GPT-7提交了商标申请。这些申请目前正在审查中,属于第9类,涵盖用于科学或研究目的的器具和仪器,以及第42类,涵盖技术服务和设计。这些申请反映了OpenAI在全球AI技术前沿的坚定,以保持领先地位。 大型语言模型的进展 自ChatGPT(OpenAI的生成式AI应用)推出以来,该公司始终在大型语言模型(LLM)方面不断突破界限。ChatGPT最初建立在具有1750亿个参数的GPT-3.5上,展示了卓越的语言理解和生成能力。值得注意的是,OpenAI在3月份推出了GPT-4,其估计的参数数量超过了1万亿,展示了该公司对LLM发展的承诺。 持续创新——GPT-5及未来 OpenAI首席执行官Sam Altman透露正在进行GPT-5的工作,并计划从微软获得额外资金用于支持研究和开发工作。这表明OpenAI尽管最近发生了包括Altman作为CEO的暂时撤职在内的内部争议,仍然致力于创新。有报道称该争议与人工通用智能(AGI)的潜在突破有关,凸显了强大AI发展所涉及的道德考量。 还需要阅读:OpenAI与微软合作发展GPT-5 平衡创新与道德考量 Altman重新担任CEO职务,并加强了对前进的研究计划以及投资安全措施的重视。OpenAI意识到人工智能发展所带来的道德责任,旨在在创新和安全之间取得平衡。该公司对AGI的追求是一项谨慎而重要的目标,体现了对强大AI技术潜在风险和社会影响的深思熟虑的态度。 我们的看法 OpenAI在中国的商标申请意味着其在全球AI领域树立存在的战略举措。GPT模型方面的持续进展显示了该公司塑造AI未来的承诺。加上对新商标的追求,该公司展示了其努力。在OpenAI应对内部争议和外部挑战的过程中,道德AI发展始终是其使命的基石。OpenAI在追求卓越的AI过程中的发展史仍然吸引着科技界,为创新和责任手牵手的未来承诺。

Leave a Comment

加州大学伯克利分校研究人员开发了ALIA:用于细粒度分类任务的自动语言引导图像增强的突破性技术

“`html 精细化图像分类是一项计算机视觉任务,旨在将图像分类为更大类别中的子类别。它涉及对特定的、往往是稀有的动物进行复杂的识别。然而,它们在需要更多广泛的训练数据方面存在问题,导致分类器在适应领域中的不同方面时遇到困难,比如天气条件或地理位置的改变。 数据增强是一种常用的方法,用于使训练数据多样化,在精细分类等专门任务中面临挑战。使用生成模型或传统的翻转或裁剪等方法的方法显示出一定的潜力,但通常需要进行大量的微调或生成对于此类任务不适当的图像。 尽管有各种各样的提出的方法试图解决这些挑战,但该领域仍面临着在创建增强数据集方面的困难,这些数据集代表了多样的变化,同时保持与原始训练数据的视觉一致性和相关性。 一种新颖的方法——自动语言引导图像增强(ALIA)应运而生,以克服这些持续存在的挑战。ALIA利用了与大型视觉模型结合使用的数据集领域的自然语言描述,通过语言引导的图像编辑以自动生成训练数据的多样化变化。与先前的方法不同,ALIA不依赖昂贵的微调或用户提供的提示。相反,它智能地过滤掉最小的编辑和可能破坏与分类相关信息的编辑,提供了一种有希望的解决方案,增强了数据集的多样性,并提高了专门任务(如精细化分类)分类器的泛化能力。 该过程包括: 生成领域描述:利用图像字幕生成和大型语言模型(LLM)将图像上下文总结为不超过十个领域描述。 使用语言引导对图像进行编辑:使用文本条件下的图像编辑技术,创建与这些描述相符的多样化图像。 过滤失败的编辑:使用CLIP进行语义过滤,并使用分类器进行基于置信度的过滤,以删除失败的编辑,确保任务相关信息和视觉一致性的保留。 据作者称,这种方法可以扩展数据集20-100%,同时保持视觉一致性并涵盖更广泛的领域范围。 研究团队进行了大量实验证明了ALIA数据增强方法在专门任务(领域泛化、精细化分类和鸟类分类中的上下文偏见)中的有效性。通过对ResNet50模型进行微调,并使用稳定扩散进行图像编辑,ALIA始终优于传统的增强技术,甚至优于实际数据增加在领域泛化任务中,显示出相对原始数据的17%的改进。在精细分类中,ALIA表现出了竞争性的性能,即使没有领域转移也能保持准确性。ALIA在涉及上下文偏见的功能中,在领域内外的准确性方面表现出色,尽管在图像编辑质量和纯文本修改方面面临挑战。这些实验证明了ALIA在增强数据集多样性和模型性能方面的潜力,尽管在一定程度上依赖于模型质量和图像编辑方法的选择。 总之,作者介绍了ALIA,一种基于大型语言模型和语言引导的图像编辑技术的数据增强先进策略,利用广泛的领域知识。对于已提供的训练集中的领域描述和增强数据,该方法展示了在领域适应、偏见减少甚至在缺乏领域转移的情况下的出色能力。 对于未来的研究,作者认为字幕、大型语言模型和图像编辑的进一步改进将极大地增强该方法的效果和适用性。使用从实际训练数据中得出的结构化提示可能在改善数据集多样性和解决当前方法中遇到的各种限制方面发挥关键作用。这为探索ALIA在更广泛的领域中的应用前景和潜在进展提供了有希望的途径。 “`

Leave a Comment

使用Langchain构建半结构化数据的RAG管道

介绍 检索增强生成(Retrieval Augmented Generation)已经存在一段时间了。许多工具和应用程序围绕这个概念进行了构建,比如向量存储、检索框架和LLMs,使得处理自定义文档尤其是具有Langchain的半结构化数据变得方便。处理长、密集的文本从未如此轻松而有趣。传统的RAG对于不结构化的文本重型文件(如DOC、PDF等)效果良好。然而,这种方法对于嵌入在PDF中的半结构化数据(如嵌入式表格)效果不佳。 在处理半结构化数据时,通常有两个问题。 传统的提取和文本分割方法无法处理PDF中的表格。它们通常会破坏表格,从而导致信息的丢失。 嵌入表格可能无法转化为精确的语义搜索。 因此,在本文中,我们将使用Langchain构建一个用于处理半结构化数据的检索生成(Retrieval Generation)流水线,以解决这两个半结构化数据的问题。 学习目标 了解结构化、非结构化和半结构化数据之间的区别。 对检索增强生成和Langchain进行简要回顾。 学习如何使用Langchain构建一个用于处理半结构化数据的多向量检索器。 本文作为数据科学博文马拉松的一部分发表。 数据类型 通常有三种类型的数据:结构化数据、半结构化数据和非结构化数据。 结构化数据:结构化数据是标准化的数据,遵循预定义的模式,例如行和列。SQL数据库、电子表格、数据帧等。 非结构化数据:与结构化数据不同,非结构化数据没有数据模型。数据是随机的,例如PDF、文本、图像等。 半结构化数据:它是前两种数据类型的结合。与结构化数据不同,它没有严格的预定义模式。然而,数据仍然基于某些标记保持着分层次的顺序,这与非结构化类型形成了对比。例如CSV、HTML、嵌入式PDF中的表格、XML等。 什么是RAG? RAG代表检索增强生成(Retrieval Augmented Generation)。这是为大型语言模型提供新信息的最简单方法。现在,让我们对RAG进行一个快速介绍。 在典型的RAG流程中,我们有知识来源,如本地文件、网页、数据库等,一个嵌入模型,一个向量数据库和一个LLM。我们从各种来源收集数据,拆分文档,获取文本块的嵌入并将它们存储在向量数据库中。现在,我们将查询的嵌入传递给向量存储,从向量存储中检索文档,最后使用LLM生成答案。 这是传统RAG的工作流程,适用于如文本等不结构化数据。然而,当涉及到半结构化数据时,例如嵌入在PDF中的表格,它通常无法表现良好。在本文中,我们将学习如何处理这些嵌入式表格。…

Leave a Comment

Can't find what you're looking for? Try refining your search: