Press "Enter" to skip to content

419 search results for "引导"

LLM革命:改变语言模型

介绍 在过去几年中,语言模型领域经历了一场巨大的演变,特别是随着大规模语言模型(LLMs)的出现。这些模型具备数十亿个参数和对自然语言的深刻理解,对于改变人工智能领域起到了关键作用。今天,我们将探索这场革命,重点介绍从闭源到开源LLMs的转变,精细调整的重要性以及最近出现的高效调整技术的发展。 学习目标: 了解闭源和开源LLMs的区别。 了解LLMs中的传统和参数高效调整。 探索不同的参数高效调整策略。 学习使用Ludwig进行高效调整。 闭源vs开源LLMs:选择正确的方法 语言模型领域存在着闭源模型(如OpenAI的ChatGPT、GPT 3.5和GPT 4)和开源变种(如Meta、Google和各种研究实验室提供的)之间的两极分化。闭源LLMs由于其管理基础设施和快速概念验证能力,成为一个引人注目的起点。这些模型提供高质量的预训练数据集,并且无需设置基础设施,使得那些探索LLMs能力的人可以轻松入门。 然而,尽管闭源LLMs易于获取,但它们存在根本性的局限性。它们缺乏模型所有权和极少的自定义能力,特别是对于数据隐私和模型控制至关重要的领域,这使得闭源LLMs不太适合长期投资。相比之下,开源LLMs提供了一个有希望的替代方案。它们使得完全拥有模型和自定义成为可能,并便利地获得开源空间中的创新发展。而付出的代价则是主机费用和困难。 传统微调和参数高效微调 微调成为了最大化LLMs潜力的关键过程,特别是考虑到特定领域任务的情况下。闭源模型常常缺乏所需的灵活性进行微调,而开源模型则可以完全控制这个过程。微调允许通过更新模型权重将预训练的LLMs适应于特定任务,从而提高性能。这是将这些通用模型个性化为专用应用的手段,为独特任务优化性能。 关于微调和类似检索增强生成(RAG)模型之间的辩论,重点在于是否需要针对具体任务进行定制的模型,而非通用智能模型。开源LLMs的性质允许自定义和高效微调以实现卓越的任务特定性能。 传统微调涉及更新所有模型参数,这一过程已被证明是资源密集型、耗时且不总能获得最佳的任务特定性能。然而,参数高效微调的最新创新取得了突破。通过冻结预训练LLM并仅训练一小部分特定任务层(不到总模型权重的1%),高效微调变得既节约资源又更有效。 向参数高效微调的转变显著影响了LLMs如何适应特定任务。通过仅关注训练少量特定任务层,这个过程变得更具成本效益和高效性。这种创新方法在较小数据集上实现了最佳任务特定性能,展示了开源LLMs相对于闭源模型的潜力。 Meta等人的LIMA论文等研究支持了在较小数据集上进行微调可以超越GPT 4等闭源模型性能的观点。这种通过较少数据实现更多的概念的概念突出了开源LLMs在适当微调下的效率和效果。 理解高效训练策略 在利用预训练模型进行特定任务时,LoRA(低秩自适应)和QLoRA(量化低秩自适应)已经成为有效微调大型语言模型(LLMs)的创新方法。这些方法对于将预训练模型定制为专用任务而最小化附加参数非常重要。 LoRA:对体系结构的深入研究 LoRA的体系结构涉及低秩分解,通过将变压器架构中的大型权重矩阵分解为较小矩阵来实现。在变压器的上下文中,LoRA专注于查询,键和值线性投影。 通常,这些线性投影具有大的权重矩阵,例如1024×1024,LoRA将其分解为较小的矩阵,例如1024×8和8×1024。这些较小的矩阵相乘,可以产生原始的维度。这种压缩大大减少了可调参数的数量,约为总LLM参数的一半到1%。 在变压器体系结构的上下文中,LoRA为键和查询投影层集成了适配器模块。这些通过低秩分解构造的适配器保持了原始形状,同时使其能够插入到变压器层中。基本层保持冻结状态,只有适配器权重是可训练的。…

Leave a Comment

这项来自中国的人工智能研究介绍了“啄木鸟”:一种创新的人工智能框架,旨在纠正多模态大型语言模型(MLLMs)中的幻觉

中国的研究人员引入了一种名为Woodpecker的新型AI校正框架,以解决多模态大型语言模型(MLLMs)中的错觉问题。这些模型结合了文本和图像处理,经常生成不准确反映所提供图像内容的文本描述。这种不准确性被归类为物体级错觉(涉及不存在的物体)和属性级错觉(对物体属性的不准确描述)。 目前减轻错觉的方法通常涉及使用特定数据对MLLM进行重新训练。这些基于指令的方法可能需要大量数据和计算资源。相比之下,Woodpecker提供了一种无需训练的替代方案,可应用于各种MLLM,通过其校正过程的不同阶段增强可解释性。 Woodpecker由五个关键阶段组成: 1.关键概念提取:该阶段识别所生成文本中提到的主要对象。 2.问题制定:围绕提取出的对象提出问题以诊断错觉。 3.视觉知识验证:使用专家模型回答这些问题,例如物体检测用于物体级查询,视觉问答(VQA)模型用于属性级问题。 4.视觉索赔生成:问题-答案对被转化为结构化视觉知识库,包括物体级和属性级索赔。 5.错觉校正:利用视觉知识库,系统引导MLLM修改所生成文本中的错觉,并附加边界框以确保清晰和可解释性。 该框架强调透明度和可解释性,使其成为理解和校正MLLM中失真的有价值工具。 研究人员在三个基准数据集(POPE、MME和LLaVA-QA90)上评估了Woodpecker。在POPE基准测试中,Woodpecker在基线模型MiniGPT-4和mPLUG-Owl上显著提高了准确性,分别实现了30.66%和24.33%的准确性改善。该框架在不同设置(包括随机、流行和对抗性场景)中表现出一致性。 在MME基准测试中,Woodpecker显示出显著的改进,特别是在与计数相关的查询中,它的表现超过了MiniGPT-4 101.66个得分。对于属性级查询,Woodpecker提高了基线模型的性能,有效解决了属性级错觉。 在LLaVA-QA90数据集中,Woodpecker一直提高了准确性和详细性指标,表明其能够校正MLLM生成的响应中的错觉,并丰富描述内容。 总之,Woodpecker框架为解决多模态大型语言模型中的错觉提供了一种有希望的校正方法。它通过关注解释和校正而不是重新训练,为提高MLLM生成描述的可靠性和准确性提供了有价值的工具,并有潜在的在涉及文本和图像处理的各种应用中带来好处。

Leave a Comment

EasyPhoto:您的个人AI照片生成器

Wěndìng chuánbō wǎngluò yònghù jièmiàn (SD-WebUI) shì yīgè wèi wěndìng chuánbō móxíng tígōng liúlǎn qì jièmiàn de zōnghé xiàngmù, tā lìyòng Gradio kù. Jīntiān, wǒmen jiāng tǎolùn EasyPhoto, zhèshì yīgè chuàngxīn de WebUI chājiàn, shǐ zuìzhōng yònghù nénggòu shēngchéng AI xiàoyǐng hé túxiàng. EasyPhoto WebUI chājiàn shǐyòng gèzhǒng móbǎn chuàngjiàn AI xiàoyǐng, […]

Leave a Comment

介绍OWLv2:谷歌在零样本目标检测方面的突破

介绍 2023年即将结束,对计算机视觉界而言,令人兴奋的消息是,谷歌最近在零样本目标检测领域取得了重大进展,并发布了OWLv2。这款尖端模型现在已经在🤗 Transformers中可用,并代表着迄今为止最强大的零样本目标检测系统之一。它基于去年推出的OWL-ViT v1模型打下了坚实的基础。 在本文中,我们将介绍该模型的行为和架构,并展示如何进行推理的实践方法。让我们开始吧。 学习目标 了解计算机视觉中零样本目标检测的概念。 了解谷歌OWLv2模型背后的技术和自我训练方法。 使用OWLv2的实际方法。 本文作为Data Science Blogathon的一部分发表。 OWLv2背后的技术 OWLv2的强大能力归功于其新颖的自我训练方法。该模型在一个包含超过10亿个示例的Web规模数据集上进行了训练。为了实现这一点,作者利用了OWL-ViT v1的强大功能,使用它生成伪标签,然后用这些伪标签来训练OWLv2。 此外,该模型还在检测数据上进行了微调,从而提高了其前身OWL-ViT v1的性能。自我训练为开放世界定位提供了Web规模的训练,与目标分类和语言建模领域的趋势相呼应。 OWLv2架构 尽管OWLv2的架构与OWL-ViT相似,但其目标检测头部有一个显著的补充。现在它包括一个目标性分类器,用于预测预测框中包含物体的可能性。目标性得分提供了洞察力,并可用于独立于文本查询对预测进行排序或筛选。 零样本目标检测 零样本学习是一个新的术语,自从GenAI的趋势以来变得流行起来。它通常在大型语言模型(LLM)的微调中见到。它涉及使用一些数据对基础模型进行微调,使其扩展到新的类别。零样本目标检测是计算机视觉领域的一个改变者。它的核心是使模型能够在图像中检测物体,而无需手工注释边界框。这不仅加快了处理速度,还减少了手工注释的需求,使其对人类更具吸引力和乐趣。 如何使用OWLv2? OWLv2遵循与OWL-ViT类似的方法,但使用了更新的图像处理器Owlv2ImageProcessor。此外,该模型依赖于CLIPTokenizer对文本进行编码。Owlv2Processor是一个方便的工具,结合了Owlv2ImageProcessor和CLIPTokenizer,简化了文本编码过程。以下是使用Owlv2Processor和Owlv2ForObjectDetection进行对象检测的示例。 在此处找到完整的代码:https://github.com/inuwamobarak/OWLv2 步骤1:设置环境…

Leave a Comment

Aaron Lee, Smith.ai的联合创始人兼首席执行官-采访系列

亚伦·李(Aaron Lee)是Smith.ai的联合创始人兼首席执行官Smith.ai是一个结合了人工智能和人类智慧的平台,提供24/7的客户互动,并配备以北美为基地的代理人,以捕获和转化更多的潜在客户亚伦·李还曾是家得宝(The Home Depot)的前首席技术官,并且是Redbeacon的联合创始人Redbeacon于2012年被家得宝收购

Leave a Comment

了解BOSS:一个增强学习(Reinforcement Learning,简称RL)框架,通过LLM指导训练智能体在新环境中解决新任务

介绍BOSS(自己打造技能):一种创新方法,利用大型语言模型,自主构建多功能技能库,以应对复杂任务,减少指导的需求。与传统的无监督技能获取技术和简单的引导方法相比,BOSS在执行陌生任务时表现更好,具备在新环境中运行的能力。这一创新标志着自主技能获取和应用的重大飞跃。 强化学习旨在优化马尔可夫决策过程中的策略,以最大化预期回报-过去的强化学习研究为复杂任务预训练可重用技能。无监督强化学习主要关注好奇心、可控性和多样性,学习技能时无需人类输入。语言被用于技能参数化和开环规划。BOSS通过大型语言模型扩展技能库,指导探索并奖励完成技能链,提高了长期任务执行的成功率。 传统的机器人学习在很大程度上依赖于监督,而人类在独立学习复杂任务方面表现出色。研究人员将BOSS作为一个框架引入,以最小人为干预的方式自主获取多样、长期的技能。通过技能引导和大型语言模型(LLMs)的指导,BOSS逐步构建和组合技能,以处理复杂任务。无监督的环境交互增强了其策略对于在新环境中解决挑战性任务的鲁棒性。 BOSS引入了一个两阶段的框架。在第一阶段,它使用无监督的强化学习目标获取基础技能集。第二阶段,技能引导,利用LLMs指导技能链接和基于技能完成的奖励。这种方法允许代理从基本技能构建复杂行为。在家庭环境中的实验表明,LLM引导的引导方式在执行陌生的长程任务和新的设置中优于天真的引导和之前的无监督方法。 实验结果证实,LLM引导的BOSS在解决新颖环境中的复杂家庭任务方面表现优异,超过了基于LLM的规划和无监督探索方法。结果呈现了在ALFRED评估中不同长度任务的标准化返回和标准化成功率的四分位数平均值和标准偏差。LLM引导引导的训练代理优于天真引导和之前的无监督方法。BOSS能够从基本技能中自主获取多样、复杂的行为,展示了它在无需专家的机器人技能获取方面的潜力。 在无需专家指导的情况下,LLM引导的BOSS框架在自主解决复杂任务方面表现出色。在执行陌生功能时,LLM引导的训练代理优于天真引导和之前的无监督方法。现实中的家庭实验证实了BOSS在从基本技能中获取多样、复杂行为方面的有效性,强调了其在自主机器人技能获取方面的潜力。BOSS还显示出将强化学习与自然语言理解结合的潜力,利用预训练的语言模型进行指导学习。 未来的研究方向可能包括: 研究无需重置的自主技能学习。 使用BOSS的技能链接方法提出长期任务分解。 拓展无监督强化学习以进行低层技能获取。 同时,加强强化学习与自然语言理解在BOSS框架中的整合也是一个有前途的方向。将BOSS应用于不同领域,并在各种环境和任务背景中评估其性能,可以为进一步的探索提供潜力。

Leave a Comment

“我们能生成超真实的人类形象吗?这篇AI论文介绍了HyperHuman:一个文本到图像模型的重大进展”

将此HTML代码(保留HTML代码在结果中)翻译成中文: 量子计算常被誉为能够彻底改变问题解决的潜力,尤其是当经典计算机面临重大限制时。虽然讨论大部分聚焦于渐进调整的理论优势,但识别量子计算机在有限尺寸问题上的实际应用至关重要。具体的例子可以展示量子计算机比经典对应物更高效地解决哪些问题以及如何在这些任务中使用量子算法。近年来,合作研究工作探索了量子计算在现实应用领域上的潜在应用,从而为这一新兴技术提供了深入了解。 基于扩散的文本转图像(T2I)模型因其可扩展性和训练稳定性而成为生成图像的首选。然而,像稳定的扩散这样的模型需要帮助创建高保真度的人类图像。传统的可控人类生成方法存在限制。研究人员提出的HyperHuman框架通过捕捉外观和潜在结构之间的相关性来克服这些挑战。它结合了一个大型的以人类为中心的数据集,一个潜在结构扩散模型以及一个结构引导的精细调节器,实现了超逼真的人类图像生成的最新成果。 从用户条件(如文本和姿势)生成超逼真的人类图像对于图像动画和虚拟试穿等应用至关重要。早期使用VAE或GAN的方法在训练稳定性和容量方面存在局限性。扩散模型已经彻底改变了生成AI,但现有的T2I模型在人体解剖和自然姿态上存在问题。HyperHuman介绍了一个捕捉外观-结构相关性的框架,确保人类图像生成过程中的高逼真度和多样性,并解决了这些挑战。 HyperHuman是一个用于生成超逼真人类图像的框架。它包括一个包含3.4亿个标注图像的广泛的以人类为中心的数据集HumanVerse。HyperHuman框架结合了一个去噪深度和表面法线的潜在结构扩散模型,同时生成RGB图像。一个结构引导的精细调节器增强了合成图像的质量和细节。他们的框架可以在各种场景下生成超逼真的人类图像。 他们的研究使用了各种指标评估HyperHuman框架,包括图像质量和多样性的FID、KID和FID CLIP,文本-图像对齐的CLIP相似性以及姿势准确度指标。尽管使用的模型较小,HyperHuman在图像质量和姿势准确度方面表现出色,在CLIP得分中排名第二。他们的框架在图像质量、文本对齐和常用的CFG尺度上展现了平衡的性能。 总之,HyperHuman框架引入了一种新的生成超逼真人类图像的方法,克服了连续性和自然性方面的挑战。它利用HumanVerse数据集和潜在结构扩散模型生成高质量、多样化和与文本对齐的图像。该框架的结构引导的精细调节器提高了视觉质量和分辨率。与以前的模型相比,它在超逼真人类图像生成方面具有卓越的性能和鲁棒性。未来的研究可以探索使用像LLMs这样的深度先验来实现文本到姿势的生成,从而消除对身体骨骼输入的需要。

Leave a Comment

《在Langchain中使用链条的综合指南》

介绍 迈入语言处理的前沿!在语言成为人类与技术之间的重要纽带的领域中,自然语言处理取得了一些非凡的成就。在这一进展中,有一项具有突破性意义的大型语言模型,它正在重塑我们与基于文本的信息的互动方式。在这个全面的学习之旅中,你将深入了解 LangChain,这是一种前沿工具,正在重新塑造我们与基于文本的信息的互动方式。你是否曾经想过,“Langchain”是什么链条? LangChain作为大型语言模型领域的门户独树一帜,它提供了深入理解这些模型如何将原始输入转化为精细和类似人类回答的能力。通过这种探索,你将揭开 LangChain 的基本构建模块,从LLMChain和Sequential Chains到Router Chains的复杂运作。 学习目标 了解 LangChain 的核心组成部分,包括LLMChains和Sequential Chains,看看输入是如何在系统中流动的。 学会以连贯的方式整合不同的元素,探索提示模板和语言模型之间的联系。 获得在实际任务中创建功能性链条的实际经验。 培养通过微调结构、模板和解析技术来提高链条效率的技能。 本文是“数据科学博文马拉松”的一部分。 什么是LLM? 大语言模型(LLM)是一种旨在理解和生成类似人类文本的人工智能类型。这些模型(如OpenAI的GPT-3.5)通过训练大量文本数据来了解人类语言的模式和结构。它们可以执行各种与语言相关的任务,包括翻译、内容生成、回答问题等。 LLMs是自然语言处理中宝贵的工具,广泛应用于聊天机器人、内容生成和语言翻译等领域。 什么是LangChain? 在我们揭开 LangChain Chains 的复杂性之前,让我们先理解…

Leave a Comment

这个AI研究介绍了神经A*:一种新型的数据驱动搜索方法,用于路径规划问题

路径规划是在环境地图中从初始点到目标点找到一条经济有效且有效的路径的过程。搜索型规划方法,包括著名的A*搜索,被广泛应用于解决路径规划挑战。这些技术已在包括自动驾驶和机器人臂操作在内的各个领域找到了应用。 最近的研究突出了数据驱动路径规划在两个特定场景中的重要优势。 第一个场景涉及在点对点最短路径搜索问题中相对于传统启发式规划器更高效地发现近似最优路径。 第二个场景是对原始图像输入进行路径规划。在没有对环境进行语义像素级标注的情况下,传统规划器很难完成这一任务。 在这项研究中,作者将传统的A*搜索算法进行了重新定义,并将其与卷积编码器结合,创建了一个完全可训练的端到端神经网络规划器。这种方法被称为神经A*,通过将给定的问题实例转化为一个引导地图,然后基于该地图进行可微分的A*搜索,解决路径规划问题。 上面的图像展示了神经A*的两种路径规划场景。 点对点最短路径搜索:在输入地图中找到一个近似最优路径(红色),并进行较少的节点探索(绿色)。 基于原始图像输入的路径规划:在自然图像上准确预测人类轨迹(红色)。 通过学习使搜索结果与专家提供的地面真实路径相对齐的过程,神经A*可以生成准确且高效地遵循地面真实路径的路径。 该图示了神经A*的框图: (1) 一个路径规划问题实例被输入编码器来产生一个引导地图。 (2) 可微分的A*模块使用引导地图进行点对点最短路径搜索,并输出搜索历史和结果路径。 (3) 搜索历史和地面真实路径之间的损失被反向传播以训练编码器。 全面的实验结果表明,神经A*超越了最先进的数据驱动规划器,在搜索最优性和效率之间取得了有利的平衡。此外,神经A*已经展示了将基于搜索的规划直接应用于自然图像上预测真实人类轨迹的能力。

Leave a Comment

Can't find what you're looking for? Try refining your search: