Press "Enter" to skip to content

419 search results for "引导"

7种呼叫中心使用人工智能的方式为他们的代理和客户节约时间

《CCW数字》的一项研究显示,多达62%的联系中心正在考虑投资自动化和人工智能与此同时,许多消费者愿意使用自助选项或与聊天机器人交流,尤其是如果这有助于他们避免冗长的等待时间这为联系中心的领导者提供了一个理想的机会[…]

Leave a Comment

AWS reInvent 2023生成AI和ML指南

是的,AWS reInvent季节已经到来,一如既往,这个时候应该去的地方是拉斯维加斯!你已经在日历上做了标记,预订了酒店,甚至购买了机票现在你只需要一些有关生成AI和机器学习(ML)的指导,以便在第十二届reInvent大会上参加相关的会议虽然生成AI在之前的活动中出现过,但今年我们将把它提升到一个新的水平除了在主题演讲中发布多个令人兴奋的新闻之外,我们的讲座中的大部分都将以某种形式涉及到生成AI,所以我们可以真正称之为“生成AI和机器学习”专题在这篇文章中,我们将为您介绍该专题的组织方式,并突出几个我们认为您会喜欢的会议虽然我们的专题侧重于生成AI,但许多其他专题也有相关的会议在浏览会议目录时,请使用“生成AI”标签来查找它们

Leave a Comment

“自动聚类的启动:探索多智能体框架的基础知识”

介绍 踏上一段激动人心的旅程,探索多智能体框架的基础知识,并进入软件开发的未来,这就是“自动产生:探索多智能体框架基础”的主题。在OpenAI的ChatGPT之后,一个名为LLM(LLM agent)的专业领域正在经历前所未有的飞速发展,彻底改变了AI代理开发。从自动化繁琐任务到解决动态决策中的挑战,LLM代理正在挑战曾经被认为不可能的界限。 随着我们进入空间计算时代,设想一个世界,计算机与现实无缝融合,AI代理的重要性变得至关重要。想象一下通过语言和手势指令代理完成任务,具有无与伦比的推理和行动能力。然而,我们正处于AI代理革命的黎明期,见证着新的基础设施、工具和框架的诞生,这些赋予代理应对越来越复杂任务的能力。剪裁多智能体聊天系统的先进框架Autogen,在我们的探索中扮演重要的角色。 在这篇文章中,让我们一起揭开AI代理革命的早期阶段的细节,深入了解Autogen的能力,并探索如何让这些智能实体焕发生机。 学习目标 了解什么是LLM代理 学习Autogen是什么,并探索使用Autogen构建代理的基础知识 使用Autogen和OpenAI API构建代理 探索LLM代理的现实世界应用案例 本文是《数据科学博文马拉松》的一部分。 什么是LLM代理? 传统的语言模型在许多方面都表现出色,例如翻译、问答等。然而,它们的知识和能力是有限的。这就像是一名泥瓦工在修筑房子时缺少工具一样。然而,有观察发现,LLM代理在给予必要的工具后能够进行推理和行动。大多数LLM代理对世界的了解有限,但我们可以通过提示将它们与自定义来源的信息进行增强。 我们可以通过两种方法实现这一目标:检索增强生成和LLM代理。在检索增强生成中,我们通过自定义的硬编码流程将信息提供给模型。但对于代理来说,基于其推理,LLM代理将利用其掌握的工具。例如,带有Serp工具的GPT-4将浏览互联网并相应地回答,或者在可以访问雅虎金融工具时,它可以获取和分析股票表现。因此,LLM模型、工具和用于推理和采取行动的框架的组合就是AI代理的概念。 构建LLM代理的平台和工具急剧增长。Autogen就是其中之一。让我们了解一下Autogen是什么,以及如何使用它来创建LLM代理。 什么是Autogen? Autogen是微软推出的一款面向构建稳定多智能体应用的开源工具。该工具从头开始设计,充分考虑到多智能体之间的通信。它允许我们创建LLM应用程序,其中多个代理互相对话以找到解决方案。这些代理是高度可定制的,意味着我们可以引导它们执行特定的任务。它还与Langchain工具生态系统完美集成,这意味着我们可以利用现有的Langchain工具来增强我们的代理。 为了完成任务,Autogen提供了不同类型的代理,包括: 助理代理:负责完成编码、审核等任务 用户代理:如其名称所示,这些代理代表最终用户行动。这些代理将人类引入代理循环,以引导对话 可教授代理:该代理被配置为易于教授。我们可以向代理提供LLM中缺失的显式信息 我们在大多数情况下只需要一个助理代理和用户代理进行配置。所以,让我们看看如何使用 Autogen 配置代理。RAG…

Leave a Comment

易于应用集成的前五种稳定扩散API

介绍 在人工智能时代,API是解决企业面临的重要挑战之一,即将AI模型整合到软件和应用中时的高计算要求的一种解决方案。这种解决方案被称为应用程序编程接口(API)。API可以帮助你摆脱维护的麻烦,让你专注于业务逻辑和用户体验。这意味着任何人都可以利用这些API构建和商业化应用。本文将探讨稳定扩散API,这是一组专注于图像生成的生成式AI模型,这些模型对于各种应用程序至关重要。 我们首先将看到Segmind API,这是一个非常高效和有效的选择。这些API已经彻底改变了开发人员、设计师和创作者处理视觉内容生成的方式。我们将探索一些排名前五的稳定扩散API,重点介绍它们的特点、用途、定价等等。 学习目标 深入了解稳定扩散模型。 了解稳定扩散模型的基础知识,包括它们的应用。 了解现代软件开发中的API。 探索API在简化软件和应用开发中的关键作用。 本文是数据科学博文马拉松的一部分。 了解稳定扩散模型 什么是稳定扩散模型? 稳定扩散模型是一类专注于生成高质量图像的生成式AI模型。这些模型旨在生成具有各种应用的逼真、高分辨率图像。它们的特点是稳定和可靠,对于图像合成、风格转移和数据增强等任务非常有帮助。 稳定扩散模型使用扩散过程生成图像,从而逐渐向图像添加噪声,直到演化为复杂而连贯的输出。这个过程确保生成的图像具有高质量并展现出细节。 什么是API? API,或应用程序编程接口,是一组规则和协议,允许一个软件应用程序与另一个应用程序、服务或平台的功能或数据进行交互。API是中介,实现软件之间的集成。 在软件开发中,API为开发人员提供了一种访问功能、服务或数据的方式,包括云服务、数据库或AI模型等源,而无需理解底层复杂性。这简化了开发过程,加速了功能丰富应用的创建。 API可以采用多种形式,包括RESTful API、gRPC API和WebSocket API,每种都针对特定的用例。在现代软件中,它们发挥着关键作用,使开发人员能够利用第三方服务和功能的强大能力,同时专注于核心应用程序逻辑。 前五稳定扩散API 让我们来看看我们列表上排名靠前的稳定扩散API,首先是用户友好的Segmind API。 1.…

Leave a Comment

南开大学和字节跳动的研究人员推出了一种名为ChatAnything的新型人工智能框架,专注于生成LLM-增强人物形象

南开大学和字节跳动的研究人员提出了一个名为ChatAnything的新型框架,旨在以在线方式生成基于大型语言模型(LLM)的角色的人形化人物形象。目标是仅根据文本描述创建具有自定义视觉外观、个性和语调的人物形象。研究人员利用LLM的上下文学习能力使用精心设计的系统提示生成个性。他们提出了两个创新概念:声音的混合 (MoV) 和扩散物质的混合 (MoD),用于多样化的语音和外观生成。 MoV使用预定义音调的文本到语音(TTS)算法,根据用户提供的文本描述选择最匹配的音调。MoD结合了文本到图像生成技术和说话头算法,简化了生成说话对象的过程。然而,研究人员观察到当前模型生成的拟人化对象常常被预训练的面部标志检测器无法检测到,导致面部动作生成失败。为了解决这个问题,他们在图像生成过程中引入像素级引导,以注入人脸标志。这个像素级注入显著提高了面部标志检测率,实现了基于生成的语音内容的自动面部动画。 本论文讨论了大型语言模型(LLMs)及其上下文学习能力的最新进展,将其定位于学术讨论的前沿。研究人员强调了需要一个框架来生成具有自定义个性、声音和视觉外观的LLM增强人物形象。对于个性生成,他们利用LLM的上下文学习能力,使用文本到语音(TTS) API创建了声音模块池。声音的混合模块(MoV)根据用户文本输入选择音调。 使用最新的说话头算法解决了由语音驱动的说话动作和表情的视觉外观问题。然而,研究人员在使用扩散模型生成的图像作为说话头模型的输入时遇到了挑战。只有30%的图像能够被最先进的说话头模型检测到,表明分布不对齐。为了弥合这一差距,研究人员提出了一种零样本方法,在图像生成阶段注入面部标志。 提出的ChatAnything框架由四个主要模块组成:基于LLM的控制模块、人像初始化器、文本到语音模块的混合以及动作生成模块。研究人员结合了扩散模型、声音变换器和结构控制,创建了一个模块化和灵活的系统。为了验证引导扩散的有效性,研究人员创建了一个带有不同类别提示的验证数据集。他们使用预训练的面部关键点检测器评估面部标志检测率,展示了他们提出方法的影响。 研究人员介绍了一个全面的框架ChatAnything,用于生成具有拟人特征的LLM增强人物形象。他们解决了面部标志检测方面的挑战,并提出了创新的解决方案,在验证数据集中呈现了有希望的结果。这项工作为将生成模型与说话头算法整合以及提高数据分布对齐性的未来研究开辟了新的途径。

Leave a Comment

欲知答案:通过编码大型语言模型实现人类级奖励设计

随着近年来大型语言模型的进展,大型语言模型框架在顺序高级决策任务的语义规划中表现突出,这并不令人意外然而,开发人员仍然发现难以充分利用大型语言模型框架来学习复杂的低级操作任务尽管它们高效,但现今的大型语言模型需要相当的[…]

Leave a Comment

使用Amazon SageMaker Studio与Llama 2、LangChain和Pinecone来构建一个RAG问答解决方案,以便进行快速实验

检索增强生成(RAG)允许您为大型语言模型(LLM)提供对外部知识源(如资料库、数据库和API)的访问权限,而无需对模型进行精细调节在使用生成型人工智能进行问答时,RAG使得LLM能够以最相关、最新的信息来回答问题,并可选择引用[…].

Leave a Comment

这篇来自麻省理工学院的AI论文介绍了一种新的机器人操控方法:通过蒸馏特征场和视觉语言模型来弥合二维到三维的差距

麻省理工学院(MIT)和人工智能和基本相互作用研究所(IAIFI)的一个研究团队引入了一个突破性的机器人操纵框架,解决了让机器人在不可预测和杂乱的环境中理解和操作物体的挑战。目前面临的问题是机器人需要对三维几何有详细的理解,而这常常在二维图像特征中缺乏。 目前,许多机器人任务需要同时具备空间和语义理解。例如,一个仓库机器人可能需要根据产品清单中的文字描述从杂乱的存储箱中拿起一个物品。这就需要机器人能够基于几何属性和语义属性稳定地抓取物体。 为了弥合二维图像特征和三维几何之间的差距,研究人员开发了一个名为机器人操纵特征场(F3RM)的框架。这种方法利用经过训练的视觉和视觉语言模型提取特征,并将其蒸馏成三维特征场。 F3RM框架包括三个主要组成部分:特征场蒸馏、使用特征场表示6自由度姿势和使用开放文本语言指导。蒸馏特征场 (DFFs) 扩展了神经辐射场 (NeRF) 的概念,其中包括一个额外的输出来从视觉模型中重建密集2D特征,这使得模型能够将一个3D位置映射到一个特征向量,结合了空间和语义信息。 对于姿势表示,研究人员使用夹爪坐标系中的一组查询点,这些点从3D高斯分布中采样得到。这些点被转换到世界坐标系中,特征根据局部几何进行加权。得到的特征向量被串联成姿势的表示。 该框架还包括能够结合自然语言命令进行对象操作的能力。机器人在测试过程中接收指定要操作的对象的自然语言查询。然后,它检索相关的演示,初始化粗略的抓取,根据提供的语言指导优化抓取姿势。 就结果而言,研究人员进行了关于抓取和放置任务以及语言引导操纵的实验。它可以理解物体之间的密度、颜色和距离。对杯子、马克杯、螺丝刀柄和蠕虫耳朵的实验显示了成功的运行。机器人可以推广到在形状、外观、材料和姿势上差异显著的物体。它还成功地回应了自由文本的自然语言命令,即使对于演示过程中未见过的新类别的物体。 总之,F3RM框架为机器人操纵系统的开放集合泛化挑战提供了一个有希望的解决方案。通过结合2D视觉先验和3D几何并融合自然语言指导,它为机器人在各种复杂和杂乱环境中处理复杂任务铺平了道路。虽然仍然有一些限制,如模拟每个场景所需的时间,但该框架在推进机器人和自动化领域方面具有重要潜力。

Leave a Comment

揭开权重、偏置与损失函数的奥秘:深入探索深度学习

深度学习是一种利用分层神经网络来帮助计算机自动地从大量数据中学习的机器学习方法,类似于人类的学习方式在高层次上,深度学习模仿了人类大脑处理信息的方式,通过多个层次的神经网络将输入的数据逐步转化为有用的特征和抽象表示,从而实现对复杂问题的高效解决

Leave a Comment

这篇AI论文介绍了LCM-LoRA:通过先进的潜在一致性模型和LoRA蒸馏来改变文本到图像生成任务的革命性方法

“` 潜在扩散模型是机器学习中常用的生成模型,特别是在概率建模中。这些模型旨在捕捉数据集的潜在结构或潜在变量,通常专注于生成逼真的样本或作出预测。它们描述了系统随时间的演变。这可以指从初始分布通过一系列步骤或扩散过程将一组随机变量转化为所需分布。 这些模型基于ODE-Solver方法。尽管减少了推理步骤的数量,但它们仍然需要大量的计算开销,特别是在融入无分类器的引导时。Guided-Distill等蒸馏方法是有希望的,但由于它们的计算需求密集,必须进行改进。 为了解决这些问题,出现了对潜在一致性模型的需求。他们的方法涉及到一个反向扩散过程,将其视为增广的概率流ODE问题。他们创新地在潜在空间中预测解,并通过数值ODE求解器避免了迭代解决方案的需要。在生成高分辨率图像的remarkable综合中,只需要1到4个推理步骤。 清华大学的研究人员通过将LoRA蒸馏应用到Stable-Diffusion模型中,包括SD-V1.5、SSD-1B和SDXL,扩展了LCM的潜力。他们通过实现卓越的图像生成质量,扩大了LCM在具有显著较少内存消耗的大型模型中的应用范围。对于专用数据集,如动画、照片逼真或幻想图像,还需要额外的步骤,例如使用潜在一致性蒸馏(LCD)将预训练的LDM蒸馏为LCM,或直接使用LCF对LCM进行微调。然而,在自定义数据集上是否可以实现快速、无需训练的推理呢? 团队引入了LCM-LoRA作为一个通用的无训练加速模块,可以直接插入到各种Stable-Diffusion经过微调的模型中来回答这个问题。在LoRA的框架内,所得到的LoRA参数可以无缝地集成到原始模型参数中。团队已经证明了在潜在一致性模型(LCMs)蒸馏过程中应用LoRA的可行性。LCM-LoRA参数可以直接与其他LoRA参数组合,并在特定风格的数据集上进行微调。这将使人们能够在特定风格中以最少的采样步骤生成图像,而无需任何进一步的训练。因此,它们代表了适用于各种图像生成任务的一种普遍适用的加速器。 这种创新方法显著减少了迭代步骤的需求,实现了从文本输入快速生成高保真度图像,并为最先进的性能设定了新的标准。LoRA显著减少了需要修改的参数的数量,从而提高了计算效率,并允许用较少的数据进行模型改进。 “`

Leave a Comment

Etan Ginsberg, Martian联合创始人 – 采访系列

埃坦·金斯伯格是 Martian 的联合创始人,Martian 是一个动态路由每个提示到最佳 LLM 的平台通过路由,Martian 实现了比任何单个提供商(包括 GPT-4)更高的性能和更低的成本该系统基于该公司独特的模型映射技术,将复杂的黑盒中的 LLM 解释为更可理解的形式

Leave a Comment

在亚马逊SageMaker JumpStart中使用Llama 2 Chat LLM的最佳提示实践

Llama 2位于人工智能创新的前沿,具备先进的自回归语言模型,基于复杂的变换器架构开发而成它专为商业和研究领域中的各种应用量身定制,主要的语言集中在英语上其模型参数从令人印象深刻的70亿增加到了引人注目的[…]

Leave a Comment

Zero123++:一幅图像到一致多视图扩散基模型

过去几年中,新兴的AI生成模型在性能、效率和生成能力方面取得了快速发展,这些模型利用了大量数据集和2D扩散生成技术如今,生成AI模型非常擅长生成各种形式的2D媒体内容,在某种程度上还能生成3D媒体内容,包括文字、图像、视频等

Leave a Comment

打通人工智能和神经形态计算之间的鸿沟 (Dǎtōng réngōng zhìnéng hé shénjīng xíngtài jìsuàn zhījiān de hónggōu)

在人工智能快速发展的领域中,与不断增长的计算需求相适应的硬件的追求是毫不懈怠的通过普渡大学、加州大学圣地亚哥分校(UCSD)和法国高级物理和化学学院(École Supérieure de Physique et de)的合作努力,这一追求取得了重大突破

Leave a Comment

使用Amazon Personalize实时实施个性化推荐

在基本层面上,机器学习(ML)技术通过对数据的学习来进行预测企业使用ML技术提供的个性化服务来提升客户体验这种方法使企业能够利用数据来获得可操作的见解,并帮助增加收入和品牌忠诚度亚马逊个性化服务利用机器学习加速您的数字化转型,[…]

Leave a Comment

Can't find what you're looking for? Try refining your search: