Press "Enter" to skip to content

Tag: Generative AI

“欧里卡!NVIDIA研究的突破性发现为机器人学习带来了新的转变”

由NVIDIA研究开发的新型人工智能代理能够教会机器人复杂的技能,现已训练出机器手以与人类一样轻松地完成快速旋笔技巧。 在上面的视频中展示的惊人表现是机器人通过Eureka学会的近30项任务之一,Eureka自主编写奖励算法以训练机器人。 Eureka还教会了机器人如何打开抽屉和橱柜、抛接球和操作剪刀等任务。 今天发布的Eureka研究包括一篇论文和项目的人工智能算法,开发者可以使用NVIDIA Isaac Gym进行实验,这是一个用于强化学习研究的物理模拟参考应用程序。Isaac Gym建立在NVIDIA Omniverse上,这是一个基于OpenUSD框架构建3D工具和应用程序的开发平台。Eureka本身由GPT-4大型语言模型驱动。 NVIDIA高级AI研究主管Anima Anandkumar表示:“在过去的十年中,强化学习取得了令人瞩目的成就,但仍存在许多挑战,例如奖励设计仍然是一个试错过程。Eureka是开发整合生成和强化学习方法解决难题的新算法的第一步。” AI训练机器人 根据论文,Eureka生成的奖励程序——用于机器人的试错学习——在超过80%的任务上都优于由专家编写的奖励程序,这使得机器人的平均性能提高了50%以上。 https://blogs.nvidia.com/wp-content/uploads/2023/10/franka_cabinet.mp4 由Eureka教会的机器臂打开抽屉。 这个AI代理使用GPT-4 LLM和生成AI来编写奖励机器人进行强化学习的软件代码。它不需要具体的任务提示或预定义的奖励模板,并且可以根据人类的反馈快速调整奖励以更准确地实现开发者的愿景。 在Isaac Gym的GPU加速模拟中,Eureka可以快速评估大量奖励候选项的质量,从而实现更高效的训练。 Eureka随后构建了关于训练结果的关键统计数据的摘要,并指导LLM改进奖励函数的生成。通过这种方式,人工智能实现了自我提升。它教会了各种各样的机器人,包括四足、两足、四旋翼、灵巧手臂、协作机械臂等完成各种任务。 研究论文对20项Eureka训练任务进行了详细评估,基于需要机器手展示各种复杂操纵技能的开源灵巧性基准。 来自九个Isaac Gym环境的结果通过使用NVIDIA Omniverse生成的可视化展示。 https://blogs.nvidia.com/wp-content/uploads/2023/10/humanoid.mp4 人形机器人通过Eureka学会奔跑步态。…

Leave a Comment

英伟达扩展机器人平台以满足生成式人工智能的崛起

强大的生成式AI模型、云原生API和微服务正在逐渐走向边缘。 生成式AI将转换模型和大型语言模型的优势带到了几乎所有行业。现在,这种影响力已经扩展到了涉及边缘、机器人和物流系统的领域:缺陷检测、实时资产跟踪、自主计划和导航、人机交互等。 NVIDIA今天宣布了两个在边缘AI和机器人技术领域的框架的重大扩展:NVIDIA的Isaac ROS机器人技术框架正式面向市场,NVIDIA Metropolis在Jetson平台上的扩展即将推出。 为了加快边缘AI应用的开发和部署,NVIDIA还建立了一个用于开发者使用的Jetson生成式AI实验室,供他们使用最新的开源生成式AI模型。 超过120万开发者和1万多个客户选择了NVIDIA AI和Jetson平台,其中包括亚马逊网络服务、思科、约翰迪尔、美敦力、百事可乐和西门子。 随着人工智能领域的快速发展,应对越来越复杂的场景,开发者面临着日益延长的开发周期来构建边缘AI应用的挑战。实时重新编程机器人和AI系统以满足不断变化的环境、制造流水线和客户的自动化需求是耗时且需要专业技能的。 生成式AI提供了零样本学习的能力,即模型能够识别训练过程中从未见过的特定东西,并结合自然语言界面,简化了边缘AI的开发、部署和管理。 改变人工智能领域 生成式AI通过理解人类语言提示来改变模型,极大地提高了易用性。这些AI模型在检测、分段、跟踪、搜索甚至重新编程方面更加灵活,并且能够优于传统的基于卷积神经网络的模型。 根据ABI Research的数据,生成式AI预计将在2033年为全球制造业增加105亿美元的收入。 NVIDIA的嵌入式和边缘计算副总裁Deepu Talla表示:“生成式AI将以比以往更好的泛化能力、易用性和更高的准确性显著加速边缘AI的部署。Metropolis和Isaac在Jetson上的这次最大规模的软件扩展,结合了转换模型和生成式AI的能力,满足了这一需求。” 在边缘开发生成式AI Jetson生成式AI实验室为开发者提供了优化工具和教程,用于部署开源LLMs、扩散模型以生成令人惊叹的交互式图像、视觉语言模型(VLMs)和视觉Transformer(ViTs)结合视觉AI和自然语言处理,实现对场景的全面理解。 开发者还可以使用NVIDIA TAO Toolkit为边缘应用程序创建高效准确的AI模型。TAO提供了一个低代码界面,用于微调和优化视觉AI模型,包括ViT和视觉基础模型。他们还可以自定义和微调诸如NVIDIA NV-DINOv2或公共模型如OpenCLIP之类的基础模型,以用极少的数据创建高精度的视觉AI模型。TAO还引入了VisualChangeNet,这是一个用于缺陷检测的基于Transformer的新模型。 利用新的Metropolis和Isaac框架 NVIDIA Metropolis使企业更加轻松、更具成本效益地采用世界级的视觉AI解决方案,以提高关键的运营效率和安全性。该平台提供了一系列强大的应用程序编程接口和微服务,供开发者快速开发复杂的基于视觉的应用程序。…

Leave a Comment

了解亚马逊药店如何使用亚马逊SageMaker创建了他们基于LLM的聊天机器人

亚马逊药房是亚马逊网站上的一家全方位药房,提供透明的定价、临床和客户支持,以及免费将药品送到您的门口客户服务代理在快速准确地获取与药房信息相关的信息方面起着至关重要的作用,包括处方澄清和转移状态、订单和发药详细信息以及患者信息

Leave a Comment

出色表现:基于RTX的大型语言模型使用TensorRT-LLM在Windows上提速4倍

生成式人工智能 是个人计算历史上最重要的趋势之一,为游戏、创作、视频、生产力、开发等领域带来了进步。 GeForce RTX 和搭载了专用AI处理器Tensor Cores的NVIDIA RTX GPU,正在原生地将生成式人工智能的能力带到超过1亿台Windows PC和工作站上。 如今,在Windows上通过TensorRT-LLM获得的生成式人工智能速度提高了4倍,该开源库可加速最新的AI大型语言模型(如Llama 2和Code Llama)的推理性能。上个月,TensorRT-LLM发布了适用于数据中心的版本。 NVIDIA还发布了帮助开发者加速LLMs的工具,包括使用TensorRT-LLM优化自定义模型的脚本、经过TensorRT优化的开源模型以及展示LLM响应的速度和质量的开发者参考项目。 现在,通过Automatic1111发布的稳定扩散式混合生成式人工智能在流行的Web UI中提供TensorRT加速,它的速度比之前最快版本快2倍。 此外,RTX Video Super Resolution (VSR) 1.5版本已经作为今天的Game Ready Driver发布的一部分,也将在下个月初发布的NVIDIA Studio Driver中提供。…

Leave a Comment

“前十个创造性 AI 三维物体生成器”

通过强大的AI 3D对象生成器,创建和可视化3D模型变得更加准确、易于访问和高效。无论您是图形设计师还是游戏开发者,根据您的需求来选择最适合您的AI 3D对象生成器。您可以使用只有图片、文字或视频的3D模型进行革命性创作。让我们带您了解前10个AI 3D对象生成器。 什么是AI 3D对象生成? AI 3D对象生成是一种利用AI 3D对象生成器更准确地创建3D模型的过程。这些工具可以帮助您设计3D模型,并以三维方式将您的想法变为现实。您可以从文本到3D生成器、图片到3D对象以及视频到3D模型创建3D对象。每一种需求都有相应的工具。因此,通过这些工具,打开创意的新大门。 前十个AI 3D对象生成器 AI 3D对象生成器为您的所有3D模型设计需求提供了全方位的支持。利用这些工具的最佳功能,您可以创建3D模型,并为您的创意赋予生命。以下是我们为您推荐的前十个AI 3D对象生成器。 1. Spline Spline是AI 3D对象生成器之一,可让用户在其浏览器中塑造交互式网络体验。这是一个非常棒的团队项目工具,具有实时协作功能。 主要特点: 此工具提供广泛的动画和3D建模功能,例如材质层、3D雕刻、物理和游戏控制、3D建模和动画、互动体验以及视频纹理和组件。 您可以探索相机控制、3D矢量编辑、拖放功能和Web浏览器事件的工具。用户可以通过API或网站上传数字媒体,该媒体将自动分析成3D模型。 定价: 基础版:免费 超级版:每月7美元 超级团队版:每个团队编辑者每月9美元…

Leave a Comment

使用Amazon SageMaker上的多模型模型构建一个图像到文本生成AI应用程序

在本篇文章中,我们将提供流行的多模态模型概述我们还将演示如何在Amazon SageMaker上部署这些预训练模型此外,我们还将讨论这些模型的各种应用,特别侧重于一些现实场景,如电子商务中的零样本标签和属性生成,以及从图像中自动生成提示语

Leave a Comment

使用Amazon SageMaker JumpStart用Falcon创建一个HCLS文档摘要应用程序

健康保健和生命科学(HCLS)的客户正在采用生成式人工智能作为一种工具,以从他们的数据中获得更多的价值使用情况包括文档总结,以帮助读者聚焦文档的关键点,并将非结构化文本转化为标准化格式,以突出重要属性由于独特的数据格式和严格的监管要求,客户们正在……

Leave a Comment

创新促进包容性:使用Amazon SageMaker进行Hack.The.Bias

这篇文章是与丹尼埃莱·基亚帕鲁皮(Daniele Chiappalupi)合著的,他是苏黎世联邦理工学院AWS学生黑客马拉松团队的成员每个人都可以通过使用Amazon SageMaker JumpStart轻松入门机器学习(ML)在本文中,我们将向您展示一个大学黑客马拉松团队如何使用SageMaker JumpStart快速构建一个帮助用户识别和删除的应用程序[…]

Leave a Comment

无需编码,训练自己的LLM

介绍 生成式人工智能是一个引人入胜的领域,它承诺改变我们与技术互动和生成内容的方式,并已席卷全球。在本文中,我们将探索大型语言模型(LLMs)的迷人领域,它们的构建模块,封闭源LLMs带来的挑战以及开源模型的出现。我们还将深入探讨H2O的LLM生态系统,包括h2oGPT和LLM DataStudio等工具和框架,使个人能够在没有深入编码技能的情况下训练LLMs。 学习目标: 了解大型语言模型(LLMs)的生成式人工智能的概念和应用。 认识封闭源LLMs的挑战和开源模型的优势。 探索H2O的LLM生态系统,以实现无需深入编码技能的人工智能训练。 LLMs的构建模块:基础模型和微调 在我们深入研究LLMs的细节之前,让我们先了解生成式人工智能的概念。在以预测性人工智能为主,基于历史数据模式进行预测的同时,生成式人工智能则颠覆了这一模式。它赋予了机器从现有数据集中创建新信息的能力。 想象一下,一个机器学习模型不仅能够预测,还能生成文本、概括内容、分类信息等,这一切都来自于一个模型。这就是大型语言模型(LLMs)的作用。 LLMs采用多步骤的过程,首先是一个基础模型。这个模型需要一个庞大的数据集进行训练,通常是以TB或PB为单位的数据。这些基础模型通过预测序列中的下一个单词来学习,目的是理解数据内部的模式。 一旦建立了基础模型,下一步是微调。在此阶段,使用经过精心策划的数据集进行有监督微调,将模型塑造成所需的行为。这可能涉及训练模型执行特定任务,例如多选题选择、分类等。 第三步是强化学习与人类反馈,进一步提升模型的性能。通过使用基于人类反馈的奖励模型,模型微调其预测,使其更加贴近人类的偏好。这有助于减少噪音并提高响应的质量。 这个过程中的每一步都有助于提高模型的性能并减少不确定性。值得注意的是,基础模型、数据集和微调策略的选择取决于具体的用例。 封闭源LLMs的挑战和开源模型的崛起 封闭源LLMs,如ChatGPT、Google Bard等,已经证明了它们的有效性。然而,它们也带来了一些挑战。这些挑战包括数据隐私问题、定制和控制能力有限、高运营成本以及偶尔的不可用性。 组织和研究人员已经认识到需要更易于访问和定制的LLMs。为此,他们开始开发开源模型。这些模型具有成本效益、灵活性,并可以根据特定要求进行定制。它们也消除了将敏感数据发送到外部服务器的担忧。 开源LLMs使用户能够训练自己的模型并访问算法的内部工作原理。这个开放的生态系统提供了更多的控制和透明度,为各种应用提供了一个有希望的解决方案。 H2O的LLM生态系统:无需编码的LLM训练工具和框架 H2O是机器学习领域的一家重要参与者,他们开发了一个强大的LLM生态系统。他们的工具和框架可以在无需深入编码专业知识的情况下进行LLM训练。让我们来探索其中的一些组件。 h2oGPT h2oGPT是一个可以在自己的数据上进行训练的经过微调的LLM。最棒的部分是,它完全免费使用。通过h2oGPT,您可以尝试使用LLMs,甚至商业应用。这个开源模型使您能够探索LLMs的能力,而无需面对财务障碍。 部署工具 H2O.ai…

Leave a Comment

AWS中的生成式人工智能和多模态代理:解锁金融市场中的新价值的关键

多模态数据是金融行业的宝贵组成部分,包括市场、经济、客户、新闻和社交媒体以及风险数据金融机构生成、收集和使用这些数据来获得对金融业务的洞察,做出更好的决策和提高绩效然而,由于多模态数据的复杂性和缺乏…,存在一些挑战

Leave a Comment

生成式人工智能如何改变叙事的艺术?

介绍 自古以来,故事以其引起情感、激发创造力和传递重要信息的情节,一直吸引着我们的心灵。但如果我们能够想象,借助人工智能的力量,我们现在可以超越人类叙事的限制,让人工智能与我们共同创作故事会怎样呢?在本文中,我们将探索“生成式人工智能如何改变叙事”这个引人入胜的世界,并了解模型如何释放创造力。 学习目标 了解生成式人工智能模型背后的基本原理,以及它们如何利用上下文和模式生成连贯的叙述。 探索与人工智能共同创作叙事的过程,从构建引人入胜的提示来指导人工智能生成的内容,到动态共同创作融合人类创造力和机器建议的故事。 深入了解人工智能和人类创造力融合时正在发展的文学景观。展望一个未来,人工智能与作者合作,超越传统叙事边界,促进文化多样性,打造新的叙事范式。 本文是数据科学博客马拉松的一部分。 理解方法 人类创造力与人工智能之间的非凡互动正在改变现代叙事的创作方式。基于人工智能的故事制作概念是这一演变的核心,生成式人工智能模型成为焦点。在进入“与人工智能一起叙事”的道路之前,理解支撑这一新技术的基本思想至关重要。生成式人工智能模型的架构基于对大规模数据集的密集训练。通过接触各种文本来源,这种理解是通过模型模仿类似人类的反应并生成流畅的写作来获得的。 上下文在人工智能叙事中至关重要。这些模型不仅仅是词人,它们是有上下文的叙事者。您可以通过提示或不完整的句子来引导人工智能的创作流程,引导其生成与您愿景一致的连贯叙述。反过来,人工智能根据其训练和输入猜测最可能的下一句。将人工智能视为一位多才多艺的合作者,一位懂得语言和故事规范的助手。在创作文本时,人工智能借鉴了丰富的文学专业知识库,将单词连接起来,编织成无缝的叙事布局。机器学习和语言细微差别的结合使得人工智能能够模仿不同的写作风格、流派和语气。 此外,人工智能叙事是关于共同创作而不是作者身份。通过理解人工智能的能力并引导其输出,作家可以利用其潜力来补充和放大他们的创造力。人类创造力和机器生成的内容的这种合作创作为超越传统边界的独特叙事框架奠定了基础。 创造性合作:与人工智能共同创作叙事 人工智能为合作创作提供了前所未有的机会。“创造性合作”突出了人类作者和人工智能之间微妙的互动,两者融合在一起生成超越传统叙事界限的叙述。 打造完美的提示 作家通过构建包含人物介绍、地点、主题或情感细微差别的提示,创造了他们的想象力与人工智能建议之间的动态互动。考虑以下情景:“画中的眼睛跟随他走下去……”。人工智能检测到这个线索,并利用其训练构建与已建立上下文一致的回答。由于人类创造力和人工智能生成的信息的和谐结合,叙事之旅通过不同视角的混合而不断发展。 合著行动 考虑以下情景:您已经介绍了故事的前几行,现在是人工智能继续添加的时候了。人工智能建议下一句话,这个建议基于您已经建立的基础进行构建。这种来回交流继续,每一次互动都给叙事画布增加了一层。秘诀在于从人类写作到人工智能建议的无缝转换。在您的工作过程中,您回应人工智能的想法,将故事引向您想要的方向。这种动态互动产生了一种捕捉到人类智慧和人工智能创造力精髓的故事。 叙事的新边界:视角的融合 “创意协作”象征着叙事领域的一个新前沿,即人类作者与AI合作作者共同创建引人入胜、引发兴趣并推动想象力边界的叙事作品。随着AI模型的不断改进,创作关系变得更加深入,使作者能够探索以往被视为无法达到的流派、风格和视角。 与AI共创故事 在不断变化的叙事世界中,出现了一种迷人而具有变革性的现象:与人工智能和谐合作培育出的故事创作。 “与AI共创故事”的概念向我们介绍了一种开创性的技术,将人类想象力的卓越之处与AI的文本生成能力相结合,从而诞生出那些优雅地跨越人类和机器创造力边界的叙事作品。这种复杂地编织人类创造力和AI计算优雅的合作方法揭示了叙事演变中的一个新篇章。 短语“与AI共创故事”抓住了这个充满活力的企业的核心,其中作者不再是孤独的工匠,而是与复杂算法合作的合作者。当人类创作者和AI共同作者进行合作时,叙事作品被提升到一个新的可能领域 – 创新和传统无缝共存的领域。人类智慧和AI生成的材料的融合代表了一种范式转变,消除了创作者和创造物之间的鸿沟。当作家参与这种创意协作时,故事画布演变成一个动态的舞台,人类意图引导AI的潜力。AI生成的语言为叙事添加了新的洞察力。…

Leave a Comment

Ray与NVIDIA AI携手合作,帮助开发者构建、调优、训练和扩展生产LLM

大型语言模型的开发即将达到超音速速度,这要归功于NVIDIA和Anyscale的合作。 在其年度Ray Summit开发者大会上,Anyscale——快速增长的可扩展计算的开源统一计算框架背后的公司——今天宣布将NVIDIA AI引入Ray开源和Anyscale平台。它还将集成到Anyscale Endpoints中,这是一项今天宣布的新服务,可方便应用开发人员使用最流行的开源模型在其应用程序中以具有成本效益的方式嵌入LLMs。 这些集成可以显著加速生成式AI的开发和效率,同时提高生产AI的安全性,从专有的LLMs到诸如Code Llama、Falcon、Llama 2、SDXL等开源模型。 开发人员可以灵活选择使用Ray部署开源NVIDIA软件,或选择在Anyscale平台上运行NVIDIA AI企业软件,以进行全面支持和安全的生产部署。 Ray和Anyscale平台被广泛用于开发人员构建用于生成式AI应用程序的先进LLMs,这些应用程序可以驱动智能聊天机器人、编码协助和强大的搜索和摘要工具。 NVIDIA和Anyscale提供速度、节省和效率 生成式AI应用引起了全球企业的关注。调整、增强和运行LLMs需要大量的投资和专业知识。NVIDIA和Anyscale共同努力,可以通过多种应用集成帮助降低生成式AI开发和部署的成本和复杂性。 上周宣布的新的开源软件NVIDIA TensorRT-LLM将支持Anyscale的产品,以提高LLM的性能和效率,从而实现成本节约。在NVIDIA AI企业软件平台中也得到支持,Tensor-RT LLM可自动扩展推理以在多个GPU上并行运行模型,与上一代GPU相比,可以在运行NVIDIA H100 Tensor Core GPU时提供高达8倍的性能。 TensorRT-LLM可以自动扩展推理以在多个GPU上并行运行模型,并包括用于各种流行LLM模型的自定义GPU内核和优化。它还实现了NVIDIA H100 Tensor Core…

Leave a Comment

稳定AI引入稳定音频:一种新的人工智能模型,可以根据文本提示生成音频片段

Stability AI推出了一项突破性技术——稳定音频(Stable Audio),这标志着音频生成迈出了重要的一步。这项创新解决了从简单文本提示中创建自定义音频片段的挑战。虽然Stability AI以其文本到图像生成技术——稳定扩散(Stable Diffusion)而闻名,但现在它已经将自己的专业知识扩展到了音乐和音频领域。这一发展是在他们成功进军图像合成领域——通过引入Stable Diffusion的SDXL基础模型之后。 到目前为止,通过“符号生成”技术生成基本音频轨道是可能的,通常涉及MIDI文件。然而,稳定音频通过使用户能够创作全新的音乐作品而超越了这一点,摆脱了通常与MIDI和符号生成相关的重复音符的限制。这一成就归功于该模型与原始音频样本的直接交互,从而产生出更优质的输出。该模型的训练涵盖了来自AudioSparks库的80万多首经过许可的音乐作品,这为其出色的性能做出了贡献。这个丰富的数据集确保了高质量的音频,并提供了全面的元数据,这是基于文本的模型的一个关键因素。 与可以模仿特定艺术家风格的图像生成模型不同,稳定音频并不试图模仿像披头士乐队这样的标志性乐队。这个有意的选择源于对音乐家追求在没有严格风格限制的情况下踏上自己的创作之旅的理解。相反,稳定音频赋予用户探索他们独特音乐表达的能力。 稳定音频模型是一个拥有大约12亿参数的扩散模型,与图像生成的原始稳定扩散模型相媲美。为了生成音频,文本提示是稳定AI使用对比语言音频预训练(CLAP)技术精心制作和训练的。为了帮助用户制作有效的提示,Stability AI将与稳定音频发布同时发布一个提示指南。 稳定音频将通过免费版本和每月12美元的专业计划提供。免费版本每月可生成最多20个音频片段,每个片段长达20秒。相比之下,专业版本提高了这些限制,使用户可以生成500个片段,并将音轨时长延长到90秒。 总之,Stability AI发布的稳定音频标志着音频生成技术的新时代。该公司通过利用先进的AI技术,为将文本提示转化为原创音频片段提供了一个无缝的平台。这一创新拓展了创作表达的视野,并展示了AI驱动的音乐和音频制作解决方案的潜力。稳定音频以其可接受的价格层次,将成为有抱负和专业音频创作者的宝贵工具。

Leave a Comment

如何使内容更贴近人性化并避免AI抄袭

ChatGPT、Bard和Bing可以比尤塞恩·博尔特跑100米更快地输出人工智能生成的内容。但是,这种速度带来了问题——内容质量更接近抄袭和不可靠的领域。 另一个原因是,按照学术标准,ChatGPT从不引用其来源。它可能会产生幻觉,并凭空提取信息,这对于任何试图避免抄袭的人都没有帮助。 所以,我将展示如何使文本更人性化,以通过人工智能抄袭检测器。但首先,我将深入探讨人工智能抄袭检测器的工作原理。继续阅读以发现帮助您避免人工智能抄袭的工具以及为什么您需要它们。 解构人工智能抄袭检测器的工作原理 人工智能抄袭检测器是一种用于确定您提交的内容是否独特或由人工智能生成的工具。 当像Bard和Bing这样的聊天机器人生成用户内容时,它们经常逐字逐句地从其他网站和在线资源中提取信息。这使得它们很容易被检测出来,因为它们遵循一个预定和可预测的模型。 这是一个例句:“太阳在_____中照耀明亮。” 在上面的例子中,最有可能的延续是“早晨”,因为太阳照耀与早晨有关。这是一个创造力有限的机器人会想到的。然而人类可能会说:“太阳在夜晚中照耀明亮”,因为他们生活在北半球或者他们正在探索前卫的创造力。 这就是人工智能检测器和抄袭检测器的核心工作原理。 首先,人工智能抄袭检测器尝试预测内容的复杂性和爆发性。 复杂性衡量了普通用户理解输出的能力。具有高复杂性的内容通常是人类生成的。即使您使用高级提示和插件,人工智能内容听起来也很平淡和重复。 同样,爆发性指的是句子长度和节奏的变化。人工智能生成的内容中的句子通常具有可预测的节奏和长度。 当人类写作时,爆发性很高,因为我们可以陷入冗长来使我们的观点更清晰和更直接,就像我现在用这个句子一样。 有时候,我们会简单表达。 然而,人工智能内容生成器通常产生一个恒定的句子节奏。如果不是这样,它们会用废话填充句子的其余部分。 凭借这些变量(复杂性和爆发性)和其他技术考虑因素,人工智能抄袭检测工具可以检测到由机器人或非人类虚拟助手编写的文章。 但是存在一个问题。 在线使用人工智能抄袭检测器并不能可靠地测试作品的独特性。其中一些工具是不可靠的——我们甚至不知道它们的创建者或算法背后的情况。 此外,有时候人工智能检测器会产生误报,可能会破坏无辜受害者的声誉。甚至大学都担心这些虚假的抄袭标志。 但是,与其花时间为一个根本没有发生的抄袭案辩护,不如向您展示如何绕过人工智能抄袭检测。 如何避免人工智能抄袭 与其完全避免使用人工智能并错过其无数的好处,不如使用以下技巧来克服其局限性: 消除词语重复 使用人工智能生成内容后,编辑结果并删除重复内容。 首先,您不希望您的文本读起来像一个在写作过程中已经没有了思路,只想达到指定字数的高中学生。…

Leave a Comment

《解读德勤的“生成式AI档案”》

在最近几年,人工智能领域随着生成式人工智能的出现而经历了一次飞跃生成式人工智能以其产生新颖的输出能力而闻名,无论是文本、图像,甚至是代码,生成式人工智能都不仅仅是另一种技术趋势 – 它正在迅速塑造企业的思维、运营和创新方式在前沿…

Leave a Comment

英伟达支持华盛顿努力确保人工智能安全

在白宫的一次活动中,NVIDIA宣布支持拜登政府制定的自愿承诺,以确保先进的人工智能系统安全、可靠和值得信赖。 同一天,NVIDIA首席科学家比尔·戴利在美国参议院的一个小组委员会上作证,寻求有关涵盖生成式人工智能的潜在立法的意见。此外,NVIDIA创始人兼首席执行官黄仁勋将于周三与参议院全体成员参加一场针对人工智能的闭门会议,与其他行业领袖共同出席。 包括Adobe、IBM、Palantir和Salesforce在内的七家公司与NVIDIA一起支持了拜登-哈里斯政府于7月发布的八项协议,这些协议得到了亚马逊、Anthropic、Google、Inflection、Meta、Microsoft和OpenAI的支持。 白宫表示,这些承诺旨在在制定监管规定之前推进共同标准和最佳实践,以确保生成式人工智能系统的安全。它们包括: 在部署之前测试人工智能产品的安全性和功能; 保护人工智能模型免受网络和内部威胁; 利用人工智能帮助解决从癌症到气候变化等社会最大的挑战。 戴利分享NVIDIA的经验 在他的证词中,戴利告诉参议院小组委员会,政府和行业应该在鼓励人工智能创新与确保模型的负责部署之间取得平衡。 该小组委员会的听证会“人工智能的监督:人工智能规则”是世界各地政策制定者试图识别和解决生成式人工智能潜在风险的行动之一。 今年早些时候,该小组委员会听取了Anthropic、IBM和OpenAI等领导人以及学术界人士(如被认为是人工智能奠基人之一的蒙特利尔大学教授Yoshua Bengio)的证词。 戴利是NVIDIA研究部门全球300多人的领导者,周二与微软总裁兼副主席布拉德·史密斯共同出席作证。戴利的证词简要概括了NVIDIA在过去二十年中在人工智能进化中的独特角色。 加速计算引发人工智能 他描述了NVIDIA如何在1999年发明了GPU作为图形处理单元,然后在2006年通过CUDA编程软件使其适应更广泛的并行处理角色。随着时间的推移,各个科学和技术计算领域的开发人员发现这种新形式的加速计算可以显著推进他们的工作。 在此过程中,研究人员发现GPU也非常适合于人工智能的神经网络,因为它们需要大规模的并行处理。 2012年,经过在两个NVIDIA GPU上训练,AlexNet模型展示出类似人类的图像识别能力。这一结果帮助推动了使用GPU取得了十年的快速进展,导致了ChatGPT和其他数亿人使用的生成式人工智能模型。 戴利说,今天,加速计算和生成式人工智能展示了改变行业、应对全球挑战并深刻造福社会的潜力。 人工智能的潜力和限制 戴利在书面证词中提供了人工智能如何使专业人士在商业、医疗保健和气候科学等不同领域比他们想象中更好地完成工作的例子。 像任何技术一样,人工智能产品和服务存在风险,并受到旨在减轻这些风险的现有法律和法规的约束。 行业在负责任地部署人工智能方面也发挥着作用。当开发人员训练人工智能模型并定义其输出时,他们会为模型设定限制。 戴利指出,NVIDIA于4月发布了NeMo Guardrails,这是开源软件开发人员可以用来指导生成式人工智能应用程序生成准确、适当和安全的文本响应的软件。他还表示,NVIDIA还制定了内部风险管理指南,用于管理人工智能模型。…

Leave a Comment

“文本转语音 – 训练您的大型语言模型”

介绍 想象一个世界,人工智能可以接受音乐家的语音指令,并将其转化为美妙的、旋律优美的吉他声音。这不是科幻小说,而是源自于开源社区“AI之声”的突破性研究。在本文中,我们将探讨在生成式人工智能吉他声音的“文本到声音”领域创建大型语言模型(LLM)的旅程。我们将讨论所面临的挑战以及为实现这个愿景所开发的创新解决方案。 学习目标: 了解在“文本到声音”领域创建大型语言模型的挑战和创新解决方案。 探索在开发基于语音指令生成吉他声音的人工智能模型时面临的主要挑战。 深入了解使用ChatGPT和QLoRA模型等人工智能进展改进生成式人工智能的未来方法。 问题陈述:音乐家的意图识别 问题是使人工智能能够根据音乐家的语音指令生成吉他声音。例如,当音乐家说“给我你明亮的吉他声音”时,生成式人工智能模型应该理解意图并产生明亮的吉他声音。这需要上下文和领域特定的理解,因为像“明亮”这样的词在一般语言中有不同的含义,但在音乐领域代表特定的音色质量。 数据集挑战和解决方案 训练大型语言模型的第一步是拥有与模型的输入和期望输出相匹配的数据集。在确定正确的数据集以训练我们的LLM以理解音乐家的指令并以正确的吉他声音作出回应时,我们遇到了几个问题。以下是我们如何处理这些问题。 挑战1:吉他音乐领域数据集准备 一个重大的挑战是缺乏特定于吉他音乐的可用数据集。为了克服这个问题,团队不得不创建自己的数据集。这个数据集需要包括音乐家之间讨论吉他声音的对话,以提供上下文。他们利用了Reddit的讨论等资源,但发现需要扩大这个数据池。他们采用了数据增强、使用BiLSTM深度学习模型和生成基于上下文的增强数据集等技术。 挑战2:数据注释和创建标记数据集 第二个挑战是对数据进行注释以创建一个带有标签的数据集。像ChatGPT这样的大型语言模型通常在通用数据集上进行训练,需要对特定领域的任务进行微调。例如,“明亮”可以指光线或音乐质量。团队使用了一种名为Doccano的注释工具,教会模型正确的上下文。音乐家为乐器和音色质量给数据打上了标签。由于需要领域专业知识,注释工作具有挑战性,但团队通过应用主动学习方法对数据进行自动标注来部分解决了这个问题。 挑战3:建模作为机器学习任务-命名实体识别(NER)方法 确定正确的建模方法是另一个障碍。它应该被视为识别主题还是实体?团队确定了命名实体识别(NER)方法,因为它使模型能够识别和提取与音乐相关的实体。他们采用了spaCy的自然语言处理流水线,利用了HuggingFace的RoBERTa等转换器模型。这种方法使生成式人工智能能够在音乐领域中识别像“明亮”和“吉他”这样的词的上下文,而不是它们的一般含义。 模型训练的挑战和解决方案 模型训练对于开发有效和准确的人工智能和机器学习模型至关重要。然而,它通常会带来一些挑战。在我们的项目背景下,当我们训练我们的转换器模型时,我们遇到了一些独特的挑战,我们不得不找到创新的解决方案来克服这些挑战。 过拟合和内存问题 在模型训练过程中,我们遇到的主要挑战之一是过拟合。过拟合是指模型过于专注于拟合训练数据,导致在未见或真实世界数据上表现不佳。由于我们的训练数据有限,过拟合是一个真正的问题。为了解决这个问题,我们需要确保我们的模型能够在各种真实世界场景中表现良好。 为了解决这个问题,我们采用了数据增强技术。我们创建了四个不同的测试集:一个用于原始训练数据,另外三个用于在不同上下文中进行测试。在基于内容的测试集中,我们改变了整个句子,而在基于上下文的测试集中保留了音乐领域的实体。使用未见过的数据集进行测试也对验证模型的鲁棒性起到了至关重要的作用。 然而,我们的旅程并不没有遇到与内存相关的障碍。使用流行的自然语言处理库spaCy训练模型会引发内存问题。最初,由于内存限制,我们仅为评估分配了2%的训练数据。将评估集扩大到5%仍然导致内存问题。为了解决这个问题,我们将训练集分成了四部分并分别进行训练,既解决了内存问题又保持了模型的准确性。 模型性能和准确性 我们的目标是确保模型在实际场景中表现良好,并且我们所达到的准确性不仅仅是由于过拟合造成的。由于在广泛的数据上进行了预训练的大型语言模型RoBERTa,训练过程非常快速。spaCy进一步帮助我们找到了适合我们任务的最佳模型。 结果是令人鼓舞的,准确率始终超过95%。我们使用了各种测试集进行了测试,包括基于上下文和基于内容的数据集,结果准确率令人印象深刻。这证实了尽管训练数据有限,模型学习能力快速。…

Leave a Comment

强化学习与高性能决策制定:策略与优化

介绍 从人类因素/反馈中进行强化学习(RLHF)是一个新兴领域,它将RL的原则与人类反馈相结合。它将被设计用于优化决策和增强实际复杂系统的性能。高性能的RLHF侧重于通过利用计算模型和数据驱动方法来改善各个领域的设计、易用性和安全性,从而理解人类行为、认知、环境、知识和互动。 RLHF旨在通过将RL算法与人类因素原则结合起来,弥合以机器为中心的优化和以人为中心的设计之间的差距。研究人员试图创建适应人类需求、喜好和能力的智能系统,最终增强用户体验。在RLHF中,计算模型模拟、预测和指导人类反应,使研究人员能够洞察个体如何做出明智决策并与复杂环境互动。想象一下将这些模型与强化学习算法相结合!RLHF旨在优化决策过程,提高系统性能,并在未来几年增强人机协作。 学习目标 了解RLHF的基本原理及其在以人为中心的设计中的重要性是第一步。 探索在各个领域中优化决策和性能的RLHF应用。 识别与RLHF相关的关键主题,包括强化学习、人类因素工程和自适应界面。 认识知识图在促进数据整合和洞察RLHF研究和应用中的作用。 RLHF:革新以人为中心的领域 以人类因素为基础的强化学习(RLHF)有潜力改变人类因素至关重要的各个领域。它利用对人类认知限制、行为和互动的理解,创建了适应性界面、决策支持系统和个性化辅助技术,从而提高效率、安全性和用户满意度,促进了全行业的采用。 在RLHF的持续发展中,研究人员正在探索新的应用,并解决将人类因素整合到强化学习算法中的挑战。通过结合计算模型、数据驱动方法和以人为中心的设计,RLHF为先进的人机协作和优化决策、提高性能的智能系统铺平了道路,适用于各种复杂的实际场景。 为什么选择RLHF? RLHF对于医疗保健、金融、交通、游戏、机器人技术、供应链、客户服务等各个行业都非常有价值。RLHF使得AI系统能够以更符合人类意图和需求的方式学习,使得在各种实际应用案例和复杂挑战中,使用起来更加舒适、安全和有效。 RLHF的价值在哪里? 使AI在复杂环境中发挥作用是RLHF的能力,在许多行业中,AI系统操作的环境通常是复杂且难以准确建模的。而RLHF允许AI系统从人类因素中学习,并适应这些复杂情景,传统方法在效率和准确性方面无法满足。 RLHF促进负责任的AI行为,以与人类价值观、道德和安全一致。对这些系统的持续人类反馈有助于防止不良行为。另一方面,RLHF通过纳入人类因素、判断、优先级和偏好的方式,提供了指导代理学习过程的替代方法。 提高效率并降低成本在某些场景下,需要通过使用知识图或训练AI系统进行大量的试错。在特定情况下,这两种方法都可以在动态环境中快速采用。 实时适应的RPA和自动化在大多数行业中,已经使用了RPA或一些自动化系统,这些系统要求AI代理在快速变化的情况下迅速适应。RLHF通过人类反馈帮助这些代理实时学习,提高性能和准确性,即使在不确定的情况下也能做到。我们将这称为“决策智能系统”,RDF(资源开发框架)甚至可以将语义Web信息带入同一系统,有助于做出明智的决策。 数字化专业知识:在每个行业领域,专业知识都是至关重要的。借助RLHF的帮助,AI系统可以从专家知识中学习。同样,知识图和RDF允许我们将这些来自专家演示、流程、解决问题的事实和判断能力的知识数字化。RLHF甚至可以有效地将知识传递给代理。 根据需求进行定制:持续改进是AI系统通常在实际场景中运行的重要考虑因素之一,它们可以从用户和专业人士那里获得持续的反馈,使得AI能够根据反馈和决策不断改进。 RLHF的工作原理 RLHF通过将人类知识与强化学习技术相结合,填补了机器学习和人类专业知识之间的差距,使得AI系统在准确性和效率上更易于采用。 人类反馈强化学习(RLHF)是一种机器学习方法,通过将人类提供的反馈融入学习过程中,提高了AI智能体的训练效果。RLHF解决了传统强化学习在模糊的奖励信号、复杂的环境或需要将AI行为与人类价值观保持一致的挑战。 在RLHF中,AI智能体与环境进行交互并接收奖励反馈。然而,这些奖励可能不足、噪声干扰或难以准确定义。人类反馈对于有效引导智能体的学习至关重要。这种反馈可以采用不同的形式,例如明确的奖励、期望行为的演示、比较、排名或定性评估。 智能体通过调整其策略、奖励函数或内部表示来将人类反馈融入学习过程中。反馈和学习的融合使得智能体能够改进其行为、从人类专业知识中学习并与期望的结果保持一致。挑战在于在保持人类偏好的前提下,平衡探索(尝试新动作)和利用(选择已知动作)以有效学习。…

Leave a Comment

表意文字如何革新文本到图像的转换?超越DALL-E和Midjourney的人工智能平台生成字母

人工智能在近年来取得了显著的进展,其中文本到图像生成是一个特别感兴趣的领域。总部位于多伦多的人工智能初创公司Ideogram最近推出了其平台,旨在在生成式文本到图像技术的竞争领域中留下自己的印记。 这一领域的知名公司包括DALL-E、Midjourney和Adobe Firefly。这些平台在从文本提示生成图像方面设定了很高的标准,并因其对基于人工智能的创造力做出的贡献而广受认可。 Ideogram由一支在知名机构从事人工智能项目并具有丰富经验的行业老将团队领导。该团队强调Ideogram通过人工智能来推动创造力的民主化,同时保持高水平的信任和安全标准。 Ideogram提供与其他成熟平台类似的功能。用户可以通过使用Google电子邮件地址注册来将文本提示转换为图像。注册后,他们可以输入提示并选择从各种渲染风格中生成图像,如动漫、黑暗奇幻或涂鸦。该平台提供三种分辨率的选项,并根据输入提示和所选风格提供四种结果。用户可以通过重组这些生成的图像并添加或删除提示和技术来自定义它们。 Ideogram的一个显著特点是其生成字母的能力,这使其与Midjourney和DALL-E等文本到图像工具有所区别。虽然实现这一点需要多次尝试,但用户可以至少期望得到一个令人满意的结果。通过重新组合所选择的结果,可以轻松地获得更多拼写正确的结果。然而,和竞争对手一样,Ideogram也存在一些不足之处。用户可能会遇到奇怪的手和脸部渲染、不真实的线条和颜色以及偶尔的拼写错误。 所以,现在让我们来试试吧: 步骤 1:前往https://ideogram.ai/ 步骤 2:使用免费账户注册 步骤 3:成功登录后,您将看到下面的屏幕 步骤 4:输入您的提示以创建内容,并选择下面的标签。 步骤 5:观看下面的视频进行演示

Leave a Comment

使用Amazon SageMaker JumpStart,利用生成式AI和RAG构建安全的企业应用程序

在这篇文章中,我们使用AWS Amplify构建了一个安全的企业应用程序,该应用程序调用了Amazon SageMaker JumpStart基础模型、Amazon SageMaker端点和Amazon OpenSearch服务,以解释如何创建文本到文本或文本到图像以及检索增强生成(RAG)您可以使用本文作为参考,使用AWS服务在生成AI领域构建安全的企业应用程序

Leave a Comment

认识SMPLitex:一种用于从单张图像估计3D人体纹理的生成AI模型和数据集

在不断发展的计算机视觉和图形领域中,一个重要的挑战是从2D图像中创建逼真的3D人体表示。这不仅仅是技术上的障碍,也是从沉浸式虚拟环境到高级视频编辑等众多应用的入口。为了应对这一挑战,研究团队提出了一种突破性的解决方案,称为“SMPLitex”。该研究深入探讨了问题本身、提出的方法论、其复杂性以及SMPLitex的出色性能。 从单个图像中创建3D人体表示是计算机图形和计算机视觉中的一个长期愿景。虽然我们在捕捉3D形状方面取得了重大进展,但赋予物体逼真外观的纹理仍然是一个艰巨的领域。想象一下,只需拍摄一个人的单张照片,就能够重新创建他们的3D形状和详细的皮肤纹理、服装甚至配饰。这正是SMPLitex研究团队要解决的挑战。 在深入研究SMPLitex之前,了解现有方法及其局限性是至关重要的。传统方法通常依赖于耗时的手动纹理映射或3D扫描等工艺,这对于现实世界的应用来说可能更具可扩展性。这些方法在处理被遮挡或不完整的被拍摄对象时也会遇到困难,限制了它们的实用性。 研究团队通过引入SMPLitex,一种从单个图像中估计和操作完整3D人体外观的革命性方法,迈出了大胆的一步。SMPLitex的独特之处在于将最初设计用于2D图像的生成模型集成到3D领域中。关键创新在于根据输入图像建立像素到表面的对应关系,然后用于重建3D纹理。 该方法的核心是一种专门设计用于完整3D人体外观的生成模型。该模型经过广泛训练,学习了人体纹理在3D空间中的表现方式。但真正的魔力发生在该模型基于输入图像中可见部分的条件下。 通过计算出令人瞩目的精确的像素到表面的对应关系,将2D图像映射到其3D对应物。通过利用这种对应关系,SMPLitex可以生成一个完整的3D纹理映射,忠实地呈现被拍摄对象的外观。生成模型对图像中可见部分的适应性确保了即使在处理部分遮挡的对象时,SMPLitex也能产生逼真的3D纹理。 SMPLitex不仅承诺实现范式转变,而且实现了。研究团队在三个公开可用的数据集上进行了严格的定量和定性评估。结果令人惊叹,SMPLitex在人体纹理估计方面显著优于现有方法,展示了其强大的能力。 SMPLitex的一个突出特点是其多功能性。它在准确的纹理估计方面表现出色,并为更广泛的任务打开了大门。从编辑和合成到操作,SMPLitex可以无缝地将3D纹理集成到各种应用中,丰富了计算机图形和计算机视觉领域。 总之,SMPLitex代表了从单个图像中提取逼真的3D人体纹理的巨大进步。通过弥合2D图像和逼真3D重建之间的差距,该方法具有巨大的潜力。其潜在应用涵盖了娱乐、游戏、医疗保健和时尚等各个领域。SMPLitex展示了未来捕捉3D人体外观就像拍照一样简单的前景,研究团队的创新为更具沉浸感的体验、增强内容创作以及新的计算机视觉和图形领域铺平了道路。 随着技术的进步,我们只能期待像SMPLitex这样的方法所能带来的令人难以置信的可能性。将生成模型和精确的像素到表面对应相结合,可以彻底改变行业,并重新定义我们与人体形态的数字表示的互动。由于SMPLitex及其有远见的研究团队,从2D到3D的旅程迈出了重要的一步。

Leave a Comment