Press "Enter" to skip to content

四海吧 Posts

见面 MetaGPT:将GPT转化为工程师、建筑师和经理的开源AI框架

基于大型语言模型(LLMs)的多agent系统具有模拟和改进人类操作的特殊机会。然而,最近的研究表明,当前系统在现实应用中的复杂性中有时需要更准确。这些系统主要需要通过口头和基于工具的交流来促进建设性的协作,这在生成连贯的交流、减少反生产性的反馈循环和促进有益的协作交互方面存在困难。对于多方面的过程来说,有良好结构化的标准化操作程序(SOPs)是必要的。对现实世界实践的全面认识和整合至关重要。 解决这些常见限制并将这些见解纳入LLM-based多agent系统的设计和结构以提高其效力和应用至关重要。此外,通过广泛的集体实践,人们在各个领域已经建立了广泛认可的SOPs。这些SOPs对于促进有效的工作拆分和协调至关重要。例如,软件工程中的瀑布流程为需求分析、系统设计、编码、测试和可交付物建立了逻辑步骤。 借助这种共识工作流程,几个工程师可以有效地合作。此外,人类职位具有适合其工作的专业知识:软件工程师利用其编程技能来创建代码,而产品经理利用市场研究来确定客户需求。协作偏离了典型的输出,并变得杂乱无章。例如,产品经理必须进行全面的竞争研究,对用户需求、市场趋势和竞争产品进行研究以推动开发。这些分析必须紧接着创建具有清晰的、标准化格式和优先目标的产品需求文档(PRDs)。 这些规范性的工件对于推进复杂的、多样化的项目,需要各种角色的相关贡献,是必不可少的。它们凝聚了共同的理解。因此,使用组织良好的文档、报告和显示依赖关系的图形是至关重要的。在这项研究中,来自DeepWisdom、厦门大学、香港中文大学深圳分校、南京大学、宾夕法尼亚大学和加州大学伯克利分校的研究人员介绍了MetaGPT,这是一个具有基于SOPs的实用知识的开创性多agent框架。首先,他们使用描述其职责的职位名称来标识每个agent。这使得系统能够以正确的角色特定提示前缀初始化。这样,不再需要笨拙的角色扮演线索,而是将领域知识融入到agent定义中。其次,他们审查有效的人类过程,提取用于群体项目所需的SOPs的过程知识。 这些SOPs在agent架构中使用基于角色的操作规范进行编码。第三,为了促进信息交流,agent创建标准化的操作输出。MetaGPT通过形式化人类专家交流的工件,简化了相互依赖的工作之间的协调。agent通过共享环境相连接,这个环境提供有关活动和工具资源的洞察力。所有agent之间的通信都包含在这个环境中。它们还提供了一个全局内存池,存储所有合作记录,允许任何agent订阅或搜索所需的数据。agent可以从这个内存池中检索以获取更多上下文。 与通过对话被动吸收信息相反,这种架构使agent能够主动观察和提取相关信息。这个环境模拟了鼓励团队合作的实际工作场所中的系统。他们展示了协作式软件开发工作流程和相关的代码实现实验,涵盖了小游戏的开发和更复杂的大系统的生产,以说明他们的架构的效力。MetaGPT管理的软件复杂性远远超过GPT-3.5或其他开源框架如AutoGPT和AgentVerse,以产生的代码行数来衡量。 此外,MetaGPT通过自动化的端到端过程生成高质量的需求文档、设计工件、流程图和接口规范。这些中间标准化的输出极大地增加了最终代码执行的成功率。借助自动生成的文档,人类开发者可以迅速学习和提高他们的专业知识,以进一步改进他们的需求、设计和代码。它还实现了更复杂的人工智能与人类的互动。总之,他们通过对不同软件项目进行广泛的研究来验证MetaGPT。 通过定量的代码生成基准和整体过程输出的定性评估,展示了MetaGPT基于角色的专家agent合作范式所带来的可能性。总结起来,他们主要做出了以下贡献: • 设计了一种新的元编程机制,包括角色定义、任务分解、流程标准化和其他技术设计。 • 他们提出了MetaGPT,这是一种基于LLM的多代理协作框架,将人类的标准操作规程编码到LLM代理中,从根本上扩展了复杂问题解决的能力。 • 他们使用AutoGPT、AgentVerse、LangChain和MetaGPT对开发CRUD2代码、基本数据分析任务和Python游戏进行了广泛的测试。 通过采用标准操作规程,MetaGPT可以创建复杂的软件。总体研究结果表明,MetaGPT在代码质量和符合预期流程方面显著优于竞争对手。

Leave a Comment

“稳定人工智能公司危机——关键人物在CEO争议中辞职!”

总部位于伦敦的初创公司Stability AI Ltd.曾以其开创性的稳定扩散人工智能模型令科技界为之惊叹。但最近的事件让这家公司的成功故事蒙上了阴影。一系列高管离职和对首席执行官信誉的担忧,在这个以雄心勃勃的创新为驱动力的行业引起了不确定性的波澜。本文将深入探讨Stability AI的动荡之旅。让我们揭开它在人工智能领域竞争激烈的舞台上所面临的挑战。 还可阅读:人工智能激增:Stability AI首席执行官预计印度开发者将在2年内失去工作 崛起的明星:早期的胜利 Stability AI凭借其胜利而一举成名,乘着其稳定扩散人工智能模型的成功浪潮。这种人工智能模型可以根据文本提示创建出惊人逼真的图像,使公司备受赞叹。凭借超过1亿美元的融资和来自科技巨头的顶尖专业人才团队,Stability AI的未来似乎注定要取得辉煌成就。 还可阅读:潜在扩散模型的力量:革新图像创作 开源方式:双刃剑 区别于其他公司的一个吸引人的特点是Stability AI致力于开源软件。这一策略吸引了来自亚马逊、谷歌和Adobe等科技巨头的优秀工程师和科学家。然而,随着科技行业充斥着人工智能初创公司,Stability AI必须在时间紧迫的情况下实现其雄心勃勃的计划。竞争激烈,公司的发展步伐必须与人工智能狂热相匹配,以保持竞争力。 还可阅读:Meta将所有有前途的项目开源 | 找出原因 泡沫破裂:炒作周期达到平台期 Stability AI崛起的狂热氛围在最近几个月逐渐消退。一波高管,包括首席运营官和研究主管,离开了公司,引发了人们对公司稳定性的质疑。曾经充满活力的乐观情绪随着竞争对手的大量融资而受挫,而Stability AI则难以以期望的估值筹集资金。在这种动荡中,未支付账单的指控和法律纠纷增加了公司的挑战。 还可阅读:谷歌担心开源社区在语言模型竞赛中超越科技巨头 首席执行官的个人魅力和声明 该公司的首席执行官Emad…

Leave a Comment

肿瘤起源解码:麻省理工学院和达纳-法伯研究人员利用机器学习分析基因序列

在麻省理工学院(MIT)和丹娜-法伯癌症研究所之间的一项开创性合作中,研究人员利用机器学习的力量解决了癌症治疗中的一个棘手难题。对于一小部分癌症患者来说,其恶性肿瘤的起源仍然是一个谜团,使得选择合适的治疗方法变得复杂。一种通过机器学习开发的计算模型,以全新的方法解码这个谜团,并为更有效的个体化治疗铺平了道路。 传统的癌症治疗策略通常依赖于针对癌症起源的特定药物,使精确药物非常有效。然而,在大约3至5%的病例中,癌症已经扩散到全身,确定疾病的来源成为一项艰巨的任务。这些病例被归类为未知原发癌(CUP),长期以来困扰着肿瘤科医生,导致受影响患者的精确治疗选择有限。 麻省理工学院和丹娜-法伯的研究人员设计了一种强大的计算模型,通过仔细分析大约400个常见癌症相关基因的遗传序列来构建。这个机器学习驱动的模型熟练地检查基因序列,并准确预测肿瘤的起源。他们的研究结果展示了一个显着的成功率:该模型以高置信度正确分类了超过40%的肿瘤,为根据预测的癌症起源进行个体化治疗开辟了途径。 研究团队强调了他们的模型在辅助治疗决策中的关键贡献。通过有效地引导医生为CUP患者提供个体化治疗,该模型为那些从癌症起源中苦苦寻找答案的人带来了希望。 研究团队利用近3万名被诊断为22种不同癌症类型的患者的遗传序列构建了一个庞大的数据集,以开发他们的模型。这一训练阶段使得机器学习模型OncoNPC能够在未知肿瘤上以惊人的80%准确率预测癌症的起源。对于高置信度的预测,准确度提高到了约95%。 将他们的模型应用于测试,研究人员分析了丹娜-法伯的约900个CUP患者的数据集。令人惊讶的是,该模型自信地预测了这些肿瘤中40%的起源,这在癌症治疗个体化方面取得了重大进展。 通过与常染色体突变分析进行比较,该模型的预测得到了进一步的证实,常染色体突变分析是一种揭示特定癌症遗传易感性的方法。令人鼓舞的是,该模型的预测与基于常染色体突变的最强预测癌症类型密切吻合。 除了预测准确性,该模型的潜在临床影响也是明显的。CUP患者的生存时间与该模型的预后相关,预测为预后较差的癌症类型的患者生存时间较短。值得注意的是,接受与该模型预测相符的治疗的患者的疗效要好于接受针对不同癌症类型的治疗的患者。 也许最有希望的方面是,该模型确定了额外15%的患者(增加了2.2倍),如果他们的癌症类型已知,可能会受益于现有的靶向治疗。这一突破为更广泛地采用精确疗法打开了大门,从而充分发挥已有治疗的潜力。 展望未来,研究人员计划通过融合病理学和放射学图像等多种肿瘤分析模态来改进他们的模型。涵盖肿瘤分析的多个方面不仅可以提高预测准确性,还可以指导治疗选择,开启个性化癌症护理的新时代。随着技术与医学科学之间的合作加强,患者在与癌症起源的斗争中将迎来更加充满希望的未来。

Leave a Comment

“AI 聆听您的按键:一种新的数据安全威胁”

由伦敦大学、杜伦大学和萨里大学的研究人员开发的一种开创性的人工智能系统将数据安全问题提升到了一个新的水平。这种尖端算法可以通过音频记录窃听您的键盘,仅凭声音录音就能解读您的打字。本文深入探讨了这种人工智能创新的工作原理、潜在风险以及如何保护自己免受这种新型数据安全威胁。 还可以阅读:OpenAI领导人谈论人工智能的风险,提出治理方法 人工智能键盘窃听突破 研究人员利用人工智能的力量通过音频记录来监听按键。他们的人工智能模型在MacBook Pro键盘上进行了测试,准确率达到了93-95%。这意味着该算法可以通过分析按键所产生的声音准确地检测出哪些键被按下。 声学侧信道攻击的兴起 该研究强调了手机和笔记本等日常设备中麦克风的普及性。曾经被认为无害的这些麦克风现在可以被用于声学侧信道攻击。虽然以前存在基于音频的按键检测尝试,但这种基于人工智能的方法将精度提升到了一个新的水平,甚至超过了硬件方法。 还可以阅读:FraudGPT:AI驱动的网络犯罪工具的惊人崛起 音频算法的运作方式 研究人员首先对MacBook Pro键盘上的每个按键按下的声音进行了25次录制,并记录了音频样本。然后他们将这些音频样本转换成频谱图,这些频谱图是声音频率随时间变化的可视化表示。人工智能模型经过训练,可以识别与这些频谱图中的各种按键相关的独特模式。 释放人工智能的按键预测 在对成千上万个音频片段进行训练后,人工智能模型变得善于辨识每个按键的独特声学特征。当应用于新的音频记录时,人工智能可以准确地预测按键。在MacBook Pro键盘上进行训练时,该算法在测试中达到了93-95%的准确率。 数据安全问题和保护措施 尽管这种人工智能的进步提供了令人难以置信的见解,但它也带来了严重的安全风险。攻击者可能会窃取敏感信息,如密码和消息。防范这种威胁的方法包括改变打字风格、在扬声器上播放声音、使用触摸屏键盘或修改键盘的声学特性,使人工智能模型失效。 还可以阅读:4家科技巨头——OpenAI、谷歌、微软和Anthropic联合保障安全人工智能 我们的观点 人工智能突破了计算机可以根据音频记录解读您的按键的能力,这是令人惊讶和令人担忧的。它突显了数据安全威胁不断演变的现实,并展示了人工智能揭示新形式信息的力量。随着技术的进步,保护数据隐私需要创新的策略来对抗新出现的漏洞。在我们拥抱人工智能的潜力的同时,我们也必须致力于加强保护我们敏感信息免受窥探的防线。

Leave a Comment

UCLA研究人员推出GedankenNet:一种自我监督的AI模型,从物理定律和思维实验中学习,推动计算成像的发展

近年来,深度学习的最新进展对计算成像、显微镜和全息成像相关领域产生了重大影响。这些技术在生物医学成像、传感、诊断和3D显示等各个领域都有应用。深度学习模型在图像翻译、增强、超分辨率、去噪和虚拟染色等任务中展示出了非凡的灵活性和有效性。它们已成功应用于各种成像模式,包括明场和荧光显微镜;深度学习的整合正在重新塑造我们对微观尺度复杂世界的理解和能力。 在计算成像中,主流技术主要采用监督学习模型,需要大量带有注释或基准实验图像的数据集。这些模型通常依赖于通过各种方法获取的带标签的训练数据,例如经典算法或来自不同成像模式的注册图像对。然而,这些方法存在一些限制,包括繁琐的训练图像获取、对齐和预处理,以及可能引入推断偏差。尽管通过无监督和自监督学习来解决这些挑战的努力,但对实验测量或样本标签的依赖仍然存在。虽然一些尝试已经使用带标签的模拟数据进行训练,但准确表示实验样本分布仍然复杂,并且需要对样本特征和成像设置有先验知识。 为了解决这些固有问题,加州大学洛杉矶分校Samueli工程学院的研究人员引入了一种名为GedankenNet的创新方法,它提出了一种革命性的自监督学习框架。这种方法消除了对标记或实验训练数据以及任何与现实样本的相似性的需求。通过基于物理一致性和人工随机图像进行训练,GedankenNet克服了现有方法所面临的挑战。它为全息重建建立了一个新的范式,为在各种显微镜、全息术和计算成像任务中常用的监督学习方法的局限性提供了一个有前途的解决方案。 GedankenNet的架构由一系列空间傅里叶变换(SPAF)块组成,通过残差连接相互连接,有效捕捉空间和频率域信息。通过整合物理一致性损失函数,该模型在全息重建过程中强制执行波动方程的一致性,从而产生物理准确的复杂场输出。这种独特的训练策略使得GedankenNet能够在合成和实验全息图像上具有出色的泛化能力,即使面对未见样本、轴向散焦和光照波长的变化。 a)插图描述传统的迭代全息重建技术、自监督深度神经网络GedankenNet和现有的监督深度神经网络。| b)GedankenNet用于全息重建的自监督训练过程。 性能评估显示,GedankenNet在全息重建方面具有出色的能力。通过结构相似性指数(SSIM)、均方根误差(RMSE)和误差校正系数(ECC)等定量指标,GedankenNet在各种全息图像集上始终优于传统的监督技术。值得注意的是,GedankenNet的物理一致性损失有效地减轻了非物理性伪影,从而实现了更锐利和更准确的重建。模型与波动方程的兼容性进一步增强了其性能,使其能够通过正确的波动传播从散焦全息图中恢复高质量的物体场。这些发现突显了GedankenNet在外部推广方面的优越性,使其能够以出色的保真度处理新颖的实验数据和仅相位样本。 总体而言,加州大学洛杉矶分校研究团队的GedankenNet代表了计算成像和显微镜领域的一个开创性进展。通过采用自监督学习的力量和以物理为基础的思想实验,GedankenNet为训练神经网络模型提供了一种新的方法。这种创新方法不仅克服了当前监督学习技术的局限性,还为各种计算成像任务提供了更加多样化、与物理相容且易于训练的深度学习模型的途径。这一突破将极大地加速显微镜领域的进步,促进更广泛的应用和对微观世界的更深入的认识。

Leave a Comment

谷歌增加了AI驱动的语法检查功能:学习如何激活它

谷歌悄然推出了一项新工具,正在网络世界中掀起波澜,旨在提升你的语言水平。谷歌搜索现在提供了一款基于人工智能的语法检查器,进入了由Grammarly等主导的领域。这个工具可以实时检测和修正语法错误,确保你的句子尽可能地流畅。以下是关于这一隐藏功能以及如何使用的幕后秘密。 另请阅读:谷歌宣布在Gmail中推出“帮我写”功能-如何使用? 语法大师:谷歌的基于人工智能的语法检查器 想象一下,你的指尖有一个数字校对员,扫描你的句子,找出语法错误。这正是谷歌的新语法检查器带来的。这个工具分析你的短语和句子的结构,提供便捷的建议,以消除任何瑕疵。 激活魔法:揭开语法检查器的面纱 激活这个时尚的语法检查功能非常简单。你只需要在搜索查询中输入简单的短语,比如“语法检查”,“检查语法”或“语法检查器”。但这还不是全部-即使你不使用这些特定的短语,谷歌搜索也可能根据你的查询自动提供语法帮助。 另请阅读:短信变得神奇了:谷歌推出Magic Compose 良好语法的绿灯:工作原理 当基于人工智能的语法检查器检测到错误时-无论是拼写错误还是句子结构问题-它不仅会修复问题,还会在屏幕上用绿色的勾号标出所做的更改。如果你对结果满意,一个令人满意的绿色勾号将给你认可的提示。 AI在幕后:技术背后的魔力 这个语法检查的魔法基础是人工智能。但是,让我们面对现实,人工智能并不完美。虽然在许多方面它是语法的天才,但是在评估短语或片段而不是整个句子时,它可能会遇到更大的困难。但嘿,这是一个学习过程,你可以参与其中,使它变得更好。 另请阅读:AI内容创作正在革新内容营销的未来! 反馈循环:改进语法检查器 如果你遇到一个提议让你感到困惑或者发现一个机会来改进AI的纠正,你可以参与其中。提供反馈有助于系统改进其方法,并提供更精确的建议。 限制和英语边界 目前,这个语法检查器的语言能力仅限于英语。但请记住,它也有道德底线。它不会帮助违反谷歌搜索政策的内容-比如危险、暴力、露骨或亵渎的内容。所以,虽然它关注的是完美的语法,但不会帮助跨越界限的句子。 谷歌的精炼工具套件 这不是谷歌首次进入语法增强工具的世界。你可能已经在Gmail和Google Drive中看到了它的语法检查能力。现在,通过将这个工具添加到搜索中,你无需在应用程序之间切换就可以完善你的散文。 平衡:精确性和用户意图 对谷歌的人工智能来说,一个巧妙的挑战是解读用户意图。通常,我们在搜索栏中输入关键词,而不是构建语法完整的句子(例如“煮褐米需要多长时间”)。人工智能必须在这个查询混乱中穿行,确保捕捉到用户的意图,评估他们的语法,同时又不损害他们寻找的主要信息。 另请阅读:ChatGPT窃取了文案和技能工作:如何在AI未来中保持就业 我们的观点 有了谷歌新的基于人工智能的语法检查器,提升语言技能的旅程变得更加顺畅。随着这一隐藏功能的出现,用户可以利用其能力提升他们的交流水平。所以,下次当你在谷歌搜索中输入时,不仅要寻找答案,还要让这个基于人工智能的工具帮助你带来精确和优雅的问题。

Leave a Comment

使用BentoML部署Hugging Face模型:DeepFloyd IF实战

Hugging Face提供了一个Hub平台,让您可以轻松地上传、分享和部署您的模型。它节省了开发人员从头开始训练模型所需的时间和计算资源。然而,在真实世界的生产环境中或以云原生方式部署模型仍然可能存在挑战。 这就是BentoML的作用。BentoML是一个用于机器学习模型服务和部署的开源平台。它是一个统一的框架,用于构建、发布和扩展生产就绪的人工智能应用程序,包括传统的、预训练的和生成模型,以及大型语言模型。以下是您如何从高层次的角度使用BentoML框架: 定义模型:在使用BentoML之前,您需要一个机器学习模型(或多个模型)。可以使用TensorFlow和PyTorch等机器学习库来训练这个模型。 保存模型:一旦您有了一个训练好的模型,将其保存到BentoML本地模型存储库中,用于管理所有本地训练好的模型,并用于进行服务。 创建BentoML服务:您可以创建一个service.py文件来封装模型并定义服务逻辑。它为模型指定运行器,以便在规模化的模型推理中运行模型,并公开API以定义如何处理输入和输出。 构建Bento:通过创建一个配置YAML文件,将所有模型和服务打包成一个Bento,即一个可部署的构件,其中包含所有的代码和依赖项。 部署Bento:一旦Bento准备就绪,您可以将Bento容器化为一个Docker镜像,并在Kubernetes上运行它。或者,直接部署Bento到Yatai,一个开源的、端到端的解决方案,用于在Kubernetes上自动化和运行机器学习部署。 在本博文中,我们将演示如何通过按照上述工作流程将DeepFloyd IF与BentoML集成。 目录 DeepFloyd IF简介 准备环境 将模型下载到BentoML模型存储库 启动BentoML服务 构建和提供Bento 测试服务器 下一步 DeepFloyd IF简介 DeepFloyd IF是一种先进的开源文本到图像模型。它与稳定扩散等潜在扩散模型有着不同的操作策略和架构。 DeepFloyd IF提供了高度逼真的照片效果和复杂语言理解。与稳定扩散不同,DeepFloyd…

Leave a Comment

谷歌AI研究提出了VidLNs:一种获得语义正确且与准确的时空定位紧密关联的丰富视频描述的注释过程

视觉和语言研究是一个不断发展的领域,最近取得了显著的进展,特别是在建立静态图像和相应标题之间联系的数据集方面。这些数据集还涉及使用多种方法将标题中的某些词与图像中的特定区域关联起来。最新的本地化叙事(ImLNs)提供了一种有趣的方法:注释者在描述图像的同时,通过鼠标光标移动来标记他们讨论的区域。这种语音和光标移动的双重过程反映了自然交流,为每个单词提供了全面的视觉基础。然而,值得注意的是,静态图像只能捕捉到一瞬间。注释视频的前景更具吸引力,因为视频展示了完整的叙事,展示了多个实体和物体动态交互的事件。 为了解决这个耗时且复杂的任务,提出了一种增强的注释方法,将ImLNs扩展到视频中。 所提出技术的流程如下所示。 这种新的协议允许注释者在受控环境中构建视频叙事。注释者开始仔细观察视频,识别主要角色(如“男人”或“鸵鸟”),并选择代表每个角色重要时刻的关键帧。 随后,针对每个角色单独构建叙事。注释者在同时引导光标在关键帧上突出显示相关对象和动作的同时,使用口头描述表达角色在各种事件中的参与。这些口头描述包括角色的名称、属性,特别是它所承担的动作,包括与其他角色的互动(例如“与鸵鸟玩耍”)和与无生命物体的互动(例如“拿起食物杯”)。为了提供全面的背景信息,注释者还在单独的阶段提供了对背景的简要描述。 有效地使用关键帧消除了时间限制,而为每个角色创建独特的叙述使得复杂情况的分解成为可能。这种分解有助于全面描绘涉及多个角色相互交互和与许多被动物体互动的多面事件。与ImLN类似,这个协议利用鼠标轨迹段来定位每个单词。该研究还实施了几项额外措施,以确保精确定位,超过了先前工作的成果。 研究人员使用视频本地化叙事(VidLNs)在不同的数据集上进行了注释。考虑到的视频展示了复杂的场景,其中各种角色和无生命物体之间的交互,通过详细的注释描述了引人入胜的叙事。以下是一个示例。 VidLNs数据集的深度为各种任务(如视频叙事基础(VNG)和视频问答(VideoQA))提供了坚实的基础。新引入的VNG挑战要求开发一种能够通过在视频帧上生成分割掩码来定位输入叙述中的名词的技术。这个任务面临着重大挑战,因为文本中经常包含多个相同的名词,需要从周围词语中利用上下文线索进行消歧。虽然这些新的基准测试仍然是复杂的挑战,并远未完全解决,但所提出的方法在正确的方向上取得了有意义的进展(有关详细信息,请参阅已发表的论文)。 这是关于视频本地化叙事的总结,这是一种将视觉和语言连接起来的新型多模态视频注释。如果您对此感兴趣并想了解更多信息,请随时参考下面引用的链接。

Leave a Comment

ETH Zurich研究人员推出仿生肌腱驱动的Faive手:一种可3D打印的具有高自由度设计和灵巧手部旋转技能的手

在传统的基于模型的控制方法中,控制器直接与机器人的动态模型进行推理。最近的研究使用通过强化学习建立的策略,随着机器人结构变得更加复杂和仿生。这在涉及多个手指和人型机器人手的操作等需要技能的操作中尤为明显。协同移动的能力可以彻底改变多个行业,从拣选和放置仓库工作到流水线制造,以及在家庭中提供帮助。 苏黎世联邦理工学院(ETH Zurich)和马克斯普朗克联邦理工学院学习系统中心(Max Planck ETH Center for Learning Systems)的最新研究介绍了Faive Hand作为一个灵巧的操作平台。作为朝向类人操作的第一步,该团队报告了他们目前将其模型整合到RL环境中并在机器人上应用闭环控制器以实现灵巧的手内球形旋转。 目前最突出的机器人手是用于灵巧操作研究的,考虑到能力强大的机器人需要硬件和控制器两者。研究人员提出,更类人化的手部设计更适合与工具和环境中的物品进行互动,因为它们从一开始就是为人们设计的。从人类示例中学习时,使用类似框架的机器人更容易传递操纵活动。 Faive Hand是在软体机器人实验室中开发的一种仿生、腱驱动的机器人平台,用于研究精细操作。最新版本的手是3D打印的,由伺服电机驱动,使得批量生产变得容易和可行。然而,与使用RL教授的其他灵巧手不同,这只手包含了旋转接触关节的特点,其旋转没有定义的旋转轴,给控制高自由度的机器人手的本已困难的任务增加了难度。由于在这种设计中实施传统的旋转编码器是具有挑战性的,内部关节角编码器仍在研究中,但必须包含在手中。由于这个限制,伺服电机角度被用来估计腱长,从而估计关节角度。通过这些对仿真框架和低级控制器的补充,可以在真实机器人上执行通过闭环RL训练的策略。 研究人员通过在IsaacGym模拟器中展示了手的潜力,展示了通过RL教授的技能的零样本迁移。他们计划通过添加执行和传感器能力,在RL sim2real任务和其他任务(如行为克隆)上改进它。

Leave a Comment

多模态医疗人工智能

由Google Research的Head of Health AI Greg Corrado和VP of Engineering and Research Yossi Matias发布 医学是一门内在多模态的学科。在提供护理时,临床医生通常会解读来自各种模式的数据,包括医学影像、临床记录、实验室检验、电子健康记录、基因组学等等。在过去十年左右的时间里,人工智能系统已经在特定模态的特定任务上实现了专家级的表现。一些人工智能系统处理CT扫描,另一些分析高倍镜病理切片,还有一些寻找罕见的基因变异。这些系统的输入往往是复杂的数据,比如图像,它们通常会提供结构化的输出,无论是以离散等级还是密集图像分割掩码的形式。与此同时,大型语言模型(LLMs)的能力和功能已经非常先进,它们通过解释和用简单的语言回应来展示了对医学知识的理解和专业知识。但是,我们如何将这些能力结合起来构建能够利用所有这些信息的医学人工智能系统呢? 在今天的博客文章中,我们概述了将多模态能力引入LLMs的一系列方法,并分享了在构建多模态医学LLMs方面的一些令人兴奋的结果,如最近的三篇研究论文所描述的。这些论文依次说明了如何将全新模态引入LLMs,如何将先进的医学成像基础模型嫁接到对话式LLMs上,以及构建真正通用的多模态医学人工智能系统的第一步。如果成功发展,多模态医学LLMs可能成为跨专业医学、医学研究和消费者应用的新辅助技术的基础。与我们之前的工作一样,我们强调需要与医疗社区和医疗生态系统合作,对这些技术进行仔细评估。 一系列方法 近几个月提出了建立多模态LLMs的几种方法[1, 2, 3],毫无疑问,新的方法将继续涌现出来。为了了解将新模态引入医学人工智能系统的机会,我们将考虑三种广义的方法:工具使用、模型嫁接和通用系统。 建立多模态LLMs的方法从LLMs使用现有工具或模型到利用领域特定组件与适配器的融合建模,涵盖了各种方法。 工具使用 在工具使用的方法中,一个中心医学LLM将各种模态的数据分析外包给一组针对这些任务进行独立优化的软件子系统:工具。常见的工具使用示例是教会LLM使用计算器而不是自己进行算术运算。在医学领域,面对胸部X射线的医学LLM可以将图像转发给放射学AI系统并整合其响应。这可以通过子系统提供的应用程序编程接口(APIs)完成,或者更加奇特的是,不同专业领域的两个医学人工智能系统之间进行对话。 这种方法有一些重要的好处。它允许子系统之间的最大灵活性和独立性,使健康系统能够根据子系统的验证性能特征在技术提供商之间进行产品混搭。此外,子系统之间的人类可读通信渠道最大化了可审核性和调试性。然而,正确地在独立子系统之间进行沟通可能是棘手的,会限制信息传递,或者暴露出错误沟通和信息丢失的风险。 模型嫁接 更加集成的方法是将每个相关领域的专门神经网络取出,使其直接插入LLM中,将视觉模型嫁接到核心推理代理中。与工具使用不同,工具使用的具体工具由LLM决定,而在模型嫁接中,研究人员可以选择在开发过程中使用、改进或开发特定的模型。在Google…

Leave a Comment

认识AnyLoc:最新的通用视觉位置识别(VPR)方法

随着人工智能领域的不断发展,它已经在许多用例中找到了应用,包括机器人技术。考虑到视觉位置识别(VPR)是估计机器人状态的关键技能,并广泛应用于各种机器人系统,如可穿戴技术、无人机、自动驾驶车辆和地面机器人。利用视觉数据,VPR使机器人能够识别和理解其所处环境中的当前位置或地点。 在各种情境下实现VPR的普适应用一直是困难的。虽然现代VPR方法在应用于与其所学环境相似的情境(如城市驾驶场景)时表现良好,但在各种其他环境中(如水下或空中环境)的效果显著下降。为了解决这个问题,人们努力设计一种通用的VPR解决方案,可以在任何环境中无误地运行,包括空中、水下和地下环境,不受白天-黑夜或季节变化等变化的影响,并且从任何视角都不受透视变化(包括直接相反的视角)的影响。 为了解决这些限制,一组研究人员提出了一种新的基线VPR方法,称为AnyLoc。该团队研究了来自大规模预训练模型的视觉特征表示,他们将其称为基础模型,作为仅依赖于VPR特定训练的替代选择。虽然这些模型最初并不是为VPR而训练的,但它们存储了丰富的视觉特征,有望成为一个全面的VPR解决方案的基石。 在AnyLoc技术中,仔细选择具有所需不变性属性的最佳基础模型和视觉特征,其中不变性属性包括模型在环境或视点变化时保持特定视觉特性的能力。然后将经常在VPR文献中使用的流行的局部汇聚方法与这些选择的属性进行合并。通过使用局部汇聚技术,可以更有根据的从视觉输入的不同区域整合数据,以更准确地进行位置识别。 AnyLoc通过将基础模型的丰富视觉元素与局部聚合技术相结合,使装备有AnyLoc的机器人在各种环境中极具适应性和实用性。它可以在各种环境中进行视觉位置识别,无论是一天中的任何时间还是一年中的任何时间,无论是从任何角度观察。该团队总结了研究结果如下。 通用的VPR解决方案:AnyLoc被提出作为VPR的新基线,在包含地点、时间和视角变化的12个不同数据集中无缝运行。 特征-方法协同作用:将像DINOv2这样的自监督特征与像VLAD或GeM这样的无监督聚合相结合,相对于直接使用现成模型的每个图像特征,可以显著提高性能。 语义特征表征:分析聚合局部特征的语义属性,揭示了潜在空间中的不同领域,增强了VLAD词汇构建并提高了性能。 强大的评估:该团队在具有挑战性的VPR条件下对AnyLoc进行了多样化的数据集评估,如白天-黑夜变化和相反的视角,为未来的通用VPR研究奠定了坚实的基础。

Leave a Comment

在Amazon SageMaker Studio上托管Spark UI

亚马逊SageMaker提供了几种运行Apache Spark分布式数据处理作业的方式,Apache Spark是一种流行的用于大数据处理的分布式计算框架您可以通过将SageMaker Studio笔记本和AWS Glue交互式会话连接起来,在Amazon SageMaker Studio中交互式地运行Spark应用程序,并使用无服务器集群运行Spark作业通过交互式会话,您可以[…]

Leave a Comment

德卓与WPP合作,在NVIDIA Omniverse云上构建和部署先进的汽车配置器

中国和德国梅赛德斯-奔驰合资的豪华电动汽车品牌DENZA,与营销和通信巨头WPP以及NVIDIA Omniverse Cloud合作,共同开发并部署其下一代汽车配置器。NVIDIA创始人兼首席执行官黄仁勋在SIGGRAPH上宣布了这一消息。 WPP正在使用Omniverse Cloud平台,该平台用于开发、部署和管理工业数字化应用,以帮助统一汽车制造商高度复杂的设计和营销流程。 Omniverse Cloud使得WPP能够通过Universal Scene Description(USD)整合来自DENZA N7型号电动汽车制造商首选的计算机辅助设计工具的完整设计数据,从而构建出单一、物理准确、实时的DENZA N7数字孪生模型。 USD是一种3D框架,可实现软件工具和数据类型之间的互操作性,用于构建虚拟世界。 新的统一资产流程的实施打破了专有数据孤岛,促进了数据的更好可访问性,并为组织的大型设计团队和利益相关方提供了协作、迭代评审的便利。它使得WPP能够在设计过程的早期阶段就开始进行产品发布活动,从而加快了迭代速度并降低了成本。 使用Omniverse Cloud实现统一资产流程 利用Omniverse Cloud,WPP的团队可以将其自己的OpenUSD支持的设计和内容创建工具(如Autodesk Maya和Adobe Substance 3D Painter)连接到一个新的DENZA N7配置器的流程中。在Omniverse的统一资产流程中,WPP的艺术家团队可以实时迭代和编辑DENZA N7的完整工程数据集的光线跟踪视图,确保虚拟车辆准确地代表实际车辆。 传统的汽车配置器需要预先渲染数十万张图片来表示所有可能的选项和变体。OpenUSD使得WPP能够创建一个数字孪生车型,其中包含了所有可能的变体,而不需要预先渲染图像。 与此同时,WPP的环境艺术家们创建了完全交互式的实时3D虚拟场景。这些场景可以通过实际环境的扫描开始,例如WPP使用其机器狗捕捉的环境,也可以利用供应商(如Shutterstock)的生成式人工智能工具,即刻生成全景HDRi背景,以最大限度地提供个性化的机会。…

Leave a Comment

Shutterstock通过NVIDIA Picasso将生成式人工智能应用于3D场景背景

想象一下:创作者可以借助Shutterstock的尖端工具,快速创建和定制3D场景背景,利用生成式人工智能的帮助。 这家视觉内容提供商正在使用基于云的NVIDIA Picasso构建服务,用于开发用于视觉设计的生成式人工智能模型。 这项工作结合了Picasso的最新功能——在NVIDIA创始人兼首席执行官Jensen Huang的SIGGRAPH主题演讲中宣布——该功能将帮助艺术家根据简单的文本或图像提示增强和照明3D场景,所有这些都是使用完全许可、保留权利的数据构建的AI模型。 基于这些提示,新的生成AI功能快速生成定制的360度、8K分辨率、高动态范围成像(HDRi)环境贴图,艺术家可以使用这些贴图设置背景和照明场景。 这扩展了NVIDIA与Shutterstock的合作,为下一代数字内容创作工具赋能,并加速3D模型生成。 为了满足电影、游戏、虚拟世界、广告等领域对沉浸式视觉的不断增长需求,3D艺术家群体正在迅速扩大,过去一年增长了20%以上。 其中许多艺术家正在利用生成式人工智能来增强他们复杂的工作流程,并将能够利用这项技术快速创建和定制环境贴图。这使他们有更多时间来处理英雄级3D资产,这些是观众关注的3D场景的主要资产。在创建引人注目的3D视觉效果时,这产生了巨大的差异。 “我们致力于超强能力地支持3D艺术家和合作者,帮助他们比以往更快地构建他们所设想的沉浸式环境,并利用NVIDIA Picasso简化他们的内容创作工作流程,”Shutterstock的3D创新副总裁Dade Orgeron说道。 生成逼真的环境贴图 以前,艺术家需要购买昂贵的360度摄像机来从头开始创建背景和环境贴图,或者选择固定选项,这些选项可能与他们的3D场景不完全匹配。 现在,用户只需提供一个提示——无论是文本还是参考图像——基于Picasso构建的360 HDRi服务将快速生成全景图像。此外,由于生成式人工智能的帮助,定制的环境贴图可以自动匹配输入为提示的背景图像。 用户随后可以自定义贴图,并快速迭代想法,直到实现他们想要的效果。 合作推动3D世界建设 Autodesk是媒体和娱乐领域的3D软件和工具提供商,致力于为艺术家提供激发和取悦全球观众的创造自由。 通过将基于Picasso的基础模型开发的生成式人工智能内容创作服务与其广受欢迎的3D软件Maya集成,Autodesk使艺术家能够将平凡的任务交给无限创造力,并最终更快地产生内容。 通过AI为Autodesk客户的工作流程提供增强,艺术家可以专注于创作,并最终更快地生成内容。 生成式人工智能模型工厂 Picasso是NVIDIA AI Foundations的一部分,该部门推动企业级生成式人工智能的发展,包括文本、视觉内容甚至生物学。…

Leave a Comment

NVIDIA为企业和开发人员提供更可扩展、可定制的扩展现实流媒体

各行各业的组织正在使用扩展现实(XR)重新设计工作流程并提高生产力,无论是用于沉浸式培训还是协作设计审查。 随着一体化(AIO)头戴式显示器的普及使用,越来越多的团队已经采用和整合了XR技术。虽然AIO头戴式显示器简化了XR的使用,但其计算和渲染能力有限,可能会限制流媒体体验的图形质量。 NVIDIA通过其CloudXR套件使更多企业和开发者能够采用高质量的XR技术。CloudXR旨在极大简化流媒体,使任何使用AIO头戴式显示器或移动XR设备的人都可以在任何位置体验高保真度的沉浸式环境。 CloudXR套件结合了NVIDIA RTX GPU和NVIDIA RTX虚拟工作站(vWS)软件的强大功能,可将高保真度的XR应用程序流媒体传输到Android和iOS设备上。通过根据网络状况动态调整,CloudXR可实现最大限度的图像质量和帧率,为下一级别的无线增强现实和虚拟现实体验提供动力。 借助CloudXR,企业可以灵活有效地编排和扩展XR工作负载,开发者可以使用先进的平台为用户创建定制的XR产品。该套件在公共和私有网络上都提供高质量的流媒体。 爱立信和VMware是首批使用CloudXR的公司之一。 将XR工作流程提升到更高水平 CloudXR套件的性能与连接式虚拟现实体验相媲美。 它包括三个组件,包括几个更新: CloudXR基本组件,套件的底层流媒体层,带来了5G L4S优化、QoS算法和增强的日志记录工具等新改进。基本组件还包括SteamVR插件,以及示例客户端和新的服务器端应用程序编程接口。 CloudXR服务器扩展通过向Monado OpenXR运行时添加源代码,改进了服务器端接口。CloudXR基本组件中包含的新CloudXR服务器API和OpenXR API代表了扩展XR分发的入口。 CloudXR客户端扩展作为首个提供,包括为Unity编辑器构建的CloudXR插件。这使开发者可以使用已经熟悉的Unity开发工具构建自定义的CloudXR客户端应用程序。此外,Unity应用程序开发者可以更容易地使用插件在连接到CloudXR流媒体服务器之前构建具有品牌定制界面和大厅的应用程序。 团队可以利用NVIDIA RTX GPU的强大性能在移动设备上实现极致图形性能。企业可以扩展到数据中心和边缘网络,并使用NVIDIA RTX vWS软件流媒体到并发用户。 此外,用户可以通过高带宽、低延迟的5G信号从边缘流媒体流畅的XR内容,使用任何OpenVR或OpenXR应用程序。 合作伙伴体验企业级XR流媒体…

Leave a Comment

NVIDIA NeMo与初创公司合作,创造了生成式人工智能的成功故事

机器学习帮助了Waseem Alshikh在大学中翻阅教科书。现在,他正在利用生成式人工智能为数百家公司创建内容。 Alshikh出生并长大在叙利亚,他不会讲英语,但对软件非常熟悉,这个才能在他进入黎巴嫩的大学时对他非常有帮助。 “第一天他们给了我一堆教科书,每本都有一千页,而且都是用英语写的,”他回忆道。 所以,他写了一个程序——一个简单但有效的统计分类器来总结这些书籍——然后他学习了这些总结。 从概念到公司 2014年,他与在迪拜工作时认识的企业家May Habib分享了他的故事。他们约定创建一家初创公司,利用机器学习帮助市场部门——这些部门总是面临做更多事情用更少资源的压力——快速创建网页、博客、广告等内容。 “起初,技术还不成熟,直到变形金刚模型被宣布出来——我们可以在这个基础上进行开发,”这家初创公司的首席技术官Alshikh说。 作家兼联合创始人Habib,首席执行官,和Alshikh,首席技术官。 “我们找到了几名工程师,花了将近六个月的时间构建我们的第一个模型,一个几乎无法工作且具有大约1.28亿参数的神经网络,这是衡量AI模型能力的常用指标之一。” 在发展过程中,这家年轻的公司赢得了一些业务,改名为Writer,并与NVIDIA建立了联系。 加速的初创公司 “一旦我们接触到NVIDIA NeMo,我们就能够用三个、然后是20个,现在是40亿个参数构建工业级模型,而且我们还在不断扩展,”他说。 NeMo是一个应用框架,帮助企业整理训练数据集,构建和定制大型语言模型(LLMs),并在生产中进行规模化运行。从韩国到瑞典的组织都在使用它来为本地语言和行业定制LLMs。 “在使用NeMo之前,我们花了四个半月的时间构建一个新的百亿参数模型。现在我们可以在16天内完成——这简直让人难以置信,”Alshikh说。 模型创造机会 今年上半年,这家初创公司的不到20名AI工程师使用NeMo开发了10个模型,每个模型都有300亿个或更多参数。 这意味着巨大的机会。现在有数百家企业使用Writer为金融、医疗保健、零售等垂直市场定制的模型。 Writer的Recap工具根据采访或活动的音频记录创建书面摘要。 这家初创公司的客户名单包括德勤、欧莱雅、Intuit、优步和许多财富500强公司。 Writer在NeMo上取得的成功只是故事的开始。许多其他公司已经下载了NeMo。 这个软件将很快对任何人都可用。它是NVIDIA AI…

Leave a Comment