Press "Enter" to skip to content

1319 search results for "扩展"

谷歌DeepMind的研究人员提出了代码链(CoC):一种简单但意外有效的扩展,改进了语言模型(LM)的代码驱动推理能力

来自Google DeepMind、斯坦福大学和加州大学伯克利分校的研究人员开发了一个名为Code Chain的代码链,旨在解决提高语言模型的代码驱动推理能力的问题。Code Chain鼓励将语义子任务以灵活的伪代码格式化为程序,解释器可以明确捕捉到未定义行为,并交给模拟器(作为“LMulator”)来模拟。Code Chain在使用大型和小型模型时都具有良好的扩展性,并通过以编码思维回答问题来扩大语言模型能够正确回答的推理问题的范围。 类似于Chain of Thought、least-to-most和ScratchPad等工作利用提示来改善推理,通过将任务分解为中间步骤或跟踪中间结果来进行。在Github上训练的语言模型被提示编写和执行代码,这有助于解决涉及数字或符号推理的复杂问题。 为了解决给定的问题,Code Chain在代码结构中生成推理子步骤。这段代码提供了推理的框架,可以是明确的代码、伪代码或自然语言形式。Code Chain通过将代码的优点与语言模型的强大语义和常识知识相结合,使代码在全新的领域中得以使用,可以轻松表达在代码中难以表达的规则(例如,哪些食物是水果?)。 Code Chain的核心贡献不仅仅是生成推理代码,而是如何执行它。代码编写完毕后,尝试通过代码解释器执行代码-在这项研究中,研究人员考虑了Python,但这种方法对任何解释器都是通用的。如果代码成功执行,则更新程序状态并继续执行。如果代码无法执行或引发任何异常,则使用语言模型来模拟执行。语言模型的输出更新程序状态,并继续执行。 Code Chain方法的整体性能优于其他方法,在超过的任务数量和整体超过基准线的数量上超过人类基准线。Code Chain在几项研究中取得了最新成果。与Chain of Thought提示相似,随着模型大小的增加,性能有所提高。跨任务提示导致所有方法的性能下降,但Code Chain在大规模上仍然优于Chain of Thought和直接提示,接近人类的平均性能。 Code Chain是通过编写代码和使用解释器执行代码或使用模拟执行的语言模型,以在语言模型中进行推理的方法。Code Chain可以利用规则的表达结构和强大的工具。此外,通过模拟非可执行代码的执行,Code Chain可以应用于正常情况下不涉及代码的问题(例如,语义推理问题)。

Leave a Comment

巴文·沙阿(Bhavin Shah)是Moveworks的首席执行官和创始人——硅谷,企业家之旅,AI扩展挑战,创新文化,战略伙伴关系,克服监管障碍,用户AI交互,企业未来愿景

在这个富有洞察力的采访中,我们探索了Moveworks的首席执行官兼创始人Bhavin Shah的创业之旅 Bhavin详细讲述了他在硅谷的根源,包括与Steve Wozniak的难忘邂逅,如何让他走上创办Moveworks的道路对话涵盖了他职业生涯的各个阶段,从最初的风险投资到…Moveworks的首席执行官和创始人Bhavin Shah——硅谷,创业之旅,人工智能规模化挑战,创新文化,战略合作伙伴关系,克服监管障碍,用户与人工智能的互动,企业的未来愿景 阅读更多 »

Leave a Comment

迎接 PGXMAN:PostgreSQL 扩展管理器

你能够将它们拖放到项目管理工作流中,而不是手动更新和独立管理每个Postgres扩展吗?那该多么棒啊!幸运的是,随着PGXMAN的推出,这个愿望成真了。 想象一下,只需点击几下或输入几条命令,就可以安装、更新和卸载Postgres扩展。搜索新版本、管理依赖关系和手动更新都成为了过去的事情。有了Pgxman负责这一切,你可以专注于创建令人难以置信的应用。 增强Postgres数据库最有效的方法之一就是使用扩展。而处理扩展可能是具有挑战性的。感谢PGXMAN,当安装和管理Postgres扩展时,Pgxman就是救星。 什么是PGXMAN? Pgxman是一个Postgres扩展程序包管理器。使用它可以轻松安装和更新扩展,并管理扩展之间的依赖关系。对于希望在应用程序中包含Postgres扩展的开发人员来说,PGXMAN是一个宝贵的工具。 PGXMAN:它是如何工作的? Pgxman使用软件包存储库来存储扩展。每个扩展的详细信息,包括名称、版本和依赖关系,都存储在软件包存储库中。通过这些信息,Pgxman可以安装、更新和删除扩展。 使用Pgxman的优点 使用PGXMAN有许多优点,其中包括: PGXMAN简化了查找、安装和更新扩展的过程,易于使用。 PGXMAN可以自动处理扩展之间的依赖关系。 使用PGXMAN可轻松保持扩展的最新状态。 PGXMAN社区强大而支持性良好,有许多用户和开发人员为该项目做出了贡献。 开始使用Pgxman 下面的命令将安装pgxman并帮助你入门: pip install pgxman 以下命令将在安装pgxman后帮助你使用pgxman添加扩展: pgxman install <extension-name> 通过以下命令,您还可以使用pgxman更新扩展: pgxman update…

Leave a Comment

扩展基于亚马逊SageMaker的数百种模型的基础模型推断-第一部分

随着粉底模型(FM)的民主化越来越普遍,并且对AI增强服务的需求不断增加,软件即服务(SaaS)提供商正在寻求使用支持多租户的机器学习(ML)平台,以便为他们组织内部的数据科学家和外部客户提供服务越来越多的公司意识到使用FM来生成[…]的价值

Leave a Comment

亚马逊转录宣布推出一款新的基于语音模型的ASR系统,支持扩展至100多种语言

亚马逊转录是一项完全托管的自动语音识别(ASR)服务,可帮助您将语音转换为文本,并轻松地将其添加到您的应用程序中今天,我们很高兴地宣布推出了一种下一代多十亿参数语音基础模型驱动的系统,将自动语音识别扩展到超过100种语言在本文中,我们将讨论一些相关内容…

Leave a Comment

遇见谷歌的Open Se Cura项目:一个开源框架,加速开发安全、可扩展、透明和高效的人工智能系统

随着人工智能的发展,它已经被应用于生活的各个方面。其应用正在各个领域中显现。人工智能的应用已经扩展到医疗保健、教育、交通、制造业、零售业、金融等各个领域。 然而,随着人工智能(AI)越来越多地融入我们的日常生活,建立强大和有效的计算系统对于可靠和安全的人工智能体验是必要的。但是问题是:硬件突破必须跟上机器学习(ML)模型和软件开发的进展。这种不平衡使得构建完整和安全的全栈系统变得困难。此外,尽管电池技术在发展,但小型设备市场正在超过这些发展,这限制了人工智能系统的潜在强度和使用。 因此,谷歌推出了开源框架Project Open Se Cura,旨在加速安全、可扩展、透明和高效的人工智能系统的开发。这个项目在谷歌内部以Project Sparrow的名字存在。Project Open Se Cura凸显了谷歌对开源开发的承诺。该倡议涉及创建开源设计工具和知识产权(IP)库,以加速全栈系统处理机器学习工作负载的增长。协作共同设计和开发流程旨在增强系统设计,侧重于安全、效率和可扩展性,并助力下一代人工智能体验。 这个项目与VeriSilicon、Antmicro和lowRISC等重要合作伙伴密切合作开发。研究人员强调每个合作伙伴都提供了对开发过程至关重要的知识和资源。例如,lowRISC为项目提供了清晰的信任根、开发和集成工具,确保了安全的基础。Antmicro在开源系统级软件和使用Renode的系统仿真工具方面提供了专业知识。VeriSilicon在商业化、BSP(板支持包)开发、IP设计和硅设计方面提供了专业知识。这些工具使得通过在IP库中添加安全的机器学习功能,能够开发出低功耗的人工智能系统概念验证。 研究人员表示,他们期待进一步开放地增强和发展Open Se Cura。他们正在积极寻求与剑桥大学(用于CHERI创新)和密歇根大学(用于低功耗和生成型人工智能)等机构的合作伙伴关系。 谷歌对通过这些新工具探索可能性感到兴奋,并鼓励广大开源社区加入并做出贡献。这个协作努力旨在推动创新,创建安全、可扩展和高效的新型人工智能体验。研究人员预计与开源社区的合作引领人工智能进步的新时代。 本文翻译自:Meet Google’s Project Open Se Cura: An Open-Source Framework to…

Leave a Comment

Microsoft的Azure AI模型目录以突破性的人工智能模型扩展

“`html Microsoft已经发布了Azure AI模型目录的重大扩展,其中包括一系列基础和生成型AI模型。这一举措标志着人工智能领域的重大进步,将不同的创新技术汇集在一起。 AI目录的多样增加 Azure AI模型目录现在包括40个新模型,引入了4种新模式,包括文本到图像和图像嵌入功能。主要增加的模型有: 稳定扩散模型:由Stability AI和CompVis开发,这些模型在文本到图像和图像修复任务中表现出色,为创意内容生成提供了稳健且一致的输出。 TII的Falcon模型:Falcon模型具有70亿和400亿参数,针对推断进行了优化,在性能上超过了许多开源模型。 Meta的Code Llama:一系列用于辅助编码任务的生成型文本模型,参数从70亿到340亿不等。 NVIDIA Nemotron:这款来自NVIDIA的80亿参数模型提供了各种功能,包括聊天和问答,与NVIDIA NeMo框架兼容。 Meta的SAM(Segment Anything Model):一种能够从简单的输入提示中创建高质量对象掩码的图像分割工具。 模型即服务(MaaS) 在战略上,微软还引入了模型即服务(MaaS)的概念。该服务将使专业开发人员能够将来自Meta的Llama 2、Cohere的Command、G42的Jais以及Mistral的高级模型作为API端点集成到其应用程序中。这种集成过程简化了开发人员资源供应和托管管理的复杂性。 创新型模型亮点 Jais:G42开发的具有130亿参数的模型,经过了包含1160亿阿拉伯语标记的数据集的训练。Jais是阿拉伯世界在人工智能方面的重要进步。 Mistral:拥有73亿参数的大型语言模型,由于具有分组查询注意力和滑动窗口注意力特征,因此其推断速度更快且响应序列更长。 Phi模型:包括Phi-1-5和Phi-2,这些变压器展示了改进的推理能力和安全措施,适用于从写作到逻辑推理的各个领域的应用。 面向未来的创新…

Leave a Comment

在云计算领域,Microsoft Azure发挥着巨大的推动作用作为一种跨平台、可扩展且安全可靠的云服务,Azure为企业和个人提供了无限的可能性 Azure的优势之一在于其强大的计算能力无论是数据分析、人工智能还是大规模的应用开发,Azure的计算资源可以满足不同的需求同时,Azure的全球数据中心覆盖范围广泛,为用户提供了高速、高效的云服务

发现微软Azure对现代企业和技术环境的影响探索关键功能,优势和使用案例

Leave a Comment

这篇人工智能论文介绍了JudgeLM:一种用于在开放式场景中进行大规模语言模型可扩展评估的新方法

近期,大型语言模型(LLM)因其出色的遵循指令能力和处理广泛的开放式场景的能力而受到了广泛关注。通过指令微调,研究人员提供了许多与人类偏好相一致的技术,这些技术基于开源LLM,如FlanT5、OPT、LLaMA和Pythia等。这些对齐的LLM显示出对人类命令的理解能力提高,并产生更合乎逻辑的回复。然而,当前的基准和传统的测量方法需要充分评估LLM在开放式场景中的能力。 因此,需要一种新的基准方法,可以全面评估LLM在开放式活动中的能力。同时,正在进行研究来探索不同的方法来确定LLM的性能。Arena格式技术利用众包平台获取匿名LLM竞赛结果。人类评估可靠,但也需要花费金钱和大量的努力。一些方法使用GPT-4作为仲裁者。然而,这些方法需要API模型转换的可变性和可能的数据泄露,可能会危及仲裁者的重复性。PandaLM致力于改进用于回答评估的开源LLM。 图1(a):JudgeLM的数据生成流程。首先收集105K个种子任务作为问题。然后从11个LLM中提取答案,并随机选择两个答案。最后,输入任务、样本答案对和(如有需要)GPT-4的回复。这样可以得到评分和对仲裁者的详细解释。 然而,这种精细模型在司法岗位上的实用性受到模型大小、训练数据质量和内在LLM偏见的限制。北京市人工智能研究院和华中科技大学的研究人员建议在这项研究中使用优化的开源LLM来评估LLM,这些LLM作为可扩展的仲裁者(JudgeLM)与指导仲裁者达成足够好的一致性。他们的技术将用于训练和评估仲裁者模型的高质量数据集与作为可扩展的仲裁者在开放式任务中担任评估者。他们修改开源LLM以在他们的框架内作为仲裁者,并检查它们在模型大小(7B至33B)和训练数据量(3.5K至100K)方面的扩展能力。 图1(b):JudgeLM的不同特征和微调示例。为了改善LLM作为可扩展仲裁者的性能,他们使用生成的仲裁者样本。他们还建议使用参考答案删除、参考支持和交换增强来微调LLM作为仲裁者,以分别克服格式、知识和位置偏见。 如图1a所示,他们策划的数据集包括105K个种子问题、LLM答案对和教员仲裁者GPT-4的判断。注意,对于每个种子挑战,学生们提出了两个决策——一个带有参考答案,一个没有参考答案。这个数据集的划分是将100K个种子问题用于训练(比PandaLM大2倍),并将剩下的问题用于验证(比PandaLM大29倍)。当LLM作为仲裁者时,位置偏见(偏爱特定情况下的回答)、知识偏见(过度依赖预先训练的信息)和格式偏见(仅在特定提示形式下的最佳性能)等偏见总会出现。 他们提供了处理它们的方法。此外,如图1b所示,他们的JudgeLM系统具有扩展功能,如多轮对话、对单个回复评分以及评判多个答案,除了多模型。相比竞技场格式的方法,他们的解决方案更快捷且经济实惠。例如,JudgeLM-7B是一种模型,可以在3分钟内评估5000对回应,并且只需8个A100 GPU。JudgeLM的隐私保护和可重复性比闭源LLM评委更多。他们的方法研究了LLM微调的扩展能力和偏见,与并发的开源LLM评委相比。 此外,他们提供的数据集是最全面和出色的,将极大地帮助未来的评估模型分析研究。以下简要描述了他们的主要贡献: • 他们提出了JudgeLM,一种可扩展的语言模型评委,用于评估开放式场景下的LLM。 • 他们引入了一个高质量、大规模的数据集,用于评估模型,丰富了不同的种子任务、LLM生成的答案以及来自GPT-4的详细判断,为未来评估LLM的研究奠定了基础。它超过了人对人的一致性,达到90%以上。此外,它的JudgeLM具有处理长时间作业的广泛能力。 • 他们研究了LLM中存在的偏见、评委微调,并提出了几种解决方案。他们的技术极大地提高了模型在各种场景下的一致性,提高了JudgeLM的可靠性和适应性。

Leave a Comment

扩展规模下的机器学习生命周期管理,第一部分:使用Amazon SageMaker设计机器学习工作负载的框架

每个规模和行业的客户都在AWS上通过将机器学习(ML)融入其产品和服务来进行创新生成式AI模型的最新发展进一步加快了各行业对于采用ML的需求然而,实施安全、数据隐私和治理控制仍然是客户在实施ML时面临的主要挑战

Leave a Comment

英伟达扩展机器人平台以满足生成式人工智能的崛起

强大的生成式AI模型、云原生API和微服务正在逐渐走向边缘。 生成式AI将转换模型和大型语言模型的优势带到了几乎所有行业。现在,这种影响力已经扩展到了涉及边缘、机器人和物流系统的领域:缺陷检测、实时资产跟踪、自主计划和导航、人机交互等。 NVIDIA今天宣布了两个在边缘AI和机器人技术领域的框架的重大扩展:NVIDIA的Isaac ROS机器人技术框架正式面向市场,NVIDIA Metropolis在Jetson平台上的扩展即将推出。 为了加快边缘AI应用的开发和部署,NVIDIA还建立了一个用于开发者使用的Jetson生成式AI实验室,供他们使用最新的开源生成式AI模型。 超过120万开发者和1万多个客户选择了NVIDIA AI和Jetson平台,其中包括亚马逊网络服务、思科、约翰迪尔、美敦力、百事可乐和西门子。 随着人工智能领域的快速发展,应对越来越复杂的场景,开发者面临着日益延长的开发周期来构建边缘AI应用的挑战。实时重新编程机器人和AI系统以满足不断变化的环境、制造流水线和客户的自动化需求是耗时且需要专业技能的。 生成式AI提供了零样本学习的能力,即模型能够识别训练过程中从未见过的特定东西,并结合自然语言界面,简化了边缘AI的开发、部署和管理。 改变人工智能领域 生成式AI通过理解人类语言提示来改变模型,极大地提高了易用性。这些AI模型在检测、分段、跟踪、搜索甚至重新编程方面更加灵活,并且能够优于传统的基于卷积神经网络的模型。 根据ABI Research的数据,生成式AI预计将在2033年为全球制造业增加105亿美元的收入。 NVIDIA的嵌入式和边缘计算副总裁Deepu Talla表示:“生成式AI将以比以往更好的泛化能力、易用性和更高的准确性显著加速边缘AI的部署。Metropolis和Isaac在Jetson上的这次最大规模的软件扩展,结合了转换模型和生成式AI的能力,满足了这一需求。” 在边缘开发生成式AI Jetson生成式AI实验室为开发者提供了优化工具和教程,用于部署开源LLMs、扩散模型以生成令人惊叹的交互式图像、视觉语言模型(VLMs)和视觉Transformer(ViTs)结合视觉AI和自然语言处理,实现对场景的全面理解。 开发者还可以使用NVIDIA TAO Toolkit为边缘应用程序创建高效准确的AI模型。TAO提供了一个低代码界面,用于微调和优化视觉AI模型,包括ViT和视觉基础模型。他们还可以自定义和微调诸如NVIDIA NV-DINOv2或公共模型如OpenCLIP之类的基础模型,以用极少的数据创建高精度的视觉AI模型。TAO还引入了VisualChangeNet,这是一个用于缺陷检测的基于Transformer的新模型。 利用新的Metropolis和Isaac框架 NVIDIA Metropolis使企业更加轻松、更具成本效益地采用世界级的视觉AI解决方案,以提高关键的运营效率和安全性。该平台提供了一系列强大的应用程序编程接口和微服务,供开发者快速开发复杂的基于视觉的应用程序。…

Leave a Comment

斯坦福大学的研究人员提出了DDBMs:一种适用于分布转换问题的简单可扩展的扩散模型扩展

扩散模型最近在人工智能领域取得了很大的成功和关注。作为生成模型的一员,这些模型可以有效地逆转将数据转化为噪声的扩散过程,使它们能够理解复杂的数据分布。这种方法在许多生成任务中取得了突破,特别是在生成高质量图像方面,它已经超越了传统的基于GAN技术的方法。现代的文本到图像生成AI系统的发展得益于这些扩散模型的进展。 扩散模型在某些领域表现出色,但在其他领域表现不佳。在图片翻译等应用中,将它们应用起来可能比较困难,因为其假设存在一个预先存在的随机噪声分布。通常会使用一些复杂的方法,如训练模型或手动调整样本的方法来解决这个问题。这些技术在理论上支持不足,并且经常只支持单向映射,通常是从损坏的图片到清晰的图片,放弃了循环一致性的想法。 与传统的扩散模型范例相比,一组研究人员引入了一种新颖和独特的策略,称为去噪扩散桥模型(DDBMs)。扩散桥是一类平滑插值两个指定为端点的配对分布的过程,DDBMs利用了这个思想。DDBMs直接从数据中得出扩散桥的得分,而不是从随机噪声开始。然后,学习到的得分指导模型,使其通过解随机微分方程从一个端点分布映射到另一个端点分布。 DDBMs的一个主要优势是能够自动组合几种生成模型的能力。它们可以轻松地组合OT-Flow-Matching和基于得分的扩散模型的组件,以适应当前的设计决策和架构策略,以应对更一般的挑战。 该团队已将DDBMs应用于困难图片数据集的实证分析中,同时考虑像素级模型和潜空间模型。在常见的图片翻译任务中,DDBMs远远优于基线方法,展示了它们在应对具有挑战性的图像改变任务方面的适用性。当该团队简化问题,假设源分布为随机噪声时,DDBMs产生与用于图像生成的最先进技术竞争的结果,由FID得分进行评估。 这显示了DDBMs在各种生成任务中的适应性和可靠性,即使它们并不是针对特定情况而设计的。总而言之,扩散模型在各种生成任务中发挥了作用,但在图片翻译等工作中存在缺点。建议的DDBMs提供了一种创新和可扩展的解决方案,将基于扩散的生成和分布翻译方法整合在一起,提高了处理具有挑战性的与图像相关任务的性能和灵活性。

Leave a Comment

Ray与NVIDIA AI携手合作,帮助开发者构建、调优、训练和扩展生产LLM

大型语言模型的开发即将达到超音速速度,这要归功于NVIDIA和Anyscale的合作。 在其年度Ray Summit开发者大会上,Anyscale——快速增长的可扩展计算的开源统一计算框架背后的公司——今天宣布将NVIDIA AI引入Ray开源和Anyscale平台。它还将集成到Anyscale Endpoints中,这是一项今天宣布的新服务,可方便应用开发人员使用最流行的开源模型在其应用程序中以具有成本效益的方式嵌入LLMs。 这些集成可以显著加速生成式AI的开发和效率,同时提高生产AI的安全性,从专有的LLMs到诸如Code Llama、Falcon、Llama 2、SDXL等开源模型。 开发人员可以灵活选择使用Ray部署开源NVIDIA软件,或选择在Anyscale平台上运行NVIDIA AI企业软件,以进行全面支持和安全的生产部署。 Ray和Anyscale平台被广泛用于开发人员构建用于生成式AI应用程序的先进LLMs,这些应用程序可以驱动智能聊天机器人、编码协助和强大的搜索和摘要工具。 NVIDIA和Anyscale提供速度、节省和效率 生成式AI应用引起了全球企业的关注。调整、增强和运行LLMs需要大量的投资和专业知识。NVIDIA和Anyscale共同努力,可以通过多种应用集成帮助降低生成式AI开发和部署的成本和复杂性。 上周宣布的新的开源软件NVIDIA TensorRT-LLM将支持Anyscale的产品,以提高LLM的性能和效率,从而实现成本节约。在NVIDIA AI企业软件平台中也得到支持,Tensor-RT LLM可自动扩展推理以在多个GPU上并行运行模型,与上一代GPU相比,可以在运行NVIDIA H100 Tensor Core GPU时提供高达8倍的性能。 TensorRT-LLM可以自动扩展推理以在多个GPU上并行运行模型,并包括用于各种流行LLM模型的自定义GPU内核和优化。它还实现了NVIDIA H100 Tensor Core…

Leave a Comment

OpenAI的ChatGPT企业版专注于安全性、可扩展性和定制化

OpenAI的ChatGPT在商业界引起了轰动,而最近推出的ChatGPT Enterprise也证明了它的重要性日益突出ChatGPT Enterprise拥有企业级安全性、无限的GPT-4访问、更长的上下文窗口和一系列自定义选项等增强功能,承诺成为现代化的一体化AI助手

Leave a Comment

东京大学的研究人员开发了一种扩展的光子强化学习方案,它从静态赌徒问题转向更具挑战性的动态环境

在机器学习的世界中,强化学习的概念占据了中心舞台,使代理通过在特定环境中的迭代试错来征服任务。它突出了这一领域的成就,例如使用光子方法来外包计算成本,并利用光的物理属性。它强调了将这些方法扩展到涉及多个代理和动态环境的更复杂问题的必要性。通过这项来自东京大学的研究,研究人员旨在将赌博算法与Q学习相结合,创建一种修改过的赌博Q学习(BQL),以加速学习并为多智能体合作提供见解,最终促进光子强化技术的进步。 研究人员使用了网格世界问题的概念。在这个问题中,一个代理通过一个5*5的网格进行导航,每个单元格表示一个状态。在每一步中,代理必须采取上、下、左或右的动作,并接收奖励和下一个状态。特定的单元格A和B提供更高的奖励,并促使代理转移到不同的单元格。这个问题依赖于一个确定性策略,其中代理的动作决定了它的移动。 动作值函数Q(s, a)量化了给定策略π的状态-动作对未来奖励。这个函数体现了代理通过其动作对累积奖励的预期。这项研究的主要目标是使代理学习所有状态-动作对的最优Q值。引入了一种修改过的Q学习,将赌博算法整合进来,通过动态的状态-动作对选择增强学习过程。 这种修改过的Q学习方案允许并行学习,其中多个代理更新共享的Q表。并行化通过增强Q表更新的准确性和效率来提升学习过程。设想了一个决策系统,利用光子的量子干涉原理,确保代理的同时动作保持不同,而无需直接通信。 研究人员计划开发一种算法,使代理能够连续行动,并将其方法应用于更复杂的学习任务。未来,作者的目标是创建一个光子系统,使至少三个代理之间能够进行无冲突的决策,增强决策协调。

Leave a Comment

IBM研究人员推出了一款用于深度学习推理的模拟AI芯片:展示了可扩展混合信号架构的关键构建模块

I had trouble accessing your link so I’m going to try to continue without it. 正在进行的人工智能革命将重塑生活方式和工作场所,深度神经网络(DNN)在其中发挥了关键作用,尤其是基础模型和生成式人工智能的出现。然而,承载这些模型的传统数字计算框架限制了它们的潜在性能和能源效率。虽然出现了专门的人工智能硬件,但许多设计将内存和处理单元分开,导致数据洗牌和效率降低。 IBM研究一直致力于寻找创新的方法来重新构想人工智能计算,从而提出了模拟内存计算或模拟人工智能的概念。这种方法从生物大脑中的神经网络中汲取灵感,其中突触强度控制神经元之间的通信。模拟人工智能使用纳米级电阻器件(如相变存储器)将突触权重存储为电导值。相变存储器设备在非晶态和晶态之间转换,编码一系列值,并实现具有非易失性的权重的本地存储。 IBM研究在最近的《自然电子学》出版物中取得了使模拟人工智能成为现实的重要进展。他们推出了一款先进的混合信号模拟人工智能芯片,专为各种DNN推理任务量身定制。该芯片在IBM的奥尔巴尼纳米技术中心制造,具有64个模拟内存计算核心,每个核心都有一个256×256的交叉栅阵突触单元。集成的紧凑型基于时间的模拟-数字转换器实现了模拟和数字域之间的无缝切换。此外,每个核心内的数字处理单元处理基本的神经元激活函数和缩放操作。 该芯片的架构使每个核心能够处理与DNN层相关的计算。突触权重以模拟电导值的形式编码在相变存储器设备中。一个全局的数字处理单元位于芯片的中心,管理着特定神经网络执行所必需的复杂操作。芯片的数字通信路径连接了所有的瓷砖和中央的数字处理单元。 在性能方面,该芯片在CIFAR-10图像数据集上展示了令人印象深刻的92.81%的准确率,标志着模拟内存计算的重要成就。该研究将模拟内存计算与数字处理单元和数字通信结构无缝集成,从而实现了更高效的计算引擎。该芯片的每单位面积的吉博操作每秒(GOPS)吞吐量超过了以往基于电阻性存储器的内存计算芯片的15倍以上,同时保持能源效率。 借助模拟到数字转换器、乘积累加计算能力和数字计算块的突破,IBM研究实现了快速和低功耗的模拟人工智能推理加速器芯片所需的许多关键组件。以前提出的加速器架构将众多模拟内存计算瓷砖与通过并行2D网格连接的专用数字计算核心相结合。这种愿景和硬件感知的训练技术预计将在可预见的未来在各种模型上提供与软件等效的神经网络准确性。

Leave a Comment

NVIDIA为企业和开发人员提供更可扩展、可定制的扩展现实流媒体

各行各业的组织正在使用扩展现实(XR)重新设计工作流程并提高生产力,无论是用于沉浸式培训还是协作设计审查。 随着一体化(AIO)头戴式显示器的普及使用,越来越多的团队已经采用和整合了XR技术。虽然AIO头戴式显示器简化了XR的使用,但其计算和渲染能力有限,可能会限制流媒体体验的图形质量。 NVIDIA通过其CloudXR套件使更多企业和开发者能够采用高质量的XR技术。CloudXR旨在极大简化流媒体,使任何使用AIO头戴式显示器或移动XR设备的人都可以在任何位置体验高保真度的沉浸式环境。 CloudXR套件结合了NVIDIA RTX GPU和NVIDIA RTX虚拟工作站(vWS)软件的强大功能,可将高保真度的XR应用程序流媒体传输到Android和iOS设备上。通过根据网络状况动态调整,CloudXR可实现最大限度的图像质量和帧率,为下一级别的无线增强现实和虚拟现实体验提供动力。 借助CloudXR,企业可以灵活有效地编排和扩展XR工作负载,开发者可以使用先进的平台为用户创建定制的XR产品。该套件在公共和私有网络上都提供高质量的流媒体。 爱立信和VMware是首批使用CloudXR的公司之一。 将XR工作流程提升到更高水平 CloudXR套件的性能与连接式虚拟现实体验相媲美。 它包括三个组件,包括几个更新: CloudXR基本组件,套件的底层流媒体层,带来了5G L4S优化、QoS算法和增强的日志记录工具等新改进。基本组件还包括SteamVR插件,以及示例客户端和新的服务器端应用程序编程接口。 CloudXR服务器扩展通过向Monado OpenXR运行时添加源代码,改进了服务器端接口。CloudXR基本组件中包含的新CloudXR服务器API和OpenXR API代表了扩展XR分发的入口。 CloudXR客户端扩展作为首个提供,包括为Unity编辑器构建的CloudXR插件。这使开发者可以使用已经熟悉的Unity开发工具构建自定义的CloudXR客户端应用程序。此外,Unity应用程序开发者可以更容易地使用插件在连接到CloudXR流媒体服务器之前构建具有品牌定制界面和大厅的应用程序。 团队可以利用NVIDIA RTX GPU的强大性能在移动设备上实现极致图形性能。企业可以扩展到数据中心和边缘网络,并使用NVIDIA RTX vWS软件流媒体到并发用户。 此外,用户可以通过高带宽、低延迟的5G信号从边缘流媒体流畅的XR内容,使用任何OpenVR或OpenXR应用程序。 合作伙伴体验企业级XR流媒体…

Leave a Comment

微软的必应聊天功能扩展到Chrome和Safari

微软的Bing Chat,这个由人工智能驱动的聊天机器人,正在突破其在微软专属浏览器上的限制,现在正在非微软浏览器上进行测试。这次扩展旨在为更广泛的用户群体提供类似ChatGPT的功能。人们对这一举动充满期待,因为由OpenAI的GPT-4模型驱动的Bing Chat承诺提供无缝的对话体验。然而,有报道称在其他浏览器上存在一些限制,用户们迫切希望看到这个新功能的展开情况。让我们更详细地了解微软将Bing Chat扩展到Google Chrome和苹果Safari平台的战略举措。 还可阅读:Elon Musk的xAI挑战OpenAI的ChatGPT Bing Chat跨浏览器:微软的最新举措 经过数月的猜测,微软于周一确认其人工智能聊天机器人Bing Chat将在微软生态系统之外的浏览器上提供。这一突破旨在扩展该科技巨头的人工智能能力,超越Bing移动应用和Microsoft Edge浏览器的限制。 向更广泛的受众开放 迄今为止,Bing Chat的服务仅限于微软产品的用户。然而,这次扩展将改变这一局面。随着Bing Chat进入Google Chrome和苹果Safari等其他流行浏览器,更广泛的用户群体将很快能够访问其智能对话功能。 与部分用户进行测试 微软传媒总监Caitlin Roulston在一份电子邮件声明中透露,Bing Chat目前正在Safari和Chrome上的部分用户进行测试阶段。一旦标准测试程序完成,该公司计划扩大访问范围,暗示即将进行全面推出。 还可阅读:OpenAI在ChatGPT中禁用“使用Bing浏览”功能:发生了什么? 在Chrome中尝试Bing Chat:如何访问 在Windows上早期采用Bing…

Leave a Comment

“遇见P+:文本到图像生成中的扩展文本逆转的丰富嵌入空间”

文本到图像合成是指从文本提示描述中生成逼真图像的过程。这项技术是人工智能领域中生成模型的一个分支,并在近年来越来越受到关注。 文本到图像生成旨在使神经网络能够解释和翻译人类语言为视觉表达,从而实现各种合成组合。此外,除非另有教导,生成网络会为相同的文本描述生成多个不同的图片。这对于收集新的想法或呈现我们心中准确的视觉是非常有用的,而在互联网上找不到。 这项技术在虚拟现实、增强现实、数字营销和娱乐等各个领域都具有潜在的应用。 在最常用的文本到图像生成网络中,我们可以找到扩散模型。 文本到图像扩散模型通过迭代地改进以文本输入为条件的噪声分布来生成图像。他们将给定的文本描述编码为潜在向量,该向量影响噪声分布,并通过扩散过程迭代地改进噪声分布。这个过程产生了与输入文本匹配的高分辨率和多样化的图像,通过捕捉和融合输入文本的视觉特征的U-net架构实现。 这些模型中的条件空间被称为P空间,由语言模型的标记嵌入空间定义。基本上,P代表文本条件空间,在合成过程中,已经通过文本编码器传递给U-net的输入实例“p”被注入到所有注意层中。 下面是去噪扩散模型的文本条件机制概述。 通过这个过程,由于只有一个实例“p”被馈送到U-net架构中,对编码文本的获得的分离和控制是有限的。 因此,作者引入了一个被称为P+的新的文本条件空间。 这个空间由多个文本条件组成,每个条件被注入到U-net的不同层中。这样,P+可以保证更高的表达能力和分离性,提供对合成图像的更好控制。正如作者所描述的,U-net的不同层对合成图像的属性具有不同程度的控制。特别是,粗糙层主要影响图像的结构,而细层主要影响图像的外观。 在介绍了P+空间之后,作者引入了一个相关的过程,称为扩展文本倒置(XTI)。它是经典文本倒置(TI)的重新审视版本,TI的过程是模型学习将几个输入图像中描述的特定概念表示为专用标记。在XTI中,目标是将输入图像反转为一组标记嵌入,每个层一个标记嵌入,即反转为P+。 为了清楚地说明两者之间的区别,想象一下将“绿色蜥蜴”的图片输入到一个两层的U-net中。TI的目标是获得输出“绿色蜥蜴”,而XTI需要输出两个不同的实例,在这种情况下是“绿色”和“蜥蜴”。 作者在他们的工作中证明了P+中扩展倒置过程不仅比TI更具表达能力和精确性,而且速度更快。 此外,增加P+上的分离性能够通过文本到图像生成进行混合,例如对象样式的混合。 下面是来自上述工作的一个示例。 这就是P+的概述,一个用于扩展文本倒置的丰富的文本条件空间。

Leave a Comment

见面LLaMaTab:一个在浏览器中完全运行LLM的开源Chrome扩展程序

LLaMaTab – 一个具有洞察力的Chrome扩展 一个名为LLaMaTab New Tab的Chrome附加程序将在每次新建标签页时显示不同的羊驼图片。这是一个愚蠢的附加程序,但在事情变得困难时,它可以让人继续前行。如果你正在使用Chrome并希望为浏览体验注入个性和乐趣,LLaMaTab New Tab是一个绝佳的扩展。此外,它还是保持动力和完成任务的绝佳方法。如果你想让Chrome的体验更有趣,LLaMaTab New Tab扩展正是你所需要的。 LLaMaTab New Tab的优势 使用LLaMaTab New Tab扩展,将一些轻松的元素注入你的日常网络活动中。 你可以通过添加羊驼照片或从一个预先制作的图库中选择照片来自定义LLaMaTab New Tab。 LLaMaTab New Tab是一个轻量级的附加程序,不会影响浏览器的性能。 特点 由于附加程序的代码是公开的,可以轻松修改以提供新的功能。 该附加程序已经翻译成多种语言,让用户可以使用他们偏好的语言工作。…

Leave a Comment

Can't find what you're looking for? Try refining your search: