Press "Enter" to skip to content

Tag: Inference

Ray与NVIDIA AI携手合作,帮助开发者构建、调优、训练和扩展生产LLM

大型语言模型的开发即将达到超音速速度,这要归功于NVIDIA和Anyscale的合作。 在其年度Ray Summit开发者大会上,Anyscale——快速增长的可扩展计算的开源统一计算框架背后的公司——今天宣布将NVIDIA AI引入Ray开源和Anyscale平台。它还将集成到Anyscale Endpoints中,这是一项今天宣布的新服务,可方便应用开发人员使用最流行的开源模型在其应用程序中以具有成本效益的方式嵌入LLMs。 这些集成可以显著加速生成式AI的开发和效率,同时提高生产AI的安全性,从专有的LLMs到诸如Code Llama、Falcon、Llama 2、SDXL等开源模型。 开发人员可以灵活选择使用Ray部署开源NVIDIA软件,或选择在Anyscale平台上运行NVIDIA AI企业软件,以进行全面支持和安全的生产部署。 Ray和Anyscale平台被广泛用于开发人员构建用于生成式AI应用程序的先进LLMs,这些应用程序可以驱动智能聊天机器人、编码协助和强大的搜索和摘要工具。 NVIDIA和Anyscale提供速度、节省和效率 生成式AI应用引起了全球企业的关注。调整、增强和运行LLMs需要大量的投资和专业知识。NVIDIA和Anyscale共同努力,可以通过多种应用集成帮助降低生成式AI开发和部署的成本和复杂性。 上周宣布的新的开源软件NVIDIA TensorRT-LLM将支持Anyscale的产品,以提高LLM的性能和效率,从而实现成本节约。在NVIDIA AI企业软件平台中也得到支持,Tensor-RT LLM可自动扩展推理以在多个GPU上并行运行模型,与上一代GPU相比,可以在运行NVIDIA H100 Tensor Core GPU时提供高达8倍的性能。 TensorRT-LLM可以自动扩展推理以在多个GPU上并行运行模型,并包括用于各种流行LLM模型的自定义GPU内核和优化。它还实现了NVIDIA H100 Tensor Core…

Leave a Comment

英伟达首席科学家比尔·达利将在Hot Chips发表主题演讲

Bill Dally是世界上最杰出的计算机科学家之一,也是NVIDIA研究工作的负责人。他将在Hot Chips大会的主题演讲中描述推动加速计算和人工智能的力量。Hot Chips是一年一度的领先处理器和系统架构师聚会。 Dally将详细介绍GPU芯片、系统和软件的进展,这些进展为各种应用带来了前所未有的性能提升。演讲将展示如何利用混合精度计算、高速互连和稀疏性等技术将推动生成式人工智能的大语言模型提升到新的水平。 “现在是成为计算机工程师的非常激动人心的时刻,” Dally在2月份入选硅谷工程理事会名人堂时如是说道。 Dally的主题演讲将于8月29日上午9点PT开启Hot Chips的第三天。可以在线注册参加虚拟活动。位于帕洛阿尔托的斯坦福大学的现场活动已经售罄。 Dally的职业涵盖近四十年,他开创了许多构成当今超级计算机和网络架构的基础技术。作为NVIDIA研究部门的负责人,他领导着一个由全球300多名发明家组成的团队,致力于发明各种应用的技术,包括人工智能、高性能计算、图形和网络。 在2009年加入NVIDIA之前,他曾担任斯坦福大学计算机科学系主任长达四年之久。 Dally是美国国家工程院的院士,也是美国艺术与科学院、电气和电子工程师学会以及计算机协会的会士。他撰写了四本教科书,发表了250多篇论文,拥有120多项专利,并获得了IEEE Seymour Cray奖、ACM Eckert-Mauchly奖和ACM Maurice Wilkes奖。 NVIDIA在Hot Chips的更多演讲 在另一场Hot Chips演讲中,NVIDIA网络副总裁Kevin Deierling将描述NVIDIA BlueField DPUs和NVIDIA Spectrum网络交换机在根据不断变化的网络流量和用户规则分配资源方面的灵活性。…

Leave a Comment

NVIDIA NeMo与初创公司合作,创造了生成式人工智能的成功故事

机器学习帮助了Waseem Alshikh在大学中翻阅教科书。现在,他正在利用生成式人工智能为数百家公司创建内容。 Alshikh出生并长大在叙利亚,他不会讲英语,但对软件非常熟悉,这个才能在他进入黎巴嫩的大学时对他非常有帮助。 “第一天他们给了我一堆教科书,每本都有一千页,而且都是用英语写的,”他回忆道。 所以,他写了一个程序——一个简单但有效的统计分类器来总结这些书籍——然后他学习了这些总结。 从概念到公司 2014年,他与在迪拜工作时认识的企业家May Habib分享了他的故事。他们约定创建一家初创公司,利用机器学习帮助市场部门——这些部门总是面临做更多事情用更少资源的压力——快速创建网页、博客、广告等内容。 “起初,技术还不成熟,直到变形金刚模型被宣布出来——我们可以在这个基础上进行开发,”这家初创公司的首席技术官Alshikh说。 作家兼联合创始人Habib,首席执行官,和Alshikh,首席技术官。 “我们找到了几名工程师,花了将近六个月的时间构建我们的第一个模型,一个几乎无法工作且具有大约1.28亿参数的神经网络,这是衡量AI模型能力的常用指标之一。” 在发展过程中,这家年轻的公司赢得了一些业务,改名为Writer,并与NVIDIA建立了联系。 加速的初创公司 “一旦我们接触到NVIDIA NeMo,我们就能够用三个、然后是20个,现在是40亿个参数构建工业级模型,而且我们还在不断扩展,”他说。 NeMo是一个应用框架,帮助企业整理训练数据集,构建和定制大型语言模型(LLMs),并在生产中进行规模化运行。从韩国到瑞典的组织都在使用它来为本地语言和行业定制LLMs。 “在使用NeMo之前,我们花了四个半月的时间构建一个新的百亿参数模型。现在我们可以在16天内完成——这简直让人难以置信,”Alshikh说。 模型创造机会 今年上半年,这家初创公司的不到20名AI工程师使用NeMo开发了10个模型,每个模型都有300亿个或更多参数。 这意味着巨大的机会。现在有数百家企业使用Writer为金融、医疗保健、零售等垂直市场定制的模型。 Writer的Recap工具根据采访或活动的音频记录创建书面摘要。 这家初创公司的客户名单包括德勤、欧莱雅、Intuit、优步和许多财富500强公司。 Writer在NeMo上取得的成功只是故事的开始。许多其他公司已经下载了NeMo。 这个软件将很快对任何人都可用。它是NVIDIA AI…

Leave a Comment

直播自台北: NVIDIA CEO 发布面向各行业的 Gen AI 平台

在疫情以来的首次现场主题演讲中,NVIDIA的创始人兼CEO黄仁勋今天在台北举行的COMPUTEX大会上宣布了一些平台,这些平台可以帮助公司乘风破浪,参与到一波历史性的生成式人工智能浪潮中,这个浪潮正在改变从广告到制造业再到电信等行业。 “我们回来了,”黄仁勋在他的家中厨房进行了几年的虚拟主题演讲之后在舞台上大声喊道。“我已经有将近四年没有公开演讲了–祝我好运!” 他向约3500名观众演讲了近两个小时,介绍了加速计算服务、软件和系统,这些都使新的商业模式成为可能,也让现有的商业模式更加高效。 “加速计算和人工智能标志着计算机的重新发明,”黄仁勋说道,他在过去一周在家乡的旅行每天都被当地媒体追踪报道。 为了展示它的强大,他使用了他所在的巨大的8K墙,展示了一个文本提示,生成了一首主题歌,可以随意地唱,就像任何卡拉OK歌曲一样。黄仁勋偶尔用他的家乡语言和观众开玩笑,并短暂地带领观众唱了这首新歌。 “现在我们处于一个新的计算时代的临界点,加速计算和人工智能已经被全球几乎所有的计算和云计算公司所接受,”他说道,指出现在有40,000家大型公司和15,000家初创公司使用NVIDIA技术,去年CUDA软件下载量达到2500万次。 主题演讲的重要新闻公告 Grace Hopper提供大内存超级计算机,用于生成式人工智能。 模块化参考架构可以创建100多个加速服务器变体。 WPP和NVIDIA在Omniverse中创建数字广告内容引擎。 SoftBank和NVIDIA在日本建立5G和生成式人工智能数据中心。 网络技术加速基于以太网的人工智能云。 NVIDIA ACE for Games利用生成式人工智能为角色赋予生命。 全球的电子制造商都在使用NVIDIA人工智能。 企业人工智能的新引擎 对于需要最佳人工智能性能的企业,他推出了DGX GH200,一个大内存人工智能超级计算机。它使用NVIDIA NVLink将多达256个NVIDIA GH200 Grace Hopper超级芯片组合成一个单一的数据中心大小的GPU。…

Leave a Comment

NYU与NVIDIA合作开发大型语言模型以预测患者再次住院

从医院出院对于患者来说是一个重要的里程碑,但有时,这并不意味着他们的康复之路已经结束。在美国,近15%的住院患者在初始出院后的30天内再次入院,这通常与患者和医院都面临更糟糕的结果和更高的成本有关。 纽约大学(New York University)的医学中心纽约大学朗格尼医疗中心(NYU Langone Health)的研究人员与英伟达专家合作,开发了一个大型语言模型(LLM),可以预测患者未来30天内再次入院的风险,以及其他临床结果。 在该医疗系统的6个住院设施中部署的NYUTron模型——今天在科学杂志《自然》上亮相——为医生提供了人工智能驱动的洞见,可以帮助他们识别需要临床干预以减少再入院风险的患者。 “当你从医院出院时,你不希望他们需要返回,否则你可能应该让他们在医院里待更长时间,”NYU Grossman School of Medicine的放射学和神经外科助理教授Eric Oermann博士说,并且他是NYUTron的主要合作者之一。“使用AI模型的分析,我们可以很快赋予临床医生防止或修复使患者再次入院风险增加的情况的能力。” 到目前为止,该模型已经应用于纽约大学医疗系统中超过50,000名患者,通过电子邮件通知与医生共享再入院风险的预测结果。Oermann的团队接下来计划进行一项临床试验,以测试基于NYUTron的分析是否能够降低再入院率。 解决快速再入院等威胁 美国政府跟踪30天再入院率作为医院提供的医疗质量的指标。具有高再入院率的医疗机构将受到罚款,这种监管程度促使医院改善其出院流程。 有很多原因使最近出院的患者可能需要再次入院,其中包括感染、抗生素过度开药、手术引流管早期拆除等。如果这些风险因素能够更早地被发现,医生可以通过调整治疗计划或在医院内对患者进行更长时间的监测来进行干预。 “虽然自1980年代以来就有计算模型来预测患者再入院,但我们将其视为一项自然语言处理任务,需要具有临床文本的健康系统规模语料库,”Oermann说。“我们训练了LLM,让它在电子健康记录的非结构化数据上进行学习,以查看它是否能够捕捉到人们之前未考虑的见解。” NYUTron是在纽约大学朗格尼医疗中心的10年健康记录上进行预训练的LLM:超过40亿字的临床笔记,代表近40万名患者。该模型的准确性比预测再入院的最先进机器学习模型提高了10%以上。 在LLM针对30天再入院的初始使用案例进行了训练后,该团队能够在大约一周内推出其他四种预测算法。这些算法包括预测患者住院时间的长度、住院期间死亡的可能性以及患者保险理赔被拒绝的机会。 “经营医院在某些方面就像管理酒店,”Oermann说。“帮助医院更有效地运营的见解意味着有更多病床和更好的护理服务,可以为更多的患者提供帮助。” 从训练到部署的LLM NYUTron是一个具有数亿参数的LLM,使用NVIDIA NeMo Megatron框架在大型NVIDIA…

Leave a Comment