Press "Enter" to skip to content

出色表现:基于RTX的大型语言模型使用TensorRT-LLM在Windows上提速4倍

生成式人工智能 是个人计算历史上最重要的趋势之一,为游戏、创作、视频、生产力、开发等领域带来了进步。

GeForce RTX 和搭载了专用AI处理器Tensor Cores的NVIDIA RTX GPU,正在原生地将生成式人工智能的能力带到超过1亿台Windows PC和工作站上。

如今,在Windows上通过TensorRT-LLM获得的生成式人工智能速度提高了4倍,该开源库可加速最新的AI大型语言模型(如Llama 2和Code Llama)的推理性能。上个月,TensorRT-LLM发布了适用于数据中心的版本。

NVIDIA还发布了帮助开发者加速LLMs的工具,包括使用TensorRT-LLM优化自定义模型的脚本、经过TensorRT优化的开源模型以及展示LLM响应的速度和质量的开发者参考项目。

现在,通过Automatic1111发布的稳定扩散式混合生成式人工智能在流行的Web UI中提供TensorRT加速,它的速度比之前最快版本快2倍。

此外,RTX Video Super Resolution (VSR) 1.5版本已经作为今天的Game Ready Driver发布的一部分,也将在下个月初发布的NVIDIA Studio Driver中提供。

通过TensorRT加速LLMs

LLMs正在推动生产力,参与聊天、文档和网页摘要、撰写电子邮件和博客等活动,它们是自动分析数据和生成大量内容的新型人工智能和其他软件的核心。

TensorRT-LLM是用于加速LLM推理的库,使开发者和终端用户能够在搭载RTX的Windows PC上使用速度提高了4倍的LLMs。

在较高的批处理大小下,这种加速显著改善了更复杂的LLM使用体验,如同时输出多个独特自动完成功能的写作和编程助手。结果是提高了性能和质量,用户可以选择最好的结果。

将LLMs能力与其他技术集成时,TensorRT-LLM加速也会带来好处,例如在检索增强生成(RAG)中,LLM与向量库或向量数据库配对。RAG使LLM能够基于特定数据集(如用户电子邮件或网站上的文章)提供更有针对性的答案。

具体而言,当提问“NVIDIA ACE如何生成情感回应?”时,如果使用LLLaMa 2基础模型进行查询,返回的响应是无用的。

更好的响应,更快的速度。

相反,将最新的GeForce新闻文章加载到向量库中并连接到同一Llama 2模型的RAG中,不仅能返回正确的答案(使用NeMo SteerLM),而且通过TensorRT-LLM加速的速度更快。这种速度和能力的组合为用户提供更智能的解决方案。

TensorRT-LLM将很快可以从NVIDIA开发者网站下载。TensorRT优化的开源模型以及与GeForce新闻作为样本项目的RAG演示可在ngc.nvidia.comGitHub.com/NVIDIA上获取。

自动加速

扩散式生成模型(如稳定扩散)用于想象和创造令人惊叹的新颖艺术作品。图像生成是一个迭代过程,可能需要数百个周期才能得到完美的输出。当在性能较低的计算机上进行时,这种迭代会累积数小时的等待时间。

TensorRT旨在通过层融合、精度校准、内核自动调优等功能加速AI模型,显著提高推理效率和速度。这使得它在实时应用和资源密集型任务中不可或缺。

而现在,TensorRT使稳定扩散速度加倍

与最受欢迎的发行版——Automatic1111的WebUI兼容,通过TensorRT加速的稳定扩散帮助用户更快迭代,花费更少时间等待计算机,更快地生成最终图像。在GeForce RTX 4090上,它比Apple M2 Ultra搭载Mac的顶级实现运行速度快7倍。今天可以下载该扩展

稳定扩散流水线的TensorRT演示为开发人员提供了一个参考实现,展示了如何准备扩散模型并使用TensorRT进行加速。这是对于希望为扩散流水线提供超强推理能力的开发人员的起点,为应用程序带来闪电般快速的推理。

超赞的视频

AI正在提升所有用户的日常PC体验。从几乎任何源头(如YouTube、Twitch、Prime Video、Disney+等等)流式播放视频是PC上最受欢迎的活动之一。在AI和RTX的帮助下,图像质量正在得到另一次提升。

RTX VSR是一项突破性的AI像素处理技术,通过减少或消除由视频压缩引起的伪影,提高了流式视频内容的质量。它还能够增强边缘和细节。

现在就可以使用RTX VSR 1.5,通过更新的模型进一步提高视觉质量,去除以原生分辨率播放的内容中的伪影,并为基于NVIDIA Turing架构的RTX GPU(包括专业的RTX和GeForce RTX 20系列GPU)提供支持。

重新训练VSR AI模型有助于学习准确识别微小细节和压缩伪影之间的区别。因此,AI增强图像在放大过程中更准确地保留细节。更多的细节变得更加清晰可见,整体图像更加锐利和清晰。

RTX Video Super Resolution v1.5提高了细节和清晰度。

版本1.5的新增功能是能够去除在显示器的原生分辨率下播放的视频中的伪影。最初的版本仅在视频被放大时增强视频。现在,例如,流式播放到1080p分辨率显示器的1080p视频将看起来更加流畅,因为重度伪影被减少。

RTX VSR现在可以去除以其原生分辨率播放的视频中的伪影。

RTX VSR 1.5今天对所有RTX用户提供,可以在最新的Game Ready驱动中使用。即将发布的NVIDIA Studio驱动程序中也将提供该版本,计划在下个月初发布。

RTX VSR是NVIDIA软件、工具、库和SDK之一,包括上述提到的,还有DLSS、Omniverse、AI Workbench等等,这些都帮助将400多个AI应用程序和游戏带给消费者。

AI时代已经到来。而RTX正在加速其演变的每一步。

Leave a Reply

Your email address will not be published. Required fields are marked *