大型语言模型的开发即将达到超音速速度,这要归功于NVIDIA和Anyscale的合作。
在其年度Ray Summit开发者大会上,Anyscale——快速增长的可扩展计算的开源统一计算框架背后的公司——今天宣布将NVIDIA AI引入Ray开源和Anyscale平台。它还将集成到Anyscale Endpoints中,这是一项今天宣布的新服务,可方便应用开发人员使用最流行的开源模型在其应用程序中以具有成本效益的方式嵌入LLMs。
这些集成可以显著加速生成式AI的开发和效率,同时提高生产AI的安全性,从专有的LLMs到诸如Code Llama、Falcon、Llama 2、SDXL等开源模型。
开发人员可以灵活选择使用Ray部署开源NVIDIA软件,或选择在Anyscale平台上运行NVIDIA AI企业软件,以进行全面支持和安全的生产部署。
Ray和Anyscale平台被广泛用于开发人员构建用于生成式AI应用程序的先进LLMs,这些应用程序可以驱动智能聊天机器人、编码协助和强大的搜索和摘要工具。
NVIDIA和Anyscale提供速度、节省和效率
生成式AI应用引起了全球企业的关注。调整、增强和运行LLMs需要大量的投资和专业知识。NVIDIA和Anyscale共同努力,可以通过多种应用集成帮助降低生成式AI开发和部署的成本和复杂性。
上周宣布的新的开源软件NVIDIA TensorRT-LLM将支持Anyscale的产品,以提高LLM的性能和效率,从而实现成本节约。在NVIDIA AI企业软件平台中也得到支持,Tensor-RT LLM可自动扩展推理以在多个GPU上并行运行模型,与上一代GPU相比,可以在运行NVIDIA H100 Tensor Core GPU时提供高达8倍的性能。
TensorRT-LLM可以自动扩展推理以在多个GPU上并行运行模型,并包括用于各种流行LLM模型的自定义GPU内核和优化。它还实现了NVIDIA H100 Tensor Core GPU Transformer Engine中提供的新的FP8数值格式,并提供易于使用和可定制的Python接口。
NVIDIA Triton推理服务器软件支持在GPU、CPU和其他处理器上跨云端、数据中心、边缘和嵌入设备进行推理。其集成可以帮助Ray开发人员在部署来自多个深度学习和机器学习框架的AI模型时提高效率,包括TensorRT、TensorFlow、PyTorch、ONNX、OpenVINO、Python、RAPIDS XGBoost等。
通过NVIDIA NeMo框架,Ray用户将能够轻松使用业务数据对LLMs进行微调和定制,为个体企业的独特优势铺平道路。
NeMo是一个端到端的云原生框架,可以在任何地方构建、定制和部署生成式AI模型。它具有训练和推断框架、保护工具包、数据策划工具和预训练模型,为企业提供了一种简单、具有成本效益和快速采用生成式AI的方式。
开源或全面支持的生产AI的选择
Ray开源和Anyscale平台使开发人员能够轻松从开源转移到在云端大规模部署生产AI。
Anyscale平台提供完全托管的企业级统一计算,可以通过Ray轻松构建、部署和管理可扩展的AI和Python应用程序,帮助客户以显著降低的成本更快地将AI产品推向市场。
无论开发人员使用Ray开源还是受支持的Anyscale平台,Anyscale的核心功能都可以帮助他们轻松编排LLM工作负载。NVIDIA AI的集成可以帮助开发人员以更高的效率构建、训练、调整和扩展AI。
Ray和Anyscale平台在领先云端的加速计算上运行,可以选择在混合或多云计算上运行。这有助于开发人员在需要更多计算资源以实现成功的LLM部署时轻松扩展。
此次合作还将使开发人员可以在他们的工作站上使用NVIDIA AI Workbench构建模型,一旦到了投入生产的时候,可以轻松地在混合或多云加速计算中进行扩展。
NVIDIA与Anyscale的AI集成正在开发中,预计将于今年年底提供。
开发人员可以注册获取有关此集成的最新消息,以及免费90天评估NVIDIA AI Enterprise。
要了解更多信息,请参加本周在旧金山举行的Ray Summit,或观看以下演示视频。
请查看有关NVIDIA软件路线图的通知。