NVIDIA为一些最大的亚马逊Titan基础模型提供训练能力

关于大型语言模型的一切都是巨大的——巨大的模型在数千个NVIDIA GPU上的大规模数据集上进行训练。

这对于追求生成式人工智能的公司来说会带来很多大的挑战。 NVIDIA NeMo是一个构建、定制和运行LLM的框架，有助于克服这些挑战。

亚马逊网络服务的一支由经验丰富的科学家和开发人员组成的团队正在创建Amazon Titan为Amazon Bedrock提供基础模型，后者是一项基于基础模型的生成式人工智能服务，并在过去的几个月中一直使用NVIDIA NeMo。

“与NeMo合作的一个重要原因是它的可扩展性，它具有优化功能，可以在高GPU利用率下运行，并使我们能够扩展到更大的集群，以便我们能够更快地训练和交付模型给我们的客户，”亚马逊网络服务的高级应用科学家Leonard Lausen说。

融入大规模环境

NeMo中的并行技术使得大规模LLM的训练更加高效。与AWS的弹性适配器相结合，可以将LLM分散到多个GPU上加速训练。

EFA提供了一个UltraCluster网络基础设施，可以直接连接超过10,000个GPU，并通过NVIDIA GPUDirect绕过操作系统和CPU。

这种组合使得AWS的科学家们能够提供优秀的模型质量，这是仅依赖数据并行化方法无法实现的。

适用于各种规模的框架

“NeMo的灵活性，”Lausen说，“使得AWS能够根据新的Titan模型、数据集和基础设施的特点来定制训练软件。”

AWS的创新包括从Amazon Simple Storage Service（Amazon S3）到GPU集群的高效流处理。“由于NeMo基于像PyTorch Lightning这样的流行库构建，这些改进很容易融入其中，这些库标准化了LLM训练流程组件，”Lausen说。

AWS和NVIDIA的目标是吸取他们的合作所学，为顾客带来像NVIDIA NeMo这样的产品和像Amazon Titan这样的服务。