Press "Enter" to skip to content

什么是超级NIC?

生成式人工智能是快速变化的数字领域中的最新转变。其中一个开创性的创新是一个相对较新的术语:SuperNIC。

什么是SuperNIC?

SuperNIC是一类新的网络加速器,旨在为以太网云中的超大规模人工智能工作负载提供超高速的网络连接。它利用基于收敛以太网(RoCE)技术的远程直接内存访问(RDMA),实现了GPU到GPU通信的闪电般快速的网络连接速度,最高可达到400Gb/s。

SuperNIC具备以下独特的特点:

  • 高速的数据包重新排序,确保数据包按照原始传输的顺序接收和处理,从而保持数据流的顺序完整性。
  • 使用实时遥测数据和网络感知算法进行先进的拥塞控制,以管理和预防人工智能网络中的拥塞。
  • 在输入/输出(I/O)路径上进行可编程计算,以实现人工智能云数据中心网络基础设施的定制和可扩展性。
  • 高效节能的低轮廓设计,以在有限的功率预算内有效容纳人工智能工作负载。
  • 全栈人工智能优化,包括计算、网络、存储、系统软件、通信库和应用框架。

最近,NVIDIA推出了世界上第一个专为人工智能计算定制的SuperNIC,基于BlueField-3网络平台。它是NVIDIA Spectrum-X平台的一部分,能够与Spectrum-4以太网交换机系统无缝集成。

NVIDIA BlueField-3 SuperNIC和Spectrum-4交换机系统共同构成了一个专为优化人工智能工作负载而设计的加速计算架构的基础。Spectrum-X始终提供高网络效率水平,胜过传统以太网环境。

“在人工智能推动下一波技术创新的世界中,BlueField-3 SuperNIC是重要的部件,” NVIDIA数据处理器和网络接口卡产品副总裁Yael Shenhav表示,“SuperNIC确保您的人工智能工作负载高效而快速地执行,成为推动人工智能计算未来的基础组件。”

人工智能和网络的不断演变

由于生成式人工智能和大型语言模型的出现,人工智能领域正在发生巨大变革。这些强大的技术打开了新的可能性,使计算机能够处理新的任务。

人工智能的成功在很大程度上依赖于GPU加速计算,用于处理海量数据、训练大型人工智能模型和实现实时推理。这种新的计算能力开辟了新的可能性,但也对以太网云网络提出了挑战。

传统以太网作为支撑互联网基础设施的技术,最初是为了提供广泛的兼容性和连接松散耦合的应用程序而设计的。它并不适用于处理现代人工智能工作负载的要求,这些要求包括紧密耦合的并行处理、快速数据传输和独特的通信模式,它们都需要优化的网络连接。

基础网络接口卡(NIC)是为通用计算、通用数据传输和互操作性而设计的,它们从未被设计用于应对人工智能工作负载的计算强度所带来的独特挑战。

标准的网络接口卡缺乏有效数据传输、低延迟和决定性性能对于人工智能任务至关重要的特性和功能。而SuperNIC则是专为现代人工智能工作负载而构建的。

人工智能计算环境中的SuperNIC优势

数据处理单元(DPU)提供了丰富的先进功能,提供高吞吐量、低延迟的网络连接等。自2020年以来,由于其卸载、加速和隔离数据中心基础设施处理的能力,DPUs在云计算领域越来越受欢迎。

虽然DPUs和SuperNICs具有一系列共同的特性和功能,但SuperNICs是专为加速人工智能网络而优化的。下图显示了它们的比较:

NVIDIA BlueField SuperNIC与DPU对比表

分布式AI训练和推理通信流程在成功上非常依赖网络带宽的可用性。SuperNIC具有时尚设计,比DPUs更有效地扩展,每个GPU可以提供令人印象深刻的400Gb/s的网络带宽。

在系统中,GPU与SuperNIC之间的1:1比率可以明显提高AI工作负载的效率,从而实现企业的更高生产力和优质结果。

SuperNIC的唯一目标是加速AI云计算的网络。因此,相比于需要大量计算资源从主机CPU卸载应用程序的DPU,它使用较少的计算能力来实现这一目标。

较低的计算要求还可以转化为较低的功耗,这在含有高达八个SuperNIC的系统中尤为重要。

SuperNIC的其他特点包括其专用的AI网络能力。当与经过优化的AI NVIDIA Spectrum-4交换机紧密结合时,它提供自适应路由、乱序数据包处理和优化的拥塞控制。这些先进特性对于加速以太网AI云环境非常重要。

革新AI云计算

NVIDIA BlueField-3 SuperNIC提供了数种有益于打造AI就绪基础设施的优势:

  • 最高AI工作负载效率:BlueField-3 SuperNIC为网络密集型的大规模并行计算量身打造,非常适合AI工作负载。它确保AI任务高效运行,避免瓶颈。
  • 一致可靠的性能:在多租户数据中心中,许多任务同时进行处理,BlueField-3 SuperNIC确保每个作业和租户的性能是隔离的、可预测的,并不会受到其他网络活动的影响。
  • 安全的多租户云基础设施:安全性是首要考虑因素,特别是在处理敏感信息的数据中心。BlueField-3 SuperNIC保持高水平的安全性,使多个租户能够共存,同时保持数据和处理的隔离。
  • 可扩展的网络基础设施:BlueField-3 SuperNIC的功能不受限制,具有高度的灵活性,能够适应各种其他网络基础设施需求。
  • 广泛的服务器制造商支持:BlueField-3 SuperNIC能够无缝地适配大多数企业级服务器,而不会在数据中心消耗过多的功耗。

了解更多关于NVIDIA BlueField-3 SuperNIC的信息,包括它们如何与NVIDIA的数据中心平台相结合,可以参阅白皮书:下一代网络,应对AI的新浪潮

Leave a Reply

Your email address will not be published. Required fields are marked *