Press "Enter" to skip to content

为何GPU在人工智能领域表现出色

GPU被称为人工智能的稀土金属,甚至是黄金,因为它们是当今生成式人工智能时代的基石。

三个技术原因以及许多故事解释了为什么会这样。每个原因都有多个值得探索的方面,但总体上有:

  • GPU采用并行处理。
  • GPU系统可扩展到超级计算高度。
  • 用于人工智能的GPU软件堆栈既广泛又深入。

总的结果是,GPU比CPU以更高的能效计算技术,并且更快地执行计算。这意味着它们在人工智能训练和推理方面提供领先的性能,并且在使用加速计算的各种应用中都能获得收益。

在斯坦福大学的人工智能人本中心发布的最新报告中提供了一些背景信息。报告中指出,GPU性能“自2003年以来增加了约7000倍”,每单位性能的价格“增加了5600倍”。

斯坦福大学关于GPU性能增长的报告
2023年的报告展示了GPU性能和价格/性能的急剧上升。

报告还引用了独立研究团体Epoch的分析和预测人工智能进展的数据。

Epoch在其网站上表示:“GPU是加速机器学习工作负载的主要计算平台,在过去五年中,几乎所有最大的模型都是在GPU上训练的… 从而对AI的最新进展做出了重要贡献。”

一份为美国政府评估人工智能技术的2020年研究得出了类似的结论。

“当计算生产和运营成本计算在内时,我们预计[前沿]人工智能芯片的成本效益比领先节点的CPU高出一个到三个量级,”研究报告中说。

在Hot Chips,一年一度的半导体和系统工程师聚会上,NVIDIA公司的首席科学家比尔·达利在一个主题演讲中表示,NVIDIA GPU在过去十年中在AI推理方面的性能提升了1000倍。

ChatGPT传播新闻

ChatGPT为GPU在人工智能方面的优势提供了一个强有力的例子。这个大型语言模型(LLM)是在数千个NVIDIA GPU上训练和运行的,用于服务超过1亿人使用的生成式AI。

自2018年推出以来,作为人工智能的行业标准基准,MLPerf详细记录了NVIDIA GPU在人工智能训练和推理中的领先性能。

例如,NVIDIA Grace Hopper超级芯片在最新一轮推理测试中表现优异。自那次测试以来,推出的推理软件NVIDIA TensorRT-LLM性能提升了8倍以上,能源使用和总拥有成本降低了5倍以上。事实上,自2019年基准测试发布以来,NVIDIA GPU在每一轮MLPerf训练和推理测试中都取得了胜利。

在2月,NVIDIA的GPU取得了领先的结果,在STAC-ML Markets基准测试中,在最苛刻的模型上每秒提供数千次推理,这是金融服务行业的关键技术性能指标。

RedHat软件工程团队在博客中简洁地概括了:“GPU已经成为人工智能的基础。”

AI内在机制

简要了解一下内在机制可以看到为什么GPU和AI是一个强大的组合。

一个AI模型,也称为神经网络,本质上是一个由一层层线性代数方程组成的数学千层酥皮饼。每个方程代表着一条数据与另一条数据相关的可能性。

就它们而言,GPU装载了成千上万个核心,这些微小的计算器并行工作,对构成AI模型的数学进行分析。这就是AI计算的工作原理。

高度优化的张量核心

随着时间的推移,NVIDIA的工程师已经对GPU核心进行了优化,以适应AI模型的不断发展需求。最新的GPU包括张量核心,其处理神经网络使用的矩阵运算的能力比第一代设计强60倍。

此外,NVIDIA Hopper张量核心GPU包括一个变压器引擎,可以自动调整到处理变压器模型所需的最佳精度,这种模型是生成式AI的一类神经网络。

与此同时,每一代GPU都拥有更多的内存和优化技术,可以在单个GPU或一组GPU中存储整个AI模型。

模型增长,系统扩展

AI模型的复杂性每年增长了10倍。

当前最先进的LLM模型,GPT4,拥有超过一万亿个参数,这是其数学密度的度量标准。与2018年的流行LLM的不到1亿个参数相比,这个数量有所增加。

图表显示AI推理在过去十年中的千倍性能提升
NVIDIA首席科学家Bill Dally在Hot Chips上的一次演讲中描述了过去十年中AI推理在单个GPU上的性能提升达到了千倍。

GPU系统通过联合挑战保持同步。通过其快速的NVLink互连和NVIDIA量子InfiniBand网络,它们可以扩展到超级计算机。

例如,大容量AI超级计算机DGX GH200将多达256个NVIDIA GH200 Grace Hopper Superchip组合成一个单个数据中心尺寸的GPU,共享144TB的内存。

每个GH200超级芯片都是一个单独的服务器,具有72个Arm Neoverse CPU核心和4个AI性能超过1000万亿次。新的四路Grace Hopper系统配置将288个Arm核心和16个AI性能超过2.3万亿次整合到一个单个计算节点中,具有高达2.3TB的高速内存。

11月份,NVIDIA H200 Tensor Core GPUs宣布搭载了最新的HBM3e内存技术,高达288GB。

软件无所不包

自2007年以来,GPU软件呈扩张之势,为从深度技术特性到高级应用的人工智能提供支持。

NVIDIA的人工智能平台包含数百个软件库和应用程序。CUDA编程语言和cuDNN-X深度学习库是开发者在此基础上创建软件的基础,例如NVIDIA NeMo,这是一个让用户构建、定制和运行自己的生成式人工智能模型推理的框架。

许多这些元素都作为开源软件提供,是软件开发者的必备选择。其中超过一百个被包装到NVIDIA AI Enterprise平台中,为需要完全安全和支持的公司准备。此外,它们也越来越多地作为API和服务提供给主要的云服务提供商,如NVIDIA DGX Cloud

SteerLM是NVIDIA最新的GPU人工智能软件更新之一,让用户能够在推理过程中微调模型。

2008年的70倍加速

关于成功案例,可以追溯到2008年,当时AI先驱安德鲁·吴是斯坦福大学的研究员。他和他的团队利用两个NVIDIA GeForce GTX 280 GPU,在处理一个拥有1亿个参数的AI模型时,相比使用CPU的几周时间,只用了一天,速度提升了70倍。

他们报告称:“现代的图形处理器远远超过了多核CPU的计算能力,有着改变深度无监督学习方法适用性的潜力。”

安德鲁·吴在关于GPU性能与AI的演讲中展示幻灯片的照片
安德鲁·吴在2015年的NVIDIA GTC演讲中,描述了他在AI方面使用GPU的经验。

在NVIDIA GTC的2015年演讲中,吴描述了他如何继续使用更多的GPU扩大其工作规模,在Google Brain和百度运行更大的模型。后来,他参与创办了Coursera,一个在线教育平台,教授了成千上万名AI学生。

吴将现代AI之父之一吉夫·辛顿列为受到他影响的人之一。他在GTC演讲中说:“我记得去找吉夫·辛顿,告诉他注意CUDA,我认为它可以帮助构建更大的神经网络。”

这位多伦多大学教授传播了这一信息。 “2009年,我记得在NIPS(现在改名为NeurIPS)上做了一次演讲,告诉大约1000名研究人员,他们都应该购买GPU,因为GPU将成为机器学习的未来,”辛顿在一份新闻报道中说。

GPU加速快进

人工智能的进步预计将影响全球经济。

麦肯锡在6月份的一份报告中估计,生成式人工智能在银行、医疗保健和零售等领域的63个应用案例中,每年能够增加2.6万亿至4.4万亿美元的价值。因此,不足为奇的是,斯坦福大学2023年的AI报告称,多数企业领导者预计将增加对人工智能的投资。

如今,超过40,000家公司使用NVIDIA GPU进行人工智能和加速计算,吸引了全球400万开发者的社区。他们共同推动着科学、医疗、金融等几乎每个行业的发展。

在最新的成就之中,NVIDIA 描述了通过使用人工智能在缓解气候变化方面实现了700,000倍的加速(请参见下面的视频)。这仅仅是NVIDIA将GPU的性能应用于人工智能及其他方面的众多方式之一。

了解 GPU如何应用于生产中的人工智能

Leave a Reply

Your email address will not be published. Required fields are marked *