Press "Enter" to skip to content

人工智能的奥运会:机器学习系统的基准测试

基准如何孕育突破?

你无法改进你没有测量的东西。 — 彼得·德鲁克

奥林匹克五环。图片由作者创建。

四分钟英里:重新定义跑步的基准

多年来,完成英里内的跑步在四分钟内被认为不仅是一个艰巨的挑战,而且被许多人认为是不可能的壮举。这是一个心理和身体的基准,许多人认为不可达到。医生和运动专家推测人体无法以那么快、那么长的时间跑步。这种信念根深蒂固,甚至有人提出尝试可能会导致致命后果。

罗杰·班尼斯特爵士是一名英国中距离跑者和医学生,他对此持不同看法。尽管他认识到挑战的存在,但他认为障碍更多是心理上的而不是生理上的。班尼斯特采用科学方法对其训练进行分解,严格计时每一段英里。他还采用了基于间歇训练的严格训练计划,并在创纪录尝试之前为自己设定了较小的基准。

1954年5月6日,在英格兰牛津的一条跑道上,在他的朋友克里斯·布拉舍尔和克里斯·查特威的帮助下,班尼斯特尝试突破四分钟的壁垒。他以3分59.4秒完成了英里,打破了这个门槛,创造了历史。

罗杰·班尼斯特在比赛中奔跑。图片来源:挪威百科全书(CC-BY 4.0)

班尼斯特取得的成就的后果是非常出乎意料的。古恩德·哈格(Gunder Hägg)在1945年创下的纪录(4分1.4秒)在班尼斯特出现之前已经保持了近十年。然而,一旦突破了四分钟英里的基准,其他人很快就效仿了。班尼斯特跑步后的46天,约翰·兰迪以3分57.9秒完成了一英里。在接下来的十年里,纪录又被打破了5次。目前的纪录由希查姆·埃尔·格鲁吉(Hicham El Guerrouj)创下,为3分43.1秒。

1900年至2000年间的世界纪录英里时间。请注意,在罗杰·班尼斯特打破四分钟英里基准之前的1945年和1954年之间存在间隙,否则下降趋势几乎是线性的。图由作者创建。

班尼斯特的成就展示了基准的力量,不仅作为绩效衡量标准,还作为变革推动因素。一旦突破了四分钟的“基准”,它重新定义了运动员所能达到的可能性。这个障碍不仅存在于思想中,也存在于赛道上。

四分钟英里体现了基准对各个领域的变革力量。基准提供了一种衡量特定任务绩效改进的方式,让我们有办法与他人进行比较。这是奥林匹克等体育赛事的整个基础。然而,只有当参与其中的社区能够决定共同追求的共同目标时,基准才有用。

在机器学习和计算机科学领域,基准充当着共同的奥林匹克——一个宏大的竞技场,算法、系统和方法论在其中竞争,不是为了奖牌,而是为了进步的自豪感和创新的动力。就像运动员为了追求奥运会金牌而训练多年来将毫秒级时间削减,开发人员和研究人员优化他们的模型和系统以提高性能,努力在既定的基准上超越。

基准的艺术和科学在于建立这个共同目标。这不仅仅是设定一个任务,而是确保它捕捉到现实世界的挑战的本质,推动着界限的扩展,同时保持相关性和适用性。选择不当的基准可能会使研究人员走上错误的道路,优化对于现实世界应用没有改进的任务。设计良好的基准可以引导整个社区朝着重新定义领域的突破迈进。

因此,尽管基准测试是比较和竞争的工具,其真正价值在于能够团结一个共同愿景的社区。就像班尼斯特的跑步不仅打破了记录,而且重新定义了运动潜力,一个精心构思的基准测试可以提升整个学科,改变范式,引领创新的新时代。

在本文中,我们将通过回顾基准测试在推动计算机科学和机器学习方面的关键作用的历史,讨论基准测试机器学习系统的最新趋势,并了解它如何推动硬件行业的创新。

基准测试计算系统:SPEC

在上世纪80年代,随着个人电脑革命的兴起,对比较不同计算机系统性能的标准化指标的需求日益增长:基准测试。在有标准化基准测试之前,制造商通常会开发和使用自己的定制基准测试。这些基准测试往往突出显示其机器的优势,而淡化了其弱点。人们逐渐意识到,需要一种中立、普遍接受的基准测试来进行比较。

为了解决这个挑战,开发了系统性能评估合作组织(SPEC)。这个组织的成员包括硬件供应商、研究人员和其他对创建一种用于基准测试中央处理单元(CPU)的通用标准感兴趣的利益相关者。

SPEC的第一个重大贡献是SPEC89基准套件,这是一个开创性的产业标准CPU基准测试的尝试之一。SPEC的基准测试侧重于真实世界的应用和计算任务,旨在提供对最终用户而言重要的指标,而不是晦涩或专业领域的测量。

然而,随着基准测试的发展,出现了一个有趣的现象:所谓的“基准效应”。随着SPEC基准测试成为衡量CPU性能的黄金标准,CPU设计师开始优化他们的设计以适应SPEC的基准测试。实质上,因为业界已经将SPEC基准测试视为衡量整体性能的指标,制造商有很强的动力确保他们的CPU在这些测试中表现出色,即使这可能意味着在非SPEC任务上牺牲性能。

这并不一定是SPEC的意图,这在计算机科学界引发了激烈的辩论。这些基准测试是否真正代表了实际性能?还是它们推动了一种以基准测试本身为目标而不是手段的狭隘视野?

认识到这些挑战,SPEC多年来不断更新其基准测试,以保持领先并防止过度优化。他们的基准测试套件扩展到涵盖不同领域,从整数和浮点计算到图形、文件系统等更具特定领域的任务。

SPEC及其基准测试的故事突显了基准测试对整个行业方向的深远影响。基准测试不仅仅是衡量性能的手段,它们影响着性能。这是标准化的力量的证明,但也是一个关于当一个单一度量成为优化的焦点时可能出现的意外后果的警示。

如今,SPEC基准测试以及其他基准测试继续在塑造计算机硬件行业和指导消费者和企业的购买决策方面发挥着重要作用。

基准测试深度学习:ImageNet

在2000年代末,计算机视觉是人工智能的一个子领域,专注于使机器能够根据视觉数据进行解释和决策,正在努力取得进展。传统技术在许多任务上已经取得了进展,但在性能上达到了一个瓶颈。当时可用的方法严重依赖手工设计的特征,需要专家为每个任务精心设计和选择特定的特征。这是一个繁琐的过程,有很多限制。

然后,ImageNet发布了,这是由李飞飞博士和她的团队发起的一个庞大的视觉数据库。ImageNet提供了数百万个带有标签的图像,涵盖了数千个类别。这个数据集的规模是前所未有的,只有通过云计算的方法,如亚马逊的机械土耳其,才能实现数据标注的众包。ImageNet是第一个数据集基准测试之一,自发布以来,ImageNet论文已被引用超过5万次。

ImageNet图像的视觉编译。图片来源:Gluon(CC-BY 4.0)

但是收集数据集只是个开始。2010年,ImageNet大规模视觉识别挑战赛(ILSVRC)开始了。这个挑战的目标很简单,但规模庞大:自动将图像分类到1,000个类别之一。这个基准挑战将提供一个客观的衡量计算机视觉进展的标准,远超过以往的尝试。

最初的几年,与传统方法相比只有渐进性的改进。然而,2012年的挑战见证了一次变革性的转变。多伦多大学的Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton领导的团队引入了一种称为“AlexNet”的深度卷积神经网络(CNN)。他们的模型实现了15.3%的错误率,将前一年的错误率几乎减半!

ImageNet大规模视觉识别挑战的错误率。2012年引入深度学习后,准确性显著提高,并继续改善。人类的错误率约为5%。图片来源:2018年NIH/RSNA/ACR/The Academy Workshop。该图片根据知识共享署名4.0国际许可证(CC BY 4.0)进行复制。

是什么使这成为可能?深度学习,尤其是CNN,具有直接从原始像素学习特征的能力,消除了手动特征处理的需要。在足够的数据和计算能力的支持下,这些网络能够发现远远超出传统方法能够处理的复杂模式。

AlexNet的成功是人工智能发展中的一个分水岭时刻。2012年后的几年中,深度学习方法主导了ImageNet挑战,将错误率不断降低。基准测试的明确信息是不可否认的:深度学习,曾经是机器学习中的一个小众领域,将彻底改变计算机视觉。

它不仅如此。ILSVRC的成功作为一个催化剂,推动深度学习走到了不仅仅是计算机视觉,而是从自然语言处理到游戏玩耍等人工智能的众多领域。这个挑战凸显了深度学习的潜力,吸引了研究人员、资金和关注。

通过设立明确而具有挑战性的基准,ImageNet挑战在改变人工智能研究方向方面发挥了关键作用,引领了我们今天所见到的以深度学习为驱动的人工智能复兴。

机器学习系统的基准测试:MLPerf

像SPEC和ImageNet这样的基准测试的转变性影响自然引发了一个问题:下一步是什么?随着深度学习模型变得越来越复杂,它们的计算需求也变得复杂。这使人们开始关注另一个关键组成部分——为这些模型提供动力的硬件。这就是MLPerf。

MLPerf是一个涉及行业巨头和学术机构的合作努力,旨在创建一套标准基准测试,以衡量机器学习硬件、软件和云平台的性能。顾名思义,MLPerf专门关注机器学习,涵盖了从图像分类到强化学习的广泛任务。其目标是清晰地提供一个在“最佳性能”声称变得普遍但常常基于不一致的标准或选择性指标的领域中的明确性。

MLPerf的引入为科技行业提供了一个迫切需要的统一标准。对于学术界来说,它提供了一个明确的性能目标,促进了一个可以轻松衡量和比较算法创新的环境。对于行业,特别是硬件制造商来说,它既是一个挑战,也是一个机会。一个新的芯片再也不能以模糊的关于其机器学习性能的声明推出了,现在有了一个普遍接受的基准测试,可以对任何这样的声明进行测试。

就像SPEC影响了CPU设计一样,MLPerf开始塑造人工智能硬件的方向。公司开始根据MLPerf基准进行设计优化,这不仅仅是关于原始性能。这些基准还融入了效率指标,鼓励提供速度和能源效率的创新——这在巨大的Transformer模型和环境意识的时代是一个紧迫问题。这些基准测试常常被大型科技公司,如Nvidia和AMD,用来展示他们的新硬件。

Nvidia H100在MLPerf推断v3.0数据中心中的性能与以前的Nvidia A100系统相比的归一化性能。可以看到,与上一代芯片相比,H100在完整尺寸的大型语言模型BERT上提速4倍。图片来源:MLCommons和Nvidia博客。图片经过MLCommons许可复制。

如今,MLCommons管理了数十个类似MLPerf的基准测试,包括:

  • MLPerf训练。用于评估训练机器学习模型时的系统性能(更与研究人员相关)。
  • MLPerf推断。用于评估通过云端托管模型时的系统性能(更与通过云端托管模型的公司相关)。MLPerf推断有多个版本,专注于数据中心、移动设备、边缘设备和小型机器学习设备。
  • MLPerf训练HPC。用于评估与高性能计算系统相关的工作负载。
  • MLPerf存储。用于评估与存储系统相关的工作负载。

但是,MLPerf并非没有批评。与任何获得关注的基准测试一样,人们担心“过拟合”基准测试,即设计过度优化基准测试,可能以实际适用性为代价。此外,保持基准测试的相关性并更新其以反映机器学习领域的快速发展是一个永恒的挑战。

然而,MLPerf的故事,就像它的前辈们一样,强调了一个基本的真理:基准测试推动进步。它们不仅仅是衡量技术水平的手段,它们也塑造着技术水平。通过设定明确而具有挑战性的目标,它们集中了集体的力量,推动行业和研究社区开创新局面。在人工智能不断重新定义可能性的世界中,拥有一个用于应对其复杂性的指南变得不仅仅是令人向往的,而且是必不可少的。

基于生成式人工智能的基准测试挑战

除了人工智能硬件外,大型语言模型作为生成式人工智能的一种形式,是基准测试工作的重点。更一般地称为基础模型,与硬件或许多其他类型的机器学习模型相比,这些模型更难以进行基准测试。

这是因为语言模型的成功不仅仅取决于原始计算速度或在狭义任务中的准确性。相反,它取决于模型在各种提示和上下文中生成连贯、相关和信息丰富的回答的能力。此外,评估回答的“质量”本质上是主观的,并且可能因应用程序或评估人员的偏见而有所不同。鉴于这些复杂性,用于GPT-3或BERT等语言模型的基准测试必须比传统基准测试更多样化和多方面。

最知名的语言模型基准测试之一是2018年开发的通用语言理解评估(GLUE)基准测试。GLUE不仅仅是一个任务,它是由九个不同的语言任务组成的集合,从情感分析到文本蕴含等各种任务。其目的是提供全面评估,确保模型不仅在一个任务上表现优秀,而是真正能够理解各种语言挑战。

GLUE的影响立即而深远。首次出现了一个明确、一致的基准测试,可以评估语言模型。很快,科技巨头和学术界都参与其中,争夺GLUE排行榜的首位。

当GPT-2首次根据GLUE基准测试进行评估时,它获得了一个当时令人惊叹的分数,超过了许多模型。这不仅仅是对GPT-2能力的证明,也强调了GLUE的价值,它提供了一个明确的衡量标准。宣称“在GLUE上的最新技术”成为社区中令人向往的认可。

然而,GLUE的成功也是一把双刃剑。到2019年底,许多模型已经开始饱和了GLUE的排行榜,得分接近人类基线。这种饱和度凸显了基准测试的另一个关键方面:基准测试需要与领域一起发展。为了解决这个问题,同一团队推出了SuperGLUE,这是一个更严格的基准测试,旨在进一步推动边界。

GLUE、SuperGLUE和SQuAD等基准用于评估模型在情感分析和问答等特定任务上的表现。但是这些基准只是对基础模型目标的表面触及。除了任务特定的准确性外,其他维度也逐渐被用来评估这些模型:

  1. 鲁棒性。模型处理边缘情况或对抗性输入的能力如何?鲁棒性基准通过设计旨在混淆或误导模型的输入来考验其对恶意行为者或意外情况的抵抗能力。
  2. 泛化和迁移学习。基础模型被期望在未经明确训练的任务上表现良好。评估模型零样本或少样本学习能力(即给定具有最少或没有先前示例的任务)对于理解模型的灵活性和适应性至关重要。
  3. 交互性和连贯性。对于聊天机器人或虚拟助手等应用程序,模型在长时间交互中的一致性和连贯性非常重要。这个领域的基准可能涉及长对话或在多次交流中保持上下文。
  4. 安全性和可控性。随着模型规模的增大,这些基准确保模型不会产生有害、不适当或荒谬的输出是至关重要的。
  5. 可定制性。随着基础模型的普及,对其进行针对特定领域或应用程序的定制需求日益增长。这个领域的基准可能评估模型在新数据集上进行微调或适应特定行业术语和细微差别的能力。

有趣的是,随着语言模型的性能逐渐接近人类水平,历来用于评估人类表现的测试现在也被用作语言模型的基准。例如,GPT-4在SAT、LSAT和医学考试等考试中进行了测试。在SAT考试中,它得分1410,位列全国前6%。GPT-4甚至能够通过所有版本的医学考试,平均分为80.7%。然而,在LSAT考试中,它的得分较低,分别为148和157,分别位于百分之37和70。

GPT在学术和专业考试中的表现。图片来自“GPT-4技术报告”。图片来源:OpenAI(CC-BY 4.0)

随着语言模型在许多领域中与甚至超过人类表现,看到基准方法在语言模型中如何继续发展将会很有趣。

Benchmarking的未来

基准的未来正在快速发展,多样化以应对新兴技术和应用的广泛领域。以下是一些正在实施基准的新兴领域的例子:

  • RobotPerf:随着机器人技术越来越多地融入我们的日常生活中,像RobotPerf这样的基准正在制定,以特别衡量和加速机器人应用,确保机器符合效率和安全标准。
  • NeuroBench:在脑启发式计算领域,NeuroBench正在开创评估神经形态系统的方式,为我们提供有关这些架构模拟神经过程程度的见解。
  • XRBench:虚拟现实和增强现实领域因Meta和Apple进入该领域而出现复苏。为此,XRBench被开发出来专注于扩展现实(XR)应用,对于沉浸式和无缝的用户体验至关重要。
  • MAVBench:随着多智能体系统和电池技术的进步,无人机在商业上变得越来越重要,像MAVbench这样的基准将在优化这些系统的性能方面发挥重要作用。

计算机科学和机器学习社区对于基准在推动其领域进展的重要性非常清楚。现在,甚至是作为旗舰人工智能会议之一的NeurIPS也专门为数据集和基准设立了一个专门的论坛。现在已经是第三年了,这个论坛正在获得巨大的势头,今年单独提交的论文接近1000篇。这个趋势表明,随着技术的持续发展,基准将继续实时地引导和塑造其发展轨迹,就像以前一样。

总结思考

无论是在体育运动还是人工智能领域,基准测试在塑造进步方面都起着非常重要的作用。它们既是镜子,反映着当前的情况,也是窗户,展示了未来的潜力。随着人工智能在各个应用和行业中的影响力不断增强,从医疗保健到金融领域,拥有健全的基准测试变得至关重要。它们确保进步不仅迅速而且有意义,将努力引导到真正重要的挑战上。正如罗杰·班尼斯特爵士用他的四分钟英里记录向我们展示的那样,有时候最艰巨的基准测试一旦被征服,就能引发多年的创新和灵感。在机器学习和计算领域,比赛远未结束。

Leave a Reply

Your email address will not be published. Required fields are marked *