未中标：在人工智能进展竞赛中操控度量指标的陷阱

我的最爱之一是关于不对齐激励机制的警示故事——苏联钉子工厂的传说。根据传说，在列宁时代缺少钉子时，苏联工厂会因生产的钉子数量而获得奖金。听到这个消息后，工厂就开始生产微小而无用的钉子以夸大产量。当政权改变奖金制度为每月运输吨位的钉子时，工厂开始生产巨大而过重的同样无用的钉子。这个有趣而发人深省的故事多年来一直被分享，作为中央计划体制与市场需求脱节的例子。然而，基于我与科技初创企业合作的经验，我发现这是任何组织都会面临的常见陷阱。就像苏联官僚们被充满无聊微小钉子的仓库困惑一样，指标与真实价值的脱节是我们今天仍在努力解决的挑战。

未中标：在人工智能进展竞赛中操控度量指标的陷阱四海第1张

结果取决于你检查的内容，而非你期望的内容

过去，我曾在一家向B2B技术公司的营销部门销售数字广告空间的初创企业工作。我们的平台使科技供应商能够接触到全球各地的数百万IT专业人员。这些营销人员每个季度都有在为销售团队产生更多潜在客户方面的目标。为了实现目标，他们会设计广告活动，引导潜在客户填写表格并下载一些资源，比如白皮书。

这个想法是这些“营销合格潜在客户”代表了有前途的潜在买家，经过筛选和准备以供销售团队接洽。然而，在一次研究时，我们与一家财富50家技术供应商的销售团队坐下来交流。销售人员告诉我们，这些营销线索对他们来说几乎毫无价值，他们只是无视它们。

营销部门面临的压力是每个季度都要提高潜在客户数量。因此，他们纯粹为了最大化表单提交而优化广告活动。这就像我开头故事中的一家钉子工厂，一心专注于中央计划者所衡量的一个指标，而不是实际客户需求。

指标元游戏：在LLM之战中可疑的胜利

阅读最近关于谷歌新的Gemini语言模型的公告和报道时，我不禁想起先前有关指标走样的警示故事。Gemini的产品页面引人注目地展示了与GPT-4相比在MMLU基准上达到90%的得分，而GPT-4则为86.4%。然而，详细信息揭示，谷歌在测试Gemini时使用了一种不同的提示方法，而这种方法并未应用于GPT-4的结果。分析实际的研究论文，使用相同的5-shot提示进行更为公正准确的比较，GPT-4略胜Gemini，分别为86.4%对83.7%。

这种选择自己冒险的方式进行基准测试，允许宣称任何恰当的说辞来适应您想诉说的故事。最高得分的旗舰Gemini-Ultra模型甚至要到明年才能获得。与其说是实质性的进步，这个对话似乎更像是为了抢占科技博客的头条。当指标成为目标本身时，我们会面临以牺牲进展为代价的优化风险。

改变目标：基准测试的欺骗游戏

随着人工智能项目的投资增加，展示实质性“结果”的压力也在增加，往往激励着标杆游戏的玩家心态。以BloombergGPT为例 – 2022年，彭博利用独家数据汇编来训练一个拥有5000亿参数的模型，旨在在金融服务任务方面取得领先地位。

让人耳目一新的是，彭博的机器学习主管David Rosenberg做了一个真诚的演讲，解释了技术过程。他的团队截至2022年年底有一个严格的截止日期，以及一个1.3百万GPU小时的预算上限。他们从一个雄心勃勃的训练数据起点开始，共计7100亿个令牌，其中将近一半来自彭博的独家专利。在基于开源的BLOOM基线模型之上，团队着手从零开始训练一个模型。然而，训练模型是困难的 – 前两次尝试失败，第三次才显示出希望。经过42天的稳定训练后，模型的性能下降，使Rosenberg的团队不得不快速应对预算和时间的耗尽。最终，他们冻结了已有的成果，并宣布产生的模型为“BloombergGPT”。

但是它的表现如何呢？在一般的自然语言处理基准测试中，BloombergGPT与BLOOM的表现相似。然而，技术论文声称在专门的“金融任务”方面取得了显著进展。然而，仔细观察会发现，这些比较仅是与较旧的开源模型进行的，而排除了最先进的GPT-3模型。一年后，如果没有继续训练，BloombergGPT很可能远远落后于类似GPT-4和Gemini这样的领先模型。

从生产钉子的苏联工厂到现代的人工智能实验室，优化指标而非真实价值的压力仍然存在。这是Goodhart定律的一个提醒：当一个指标成为目标时，它就不再是一个好的指标。不幸的是，这意味着我们都必须更仔细地观察，才能了解实际情况。

未中标：在人工智能进展竞赛中操控度量指标的陷阱四海第5张