调和生成型人工智能的悖论：在生成和理解上，人类和机器智能的不同路径

从ChatGPT到GPT4再到DALL-E 2/3再到Midjourney，最新一波的生成式人工智能引起了全球范围内前所未有的关注。这种迷恋背后伴随着对“智能”所带来的风险的严重担忧，因为这种“智能”似乎超越了人类的能力。当前的生成模型可能会产生具有挑战性的结果，这些结果可以对在语言和视觉领域具有多年经验和专业知识的专家构成威胁，并且这为机器已经超越人类智慧的说法提供了有力的支持。与此同时，进一步审查模型的输出揭示出一些根本性的理解错误，即使对于非专家人员也令人惊讶。

这引发了一个看似矛盾的问题：它们如何解释这些模型明显超人的能力，同时又保持一套核心的错误，大多数人可以修复？他们认为，这种冲突来源于人类智慧的配置方式与当今生成模型的能力配置方式之间的差异。特别是，来自华盛顿大学和艾伦人工智能研究所的研究人员在这项工作中提出并调查了生成式AI悖论假设，该假设认为生成模型之所以可以比专家级的输出解释者更有创造力，是因为它们经过训练直接产生专家级的输出。

相比之下，人们几乎总是需要在提供专家级结果之前获得一个基础的理解。他们在受控研究中检查跨语言和视觉模态的生成模型的生成和理解能力来评估这个想法。在与生成任务相关的评估中，使用两个观点来构建“理解”：1）在给定生成任务的情况下，模型在相同任务的判别版本中能多好地选择适当的答案？和2）如若答案正确，模型对于关于生成响应的性质和适合性的查询能有多大程度的回应？因此，存在两个不同的实验设置：询问和选定。

尽管他们的发现在任务和模态之间有所不同，但仍然出现了某些明显的模式。在选择性评估方面，模型在生成任务环境中往往表现与人类相当甚至更好。但是，在判别性情境中，他们不如人类。后续的调查揭示了人类辨别能力对敌对输入的更强韧性以及它与生成能力的关系比它与GPT4的关系更密切。随着任务复杂性的增加，模型与人类之间的辨别力差距也越来越大。类似地，对于询问式评估，模型能够为多种任务提供高质量的输出，但是在回答有关同一生成内容的问题时，它们经常出错，并且它们的理解性能需要在人类理解中得到改进。

作者对生成模型和人类之间的能力配置的差异提出了许多可能的解释，例如模型训练的目标以及种类和数量的输入。他们的结论还具有一些进一步的影响。首先，它表明了当前对智能的理解是基于人类经验的，可能无法转化到人工智能上。虽然AI的能力在许多方面类似或超过人类智能，但它们的实际特性可能与人类思维过程中的预期模式大相径庭。相反，他们的结果警告我们不要从生成模型中得出关于人类智能和认知的结论，因为它们的专家级人类化输出可能掩盖了非人类化的机制。总的来说，生成式AI难题建议我们将模型视为与人类智能相比较的有趣对照。