此AI研究就大型语言模型（LLMs）的限制和能力在组合任务上进行了实证和理论的探讨

此AI研究就大型语言模型（LLMs）的限制和能力在组合任务上进行了实证和理论的探讨四海第1张

ChatGPT正成为热门话题，每天有数百万人在使用。凭借其惊人的能力，如问答、生成独特而富有创意的内容、总结海量文本数据、代码补全以及开发非常有用的虚拟助手，ChatGPT使我们的生活更加便捷。ChatGPT由OpenAI开发，基于GPT 3.5（生成式预训练变换器）和GPT 4的变换器架构。GPT 4是由OpenAI发布的最新版本的语言模型，具有多模态性，即它以文本和图像的形式输入，与之前的版本不同。甚至其他大型语言模型（LLM），如PaLM、LLaMA和BERT，也被用于涉及医疗保健、电子商务、金融、教育等各个领域的应用中。

一组研究人员在最近发布的研究论文中强调了类似GPT这样的大型语言模型在复杂任务上表现出色而在简单任务上的困难。研究团队对三个代表性的组合任务进行了实验：多位数相乘、逻辑网格谜题和经典的动态规划问题。这些任务涉及将问题分解为较小的步骤，并将这些步骤组合起来产生准确的解决方案。

为了研究变换器在解决需要多步推理的组合任务方面的限制，作者提出了两个假设。第一个假设是变换器通过将多步推理线性化为路径匹配来完成任务，因此依赖于模式匹配和快捷学习，而不是真正理解和实现开发正确解决方案所需的底层计算规则。这种方法在训练期间可以快速准确地预测相似模式，但无法推广到不常见的复杂示例。第二个假设认为，在尝试解决具有独特模式的高复杂性组合任务时，变换器可能存在固有限制。早期的计算错误可能会传播并导致后续步骤中的严重错误，阻止模型获得正确解决方案。

为了研究这两个假设，作者将组合任务形式化为计算图，以便调查。这些图将解决问题的过程分解为更小、更易管理的子模块化功能步骤，从而实现问题复杂性的结构化度量，并将计算步骤的语言化作为语言模型的输入序列。他们甚至使用信息增益来预测模型可能基于底层任务分布而学习的模式，而无需在图中进行完整的计算。

基于实证结果，作者提出变换器通过将多步推理简化为线性子图匹配来处理组合挑战。他们提供了基于抽象多步推理问题的理论论证，强调随着任务复杂性的增加，变换器的性能迅速下降。这表明模型在处理极度复杂的组合问题方面可能已经受到限制。

总的来说，实证和理论结果表明，与对底层思维过程的深入理解相比，变换器的性能主要受到模式匹配和子图匹配的驱动，这也支持变换器在执行越来越困难的任务时可能遇到困难的观点。