Google DeepMind研究人员提出了一种名为优化通过提示（OPRO）的方法：将大型语言模型作为优化器

Google DeepMind研究人员提出了一种名为优化通过提示（OPRO）的方法：将大型语言模型作为优化器四海第1张

随着人工智能领域的不断进步，其子领域，包括自然语言处理、自然语言生成、自然语言理解和计算机视觉，正变得越来越受欢迎。最近引起很多关注的大型语言模型（LLMs）被用作优化器。它们的能力被用于自然语言理解，以增强优化过程。优化在许多不同的行业和背景中具有实际意义。基于导数的优化方法在处理各种问题方面历史上表现良好。

这也带来了一些挑战，因为在实际情况下，梯度可能只有时而可用，这带来了困难的问题。为了解决这些问题，Google DeepMind的研究人员提出了一种名为OPRO（Optimisation by PROmpting）的独特方法作为解决方案。通过使用LLMs作为优化器，OPRO提供了一种简单而强大的技术。在这种情况下，主要的创新点是使用日常语言来表达优化任务，使流程更简单、更易于理解。

OPRO首先通过自然语言描述优化问题。这意味着问题是用简单的语言表达，而不是复杂的数学公式，这样更容易理解。其次，它提供了一个迭代的解决方案生成过程。LLM根据给定的自然语言提示为每个优化步骤创建新的候选解。这个提示是重要的，它包含了先前创建的解以及它们的相关值的详细信息。这些传统选项作为进一步发展的起点。

然后，更新和评估这些解，并评估它们的性能或质量。在经过检查的解后，下一个优化步骤的提示将包含这些解。随着迭代过程的进行，解逐渐改进。一些实际的例子被用来说明OPRO的有效性。首先，OPRO被用来解决两个众所周知的优化问题：线性回归问题和旅行推销员问题。这些问题是显著的，并作为评估该方法有效性的标准。OPRO展示了其识别出这些问题的优秀解的能力。

其次，它被用于提示优化。OPRO不仅仅解决特定的优化问题，还涉及到优化提示本身的问题。目标是找到能够提高任务准确性的指令。这对于涉及自然语言处理的任务尤其重要，因为提示的结构和内容对结果有很大影响。

团队表明OPRO优化的提示通常优于人类创建的提示。在一个例子中，它使Big-Bench Hard工作负载的性能提高了高达惊人的50%，在GSM8K基准测试中提高了8%。这显示了OPRO在改善优化结果方面的巨大潜力。

总之，OPRO提供了一种利用大型语言模型进行优化的革命性方法。OPRO通过用普通语言解释优化任务并反复生成和改进解来展示其在解决常见优化问题和改善提示方面的效率。结果表明，与传统方法相比，尤其是在梯度信息不可用或难以收集的情况下，性能提升显著。