快速工程不是一种事物

大型语言模型（如OpenAI的GPT系列）的兴起为自然语言处理带来了全新的能力水平。当人们尝试使用这些模型时，他们意识到提示的质量对结果有很大影响，有些人称之为“提示工程”。要明确一点：这是不存在的。最多只能称之为“提示的试错”。

“提示工程”假设通过微调和完善输入提示，我们可以精确地预测和控制这些模型的输出。

控制的幻觉

提示工程的理念基于这样一种信念：通过精心制作输入提示，我们可以从语言模型中获得所期望的响应。这假设了输入和输出之间存在着确定性的关系，而复杂的统计文本模型使得改变提示的结果无法被确定地预测。事实上，神经网络的不可预测性是限制其在没有人类监督的情况下工作能力的因素之一。

大型语言模型对输入提示的细微变化非常敏感，这常常被比喻为混沌理论中的蝴蝶效应，这是破坏提示工程概念的另一个因素。蝴蝶效应说明了初始条件的微小变化可以在动态系统中产生显著不同的结果。在语言模型的背景下，改变一个单词甚至一个标点符号都可能导致截然不同的响应，这使得很难确定特定结果的最佳提示修改。

语言模型，包括GPT系列模型，是基于大量人类生成的文本数据进行训练的。因此，它们继承了这些数据集中存在的偏见、不一致性和特殊性。这种内在的偏见和变异性使模型的输出变得不可预测。

语言模型被设计用于在各个领域和任务中进行泛化，这给提示工程的挑战增加了另一个复杂性层次。虽然这些模型非常强大，但它们可能并不总是具备生成准确和精确响应所需的详细领域特定知识。因此，为每种可能的情况精心设计“完美”提示是一个不现实的目标。

考虑到语言模型输出的不可预测性，编辑提示通常成为一个耗时的试错过程。多次调整提示以达到所期望的响应可能需要很长时间，这抵消了这些模型本应提供的效率提升。在许多情况下，手动执行任务可能比投入时间和精力来改进提示以获得完美输出更加高效。

大型语言模型中的提示工程概念是一种神话，而不是实际的现实。这些模型的内在不可预测性，结合输入提示的微小变化所产生的影响、训练数据中的偏见和变异性、模型的泛化能力以及编辑提示的昂贵试错性质，使得无法确定地预测和控制它们的结果。

与其将提示工程视为一个万能解决方案，更重要的是以健康的怀疑态度来对待这些模型，认识到它们的局限性，同时欣赏它们在自然语言处理中的卓越能力。