Microsoft发布了Orca 2：通过定制化训练策略在更小的语言模型中开创先进推理技术

LLMs（大型语言模型）是在大量文本数据上进行训练的，以便理解和生成类似于人类语言的模型。如GPT-3、GPT-4和PaLM-2等模型就是其中的几个例子。这些模型执行复杂的语言任务，包括文本生成、对话交互和问题回答。它们在各个领域的应用中，提升了聊天机器人、编码、网络搜索、客户支持和内容制作等用户体验。

然而，随着AI社区深入研究更小规模模型的广阔领域，微软推出了名为Orca 2的下一个版本，旨在增强紧凑型AI模型的能力。通过集成详细解释和追踪，Orca 1在BigBench Hard和AGIEval等具有挑战性的基准测试中超越传统的指导训练模型。Orca 2进一步深入研究了增强训练信号的潜力，以提高较小语言模型的推理能力。

模仿学习一直是改善小型语言模型的流行方法。尽管这些较小的模型可以以与教师类似的方式生成内容，但它们通常需要在推理和理解能力上迎头赶上。尽管模仿学习具有一些好处，但也有缺点，可能限制较小模型发挥其全部潜力，并阻止它们使用最佳的解决方案来解决特定问题和模型能力。它们通常需要帮助匹配其较大模型对推理和理解能力的匹配，从而限制了它们的潜力。

与简单模仿不同，Orca以各种推理技巧指导模型。这些技巧包括逐步处理、回忆然后生成、回忆-推理-生成和直接答案。目标是指导模型获取辨别最有效解决策略的能力，以适应每个特定任务的细微差别。

Orca 2的零次推理能力凸显了改进更小型神经网络的可能性。微软继续相信，像Orca 2这样的专门训练方法可能揭示新的有用应用。这种方法旨在提高这些神经网络部署的效果。

最重要的是，Orca 2在训练阶段减少了初始线索所引发的特定行为。通过创新的Prompt Erasure技术，Orca 2转变为慎重的推理者。与盲目模仿不同，这种方法使用较大模型作为行为来源，选择最佳行为来解决给定任务。

研究人员对Orca 2进行了全面的基准测试。他们表明，它在与语言理解、常识推理、多步数学问题、阅读理解、摘要等相关的其他等价模型上表现更好。例如，在零次推理任务上，Orca 2-13B的准确率比13B模型高出25%以上，与70B模型持平。

Orca 2在小型语言模型的演进中迈出了重要的一步。它离开了传统的模仿学习，注重教授多样的推理技巧，展示了发挥紧凑型AI模型潜力的新方法。