揭开意图对齐的密码：Zephyr-7B通过精炼监督微调和人工智能反馈的突破性指南

ZEPHYR-7B，对用户意图校准进行优化的较小语言模型，通过蒸馏的直接偏好优化（dDPO）和使用AI反馈（AIF）数据实现。这种方法显着增强了意图的校准，无需人工注释，在7B参数模型的聊天基准上实现了最佳性能。该方法依赖AIF的偏好数据，训练时间较短，细调期间无需额外采样，创造了新的最先进技术。

研究人员讨论了ChatGPT及其派生模型，如LLaMA、MPT、RedPajama-INCITE、Falcon和Llama 2的普及，重点在于细调、上下文、检索增强生成和量子化方面的进展。讨论了用于改善较小模型性能的蒸馏技术，以及用于模型评估的工具和基准。该研究评估了ZEPHYR-7B在MTBench、AlpacaEval和HuggingFace的开放型LLM排行榜上的表现。

该研究讨论了使用蒸馏的监督细调（dSFT）来增强较小的开放型LLM，以提高准确性和用户意图校准。它引入了dDPO来对齐LLMs，无需人工注释，依赖于来自教师模型的AIF。研究人员介绍了ZEPHYR-7B，它是通过dSFT、AIF数据和dDPO达到的Mistral-7B版本，证明了其与人类反馈对齐的70B参数聊天模型的性能相当。它强调了LLM发展中意图对齐的重要性。

该方法概述了增强语言模型的方法，将dSFT与高质量数据一起训练模型，并使用dDPO来通过优化响应偏好来精化模型。使用来自教师模型的AIF来改进与用户意图的对齐。该过程涉及迭代自提示以生成训练数据集。通过dSFT、AIF数据和dDPO实现的ZEPHYR-7B模型代表了具有改进意图对齐的最先进的聊天模型。

ZEPHYR-7B，一个具有7B参数的模型，在聊天基准中树立了新的最先进技术，超越了LLAMA2-CHAT-70B，最佳的开放式RLHF模型。它在AlpacaEval中与GPT-3.5-TURBO和CLAUDE 2竞争良好，但在数学和编码任务方面落后。在7B模型中，dDPO模型出色，优于dSFT和Xwin-LM dPPO。然而，较大的模型在知识密集型任务中表现更好。在开放型LLM排行榜上对ZEPHYR的评估显示其在多类分类任务中的优势，验证了其在经过细调后的推理和真实能力。

ZEPHYR-7B采用直接偏好优化来增强意图对齐。该研究强调了将GPT-4作为评估器时潜在的偏见，并鼓励探索较小的开放型模型在用户意图对齐方面的能力。它指出了对安全性考虑（如有害输出或非法建议）的疏漏，表明未来需要在这一重要领域开展研究。

该研究确定了未来研究的几个方向。尚未探索安全性考虑，解决有害输出和非法建议的问题。建议研究较大的教师模型对蒸馏以改善学生模型性能的影响。尽管具有挑战性，但使用合成数据进行蒸馏被认为是一个有价值的研究领域。鼓励进一步探索较小开放型模型及其与用户意图对齐的能力，以推动潜在的进展。建议在更广泛的基准和任务上对ZEPHYR-7B进行评估，全面评估其能力。