斯坦福研究人员在大型语言模型的准确性方面创新：自动优先排名和NLP（自然语言处理）进展以降低错误率

来自斯坦福大学和北卡罗来纳大学教堂山分校的研究人员解决了由语言模型产生的事实不准确的音调，也称为幻觉。在无需人工标注的情况下，研究人员对语言模型进行了微调，以增强在开放式生成环境中的事实准确性。利用自然语言处理的最新创新，他们采用了通过与外部知识库一致性评估事实性的方法，并使用直接偏好优化算法进行微调。该方法显著改善了Llama-2的事实性，大大降低了生成传记和医学问题回答方面的事实错误率，达到了7B规模。

各种策略旨在减轻语言模型中的事实错误，包括提示、内部表示扰动和基于检索的方法。在冲突解决和事实保持方面存在挑战，尤其是随着模型规模的增大。FactScore变种采用了训练期间的检索来解决推理时间复杂度的问题。通过微调实现的基于偏好的学习能够有效减少错误事实。该研究引入了一种无参考方法，利用语言模型的不确定性估计真实性。从自动生成的偏好对中学习事实性成为一种省时高效的方法，展示了不需要人工干预的潜力性改进。

该研究侧重于无限制生成环境，提出了一种通过微调语言模型来改善事实性的方法，无需人工标注。他们利用最新的自然语言处理创新，包括通过外部知识库判断事实性和使用直接偏好优化算法。该方法涉及从自动生成的事实性偏好排序中学习，与基准数据集上的其他策略相比，生成传记和回答医学问题的事实错误率显着降低。

本研究在判断事实性方面结合了与外部知识库一致性或模型置信度评分。使用直接偏好优化算法进行微调，侧重于超越监督模仿的目标。它提出使用现有的检索系统或新颖的无检索方法，从自动生成的事实性偏好排序中学习。评估包括FactScore等自动度量标准，人工评估者的观点，以及与推理时间干预和对比层解码等方法的比较。

该方法证明了从自动生成的事实性偏好排序中学习以提高语言模型事实性的有效性。经过微调的Llama-2模型在生成传记方面的事实错误率降低了58％，在回答医学问题方面降低了40％，与RLHF或解码策略相比。人工评估者认为FactTune-FS模型优于SFT模型。 GPT-4评估和FactScore评级显示高相关性，表明FactTune-FS在减少事实错误方面取得了成功。

该研究提出了改善语言模型事实性的有效策略，着重于长篇生成。探索了两种方法：利用外部知识进行基于参考的真实性估计和利用模型的不确定性进行无参考估计。用任一方法微调语言模型始终能减少错误事实。无参考方法为事实性改进提供了可扩展的自我监督策略，无需金标准参考语料库。实验结果显示出有希望的研究方向，建议进一步探索结合事实性调整方法并将方法扩展至更大模型。

未来的研究建议探索事实性调整与现有方法的组合，例如事实性调整DOLA实验。建议进一步研究将事实性增强的解码技术与事实性调整过程相结合以提高事实性。通过评估不同方法的组合效果，如事实性调整和推理时间干预，可以提供关于补充机制的见解。建议研究较简单的提取原子事实的方法，并将事实性调整方法扩展到更大模型，如GPT-4。