Press "Enter" to skip to content

微软研究员提出了一种新的框架,使用帕累托最优自监督而无需使用标记的训练数据来进行LLM校准

微软研究员提出了一种新的框架,使用帕累托最优自监督而无需使用标记的训练数据来进行LLM校准 数据科学 第1张微软研究员提出了一种新的框架,使用帕累托最优自监督而无需使用标记的训练数据来进行LLM校准 数据科学 第2张

近期的发展使得大型语言模型(LLM)的能力显著增强,生成式预训练转换器(GPT)模型显示出了重要的潜力。从GPT-3到GPT-4的转变,以及PaLM和LLaMA等其他LLM的出现,都展示了在问题解决和自然语言理解技能方面的显著改进。此外,生成模型经常用于各个领域以生成不同应用的数据。当LLM用于需要高精度和可靠性的应用领域,如生物和医疗领域时,幻觉问题仍然是一个重大障碍。

不幸的是,目前没有系统的技术可用于准确检测幻觉或衡量输出的置信水平。特别是在使用强化学习与人类输入之后,生成LLM的内在置信度分数有时无法获得或无法有效校准以达到预期目标。启发式技术计算成本高,并受制于LLM本身的偏见,例如对LLM答案集进行采样。评估LLM回复的置信度程度的方法大致可分为两个基本类别。在第一种方法中,通过多种方式激励LLM生成多个回复,然后利用这些回复推断答案的可靠性。

自一致性和思维链激励是两个例子。这些技术不太定量,并且容易受到模型引起的偏见的影响。目前还没有标准化的测量方法,但提示技术可能对结果的质量产生重大影响。第二类选择借助外部数据源,例如雇用人工审核员验证答案或使用大量标记数据创建评估模型。目前监督模型训练的主要障碍之一是这些技术需要广泛的手动注释工作。在这方面,自我监督提供了一种可行的选择,因为它可以灵活地使用数据模式和超越常规的专业知识。

微软的研究人员在这项研究中提供了一个灵活的框架,利用帕累托最优学习将LLM响应数据和监督数据混合在一起。他们受到了程序化监督和帕累托优化研究的早期工作的启发。以下直觉指导了他们的策略。为了防止LLM自身评判的偏见,需要与LLM独立的外部监督数据源。其次,将LLM的错误视为对黄金标签的噪声扰动。当模型同时适应LLM噪声和独立的外部噪声时,实际上进行了隐式标签平滑处理,从而增强了校准能力。

在这方面,帕累托最优自我监督为整合两者提供了一个有用的框架。值得注意的是,所提出的方法只需要无标签数据,因此适用于注释成本较高的领域。他们通过帕累托最优自我监督对LLM进行校准的独特方法是该论文的关键创新。他们建议使用帕累托最优学习评估风险(POLAR)分数来计算LLM错误的可能性。他们在四个不同的自然语言处理任务上展示了实验结果,并证明所提出的POLAR分数与在黄金标签上评估的LLM错误率显著相关。他们展示了在高风险情况下通过POLAR分数确定的动态提示策略下,LLM的性能得到了提升。在不使用任何人工标记的训练数据的情况下,他们展示了他们的方法如何消除LLM的错误并提高GPT-4基线性能,超过最先进的监督模型。

Leave a Reply

Your email address will not be published. Required fields are marked *