大型语言模型(LLMs)在文本生成任务以及其他自然语言处理任务中取得了重大进展。生成能力的一个基本组成部分是生成结构化数据的能力,在先前的研究中引起了广泛关注。然而,LLMs在生成复杂的结构化输出方面仍然表现不佳,这是各种应用的关键技能,从自动报告撰写到编码帮助。此外,对LLMs生成结构化输出的能力进行的研究相对较少;大多数对LLMs的评估都集中在自发文本或代码开发上。这引发了一个问题,即LLMs能否很好地生成复杂的结构化数据。
耶鲁大学、浙江大学、纽约大学和苏黎世联邦理工学院的研究人员旨在对这些开放问题进行彻底分析并加以解决。首先,需要对LLMs生成复杂结构化数据的能力进行更全面的研究。以往评估LLMs在结构化数据上的尝试主要集中在简单的信息提取(IE)任务上,例如提取关系、识别事件和识别命名实体。在这种情况下,IE任务的目标是以井然有序的方式收集提取的数据。相比于以LLM为中心的工作,早期的工作更加任务为中心。使用像BART和T5这样的预训练模型,这些模型可以从文本中生成结构化数据,主要关注的是文本到数据的问题。其次,需要全面评估LLMs的性能或指标。
现有的基准经常使用简单的客观度量标准(如词重叠)来衡量机器生成的内容分类信息的质量。但是,可能需要更多的内容来确定LLMs是否能够提供结构化输出,因为适当的评估标准还应考虑所生成信息的格式。第三,当前的LLMs是否能更准确地遵循人类自然语言输入并提供具有准确格式和无错误内容的输出?本研究试图填补文献中的这些空白,并改进LLMs生成结构化输出的训练数据集和评估标准。
以下是他们的贡献列表:(1)他们创建了一个名为STRUCBENCH的基准,专注于生成原始文本、HTML和LaTeX形式的结构化文本。他们还仔细评估了知名LLMs的能力,发现了内容正确性、格式化、数值推理和管理冗长表格方面的重大问题。(2)他们对知名LLMs在结构化文本生成基准上进行了实证评估,包括重要数据集,并扩展到不同领域,使人们更深入地了解常见错误类型和缺陷的规模。他们的研究结果表明,GPT-3.5和GPT-4在生成准确的输出方面需要帮助,问题主要出在错误的内容、格式不佳、数值推理能力不足以及无法处理冗长表格等方面。(3)他们使用结构感知指令调整来解决这些问题,通过使用ChatGPT创建格式指令,训练LLaMA模型遵循这些格式。对可见和隐藏数据的积极结果表明,这可能显著提高LLMs提供结构化输出的能力。