认识ToolQA：一个评估大型语言模型（LLMs）使用外部工具进行问答能力的新数据集

认识ToolQA：一个评估大型语言模型（LLMs）使用外部工具进行问答能力的新数据集数据科学第1张

大型语言模型（LLMs）在自然语言处理（NLP）和自然语言理解（NLU）领域已被证明非常有效。著名的LLMs如GPT，BERT，PaLM等被研究人员用于为教育、社交媒体、金融和医疗保健等各个领域提供解决方案。通过大规模数据集的训练，这些LLMs获得了大量的知识。LLMs在问题回答、内容生成、文本摘要、语言翻译等方面显示出了能力。尽管LLMs最近展示了令人印象深刻的能力，但在生成合理且无根据的信息以及在数值推理方面存在困难。

最近的研究表明，将LLMs与外部工具（包括检索增强、数学工具和代码解释器）相结合是克服上述挑战的更好方法。评估这些外部工具的有效性存在困难，因为当前的评估方法需要帮助确定模型是否仅仅是回忆预训练信息，还是真正利用外部工具进行问题解决。为了克服这些限制，来自佐治亚理工学院计算学院的研究团队引入了ToolQA，这是一个用于问题回答的基准测试，用于评估LLMs在使用外部资源方面的熟练程度。

ToolQA包含来自八个领域的数据，并定义了13种可以从外部参考语料库中获取信息的工具类型。每个ToolQA实例中都包含一个问题、一个答案、参考语料库和可用工具列表。ToolQA的独特之处在于，所有问题只能通过使用适当的工具从参考语料库中提取信息来回答，从而最大程度地减少LLMs仅基于内部知识回答问题的可能性，并允许对其工具利用能力进行忠实评估。

ToolQA涉及三个自动化阶段：参考数据收集、人工引导的问题生成和程序化答案生成。在第一阶段，从不同领域收集各种类型的公共语料库，包括文本、表格和图表，作为基于工具的问题回答的参考语料库。在第二阶段，创建只能通过工具而不是参考语料库解决的问题。这是通过基于模板的问题生成方法实现的，该方法还涉及使用工具属性进行问题实例化和人工引导的模板制作和验证。第三阶段为生成的问题提供准确的答案，实现与工具对应的运算符，并从参考语料库中以程序化方式获取答案。

团队使用标准LLMs和工具增强的LLMs回答ToolQA中的问题进行了实验。结果显示，仅依赖内部知识的LLMs（如ChatGPT和Chain-of-thoughts prompting）的成功率较低，易问题约为5%，难问题约为2%。另一方面，通过使用外部工具，工具增强的LLMs（如Chameleon和ReAct）表现更好，易问题的最佳表现为43.15%，难问题为8.2%。

结果和错误分析显示，ToolQA对于当前的工具增强的LLM方法来说是一个具有挑战性的基准测试，尤其对于需要更复杂的工具组合推理的困难问题。这是人工智能发展中的一个有希望的补充。