加州大学伯克利分校的研究人员推出了Gorilla：一个基于Finetuned LLaMA的模型，在编写API调用方面超越了GPT-4

人工智能领域最新的突破是大型语言模型（LLM）的引入。这些模型使我们能够更简洁地理解语言，从而更好地利用自然语言处理（NLP）和自然语言理解（NLU）。这些模型在包括文本摘要、问答、内容生成、语言翻译等各种任务上表现良好。它们能够理解复杂的文本提示，甚至能够理解带有推理和逻辑的文本，并识别数据之间的模式和关系。

尽管语言模型在各种任务中表现出色，并且在最近的发展中取得了显著进展，但它们仍然难以高效地通过API调用使用工具。即使是像GPT-4这样有名的LLM也难以生成精确的输入参数，并经常推荐不合适的API调用。为了解决这个问题，伯克利和微软研究人员提出了Gorilla，这是一个基于细调的LLaMA模型，它在生成API调用方面击败了GPT-4。Gorilla有助于选择合适的API，提高LLM与外部工具合作执行特定活动的能力。

研究团队还创建了一个名为APIBench的数据集，其中包含了大量重叠功能的API。该数据集是通过收集TorchHub、TensorHub和HuggingFace等公共模型库的ML API创建的。每个API都包含来自TorchHub和TensorHub的每个API请求，并选择HuggingFace每个任务类别的前20个模型。此外，他们使用自我指导方法为每个API生成了十个虚构的用户查询提示。

使用这个APIBench数据集和文档检索，研究人员对Gorilla进行了细调。这个70亿参数的模型在API功能的正确性和减少产生幻觉错误方面优于GPT-4。文档检索器与Gorilla的有效集成展示了LLM更精确使用工具的可能性。Gorilla的改进的API调用生成能力以及根据需要修改文档的能力提高了模型结果的适用性和可靠性。这一发展非常重要，因为它使LLM能够跟上定期更新的文档，为用户提供更准确和最新的信息。

研究人员分享的一个例子显示了Gorilla如何正确识别任务并提供经过充分确认的API结果。模型生成的API调用显示GPT-4为假想模型生成API请求，这表明它对任务的理解不足。Claude选择了错误的库，显示了无法识别正确资源的能力不足。相比之下，Gorilla正确识别了任务。因此，Gorilla与GPT-4和Claude不同，其API调用生成准确，既展示了其增强的性能，又展示了其任务理解能力。

总之，Gorilla是语言模型列表中的重要增加，因为它甚至解决了编写API调用的问题。它的能力能够减少与产生幻觉和可靠性相关的问题。