这篇AI论文提出了ML-BENCH一种新颖的人工智能方法，旨在评估LLMs在利用开源库中现有功能方面的有效性

最近，LLM模型被广泛应用于语言编程相关的活动中，成为强大的语言代理人。尽管取得了令人印象深刻的进展，但在实际的编程环境需求中，这些模型在静态实验环境下展现的能力与不断变化的实际编程场景之间仍存在很大差距。

标准代码生成基准测试评估LLM模型能否从零开始生成新的代码。然而，编程规范很少需要从头开始生成所有代码组件。

在编写实际应用程序的代码时，通常会使用现有的公开库。这些开发的库为各种挑战提供了强大的、经过实战检验的解决方案。因此，评估代码LLM模型的成功应该不仅限于函数产生的能力，还包括其能够正确使用参数的能力。

耶鲁大学、南京大学和北京大学的一项新研究提出了ML-BENCH，这是一个真实且全面的基准数据集，用于评估LLM模型理解用户指令、浏览GitHub仓库和产生可执行代码的能力。ML-BENCH提供了高质量、可教授的满足指令要求的代码。ML-BENCH由9,444个示例、130个任务和14个流行的机器学习GitHub仓库组成。

研究人员在他们的调查中使用Pass@k和参数命中精度作为度量标准。使用这些工具，他们在ML-BENCH环境中探索了GPT-3.5-16k、GPT-4-32k、Claude 2和CodeLlama的潜力。ML-BENCH为LLM模型提供了新的测试。实证结果显示，GPT模型和Claude 2的表现远远超过CodeLlama。虽然GPT-4相对于其他LLM模型表现出了显著的性能提升，但在实验中仅完成了39.73%的任务。其他众所周知的LLM模型出现了幻觉和表现不佳。研究结果表明，LLM模型不仅需要编写代码，还需要理解详尽的文档。这项技术的关键贡献是ML-AGENT的提出，它是一种自主语言代理人，旨在通过错误分析来解决发现的不足。这些代理人可以理解人类语言和指示，生成高效的代码并完成困难的任务。

ML-Bench和ML-Agent代表了自动化机器学习过程的艺术水平的重大进展。研究人员希望这能引起其他研究人员和实践者的兴趣。