认识LegalBench：一个由合作构建的开源AI基准，用于评估英语大型语言模型中的法律推理

认识LegalBench：一个由合作构建的开源AI基准，用于评估英语大型语言模型中的法律推理四海第1张

由于大型语言模型（LLMs）的进步，美国的律师和行政人员正在重新评估法律职业。根据其支持者的说法，LLMs可能会改变律师处理短文写作和公司合规等工作的方式。它们可能最终通过提高法律服务的可及性来解决美国长期存在的司法准入困境。这一观点受到了LLMs具有使它们更适合法律工作的独特特性的影响。与手动数据注释相关的支出，这些支出通常增加了法律语言模型的创建成本，将会因模型能够从少量标记数据中学习新工作而减少。

它们也非常适合进行法律的严格研究，包括解读带有大量术语的复杂文本和进行整合多种思维方式的推理过程。然而，法律应用程序经常涉及高风险，这种热情受到了一定程度的抑制。研究表明，LLMs可能会产生冒犯性、欺骗性和事实错误的信息。如果这些行为在法律环境中重复发生，可能会造成严重的损害，历史上受压迫和资源匮乏的人承受了不成比例的压力。因此，由于安全影响，迫切需要建立法律环境下衡量LLMs的基础设施和程序。

然而，希望判断LLMs是否能够运用法律推理的实践者面临着重重障碍。第一个障碍是法律基准的生态系统很小。例如，大多数现有的基准都集中在模型通过调整或训练特定任务数据来学习的任务上。这些标准无法捕捉到激发对法律实践兴趣的LLMs的特征，特别是它们只需简短提示即可完成各种任务的能力。类似地，基准倡议主要集中在专业认证考试（如统一律师资格考试）上，尽管它们并不总是反映LLMs的实际应用。第二个问题是律师和现有标准对“法律推理”的定义之间存在差异。

目前使用的基准广泛将需要法律信息或法律作为评估“法律推理”的工作进行分类。相反，律师们知道“法律推理”这个词是广泛的，包括各种形式的推理。不同的法律责任需要不同的能力和知识体系。由于现有的法律标准需要识别这些差异，因此对法律从业者来说，将当代LLMs的表现置于他们对法律能力的认知中是具有挑战性的。法律行业不使用与法律标准相同的术语或概念框架。鉴于这些限制，他们认为为了严格评估LLMs的法律推理能力，法律界需要更多地参与基准设计过程。

为此，他们介绍了LEGALBENCH，这是创建一个英文跨学科协作法律推理基准的初始阶段。过去一年，这项研究的作者们共同努力构建了162个任务（来自36个不同的数据源），每个任务都测试了特定形式的法律推理。他们借鉴了各自的法律和计算机科学背景。据他们所知，LEGALBENCH是第一个开源的法律基准项目。这种基准设计方法，即专家积极参与并积极参与评估任务的开发，是LLM研究中一种多学科合作的典范。他们还主张，这表明法律从业者在评估和推进法律中的LLMs中必须发挥的关键作用。

他们强调LEGALBENCH作为研究项目的三个方面：

1. LEGALBENCH是使用预先存在的针对少量样本LLM范式进行重新格式化的法律数据集的组合构建的，并且还包括由法律专家生成和提供的手动制作的数据集，这些法律专家也被列为本文的作者。参与此合作的法律专家被邀请提供测试有趣的法律推理能力或在法律中具有实际价值应用的数据集。因此，在LEGALBENCH任务上的良好表现提供了相关数据，律师可以用来确认对LLM法律能力的意见，或者找到能够提高工作流程效率的LLM。

2. LEGALBENCH上的任务被分为详细的分类，概述了完成任务所需的法律推理类型。由于该分类法借鉴了法律界常见的框架，并使用他们已经熟悉的词汇和概念框架，法律专业人员可以积极参与LLM性能的讨论。

3. 最后，LEGALBENCH的设计旨在作为更多研究的平台。对于没有法律培训的人工智能研究人员来说，LEGALBENCH在了解如何促进和评估各种活动方面提供了实质性的帮助。他们还打算通过不断征求和包括法律从业者的工作来扩大LEGALBENCH，因为法律界与LLMs的潜在影响和功能的互动越来越多。

他们在本文中做出了如下贡献：

1. 他们提供了一种根据必要的证明来分类和描述法律义务的分类法。这种分类法基于律师用来解释法律推理的框架。

2. 接下来，他们概述了LEGALBENCH中的活动，概述了它们是如何创建的，重要的异质性维度和约束条件。在附录中，对每个任务都进行了详细的描述。

3. 为了分析来自11个不同家族的20个LLMs在不同规模点上的情况，他们使用LEGALBENCH作为最后一步。他们对几种提示工程策略进行了初步调查，并对各种模型的有效性做出了评价。

这些研究结果最终揭示了LEGALBENCH可能有助于的几个潜在研究课题。他们预计各种社区都会对这个基准感到有趣。从业人员可以使用这些活动来决定是否以及如何将LLMs纳入当前流程以提高客户结果。LLMs能够进行的各种类型的注释以及它们允许的各种类型的实证学术工作可能会引起法学界的兴趣。在法律这样一个特殊的词汇特征和挑战性任务可能会揭示新的见解的领域中，这些模型的成功可能会引起计算机科学家的兴趣。

在继续之前，他们澄清了这项工作的目标不是评估计算技术是否应该取代律师和法律人员，也不是理解这种替代的利弊。相反，他们希望创建工具来帮助受影响的社区和相关利益相关者更好地理解LLMs在某些法律责任上的表现。鉴于这些技术的普及，他们认为解决这个问题对于确保计算法律工具的安全和道德使用至关重要。