

得益于人工智能的持续增长和发展,大规模语言模型现在已经广泛可用。像ChatGPT、GPT4、LLaMA、Falcon、Vicuna和ChatGLM这样的模型在各种传统任务中表现出色,为法律职业开辟了无限的机遇。然而,收集可靠、实时、高质量的数据对于创建可观的语言模型来说至关重要。因此,创建既有效又高效的开源法律语言模型变得至关重要。
人工智能中的大规模模型发展影响了包括医疗、教育和金融在内的几个行业:BloombergGPT、FinGPT、Huatuo和ChatMed这些模型在处理具有挑战性的问题和产生深入洞察的数据方面已经证明了其有用性和有效性。另一方面,法律领域需要进行深入研究,并创建一个独特的法律模型,因为法律具有内在的相关性和准确性的需求。法律在形成社区、管理人际关系和确保公正方面至关重要。法律从业者依赖准确和实时的信息来做出明智的判断,理解法律并提供法律建议。
法律术语的细微差别、复杂的解释和法律的动态特性提供了需要专门解决的特殊问题。即使是像GPT4这样的最先进模型,也经常出现幻觉现象,以及在处理法律困难时产生令人难以置信的结果。人们经常认为,通过增加相关领域的专业知识来改进模型会产生积极的结果。然而,早期的法律LLM(LawGPT)仍然存在很多幻觉和不准确的结果,所以情况并非如此。起初,他们明白了对一个中文法律LLM的需求。然而,在那个时候,没有商业可用的中文模型比13亿个参数更大。通过结合来自MOSS等来源的训练数据,并增加中文词汇表,改善了OpenLLAMA的基础,这是一个经济可行的模型。这使得北京大学的研究人员能够建立一个基本的中文语言模型,然后添加法律特定数据来训练他们的法律模型ChatLaw。
以下是本论文的主要贡献:
1. 一种成功减少幻觉的方法:他们提出了一种通过改进模型的训练过程并在推理过程中包括四个模块“咨询”、“参考”、“自我建议”和“回应”来减少幻觉的方法。通过参考模块将垂直模型和知识库整合在一起,减少了幻觉的频率,并将领域特定知识融入模型,并使用来自知识库的可靠数据。
2. 训练了一种从用户日常语言中提取法律特征词的模型。它基于LLM。借助这个模型,可以快速有效地识别和分析用户输入中的法律情况,识别具有法律含义的术语。
3. 使用BERT训练了一种衡量用户普通语言与930,000个相关法庭案例文本数据集之间相似度的模型。这使得可以构建一个向量数据库,快速检索具有相似法律背景的文献,进一步进行研究和引用。
4. 开发了一个用于评估中国人法律专业知识的数据集。他们还制定了一个ELO竞技场评分系统,以确定各种模型在法律多项选择测试中的表现如何。
他们还指出,单一的通用法律LLM可能只在某些工作中表现良好。因此,他们针对不同情况开发了多个模型,包括多项选择问题、关键词提取和问答。使用HuggingGPT技术,他们使用一个大型LLM作为控制器来管理这些模型的选择和部署。根据每个用户的请求,该控制器模型动态选择要激活的特定模型,确保任务使用最佳模型。