由于人工智能的持续增长和发展,大规模语言模型现在已经广泛可用。像ChatGPT、GPT4、LLaMA、Falcon、Vicuna和ChatGLM这样的模型在各种传统任务中表现出色,为法律行业打开了一个机遇的世界。然而,收集可靠、当前、高质量的数据对于创建规模可观的语言模型至关重要。因此,创建既有效又高效的开源法律语言模型变得至关重要。
人工智能在大规模模型开发方面对多个行业产生了影响,包括医疗保健、教育和金融:BloombergGPT、FinGPT、Huatuo和ChatMed;这些模型在处理复杂问题和生成深入数据方面证明了其有用性和有效性。另一方面,法律领域由于其固有的相关性和准确性需求,需要进行深入调查和创建独特的法律模型。法律对于形成社区、调节人际关系和确保正义至关重要。法律从业人员依赖准确和当前的信息来做出明智的判断、理解法律并提供法律咨询。
法律术语的微妙之处、复杂的解释以及法律的动态性提供了特殊问题,需要专门的解决方案。即使是像GPT4这样最先进的模型,也经常出现幻觉现象和与法律相关的令人难以置信的结果。人们经常认为通过相关领域的专业知识来改进模型会产生积极的结果。然而,早期的法律LLM(LawGPT)仍然存在许多幻觉和不准确的结果,所以情况并非如此。起初,他们了解到对中文法律LLM的需求。然而,当时没有商业可获取的大于130亿参数的中文模型。通过结合MOSS等来源的训练数据和扩充中文词汇表,改善了OpenLLAMA的基础,这是一个经济可行的模型。这使得北京大学的研究人员能够构建一个基础的中文语言模型,然后添加法律特定数据来训练他们的法律模型ChatLaw。
以下是该论文的主要贡献:
1. 减少幻觉的成功方法:他们提出了一种通过改进模型的训练过程并在推理过程中包含“咨询”、“参考”、“自我建议”和“回应”四个模块的方法来减少幻觉。通过参考模块将垂直模型和知识库整合在一起,幻觉变得更少,这个模块将领域特定知识融入模型,并使用知识库中的可靠数据。
2. 训练了一个能从用户的日常语言中提取法律特征词的模型。这个模型基于LLM,并且可以快速有效地识别和分析用户输入中的法律情况。
3. 使用BERT训练了一个模型,用于衡量用户普通语言与包含93万个相关法庭案例文本的数据集之间的相似度。这使得可以建立一个向量数据库,快速检索具有类似法律背景的文稿,以进行额外的研究和引用。
4. 开发了一个中文法律考试评估数据集:他们创建了一个评估中国人法律专业知识的数据集。他们还制定了一个ELO竞技场评分系统,以确定不同模型在法律多项选择测试中的表现如何。
他们还指出,单一的通用法律LLM可能只在某些任务中表现良好。因此,他们针对不同情况开发了多个模型,包括多项选择题、关键词提取和问答。他们使用HuggingGPT技术,将一个大型LLM作为控制器来管理这些模型的选择和部署。根据每个用户的请求,该控制器模型动态选择特定的模型进行激活,以确保任务使用最佳模型。