Press "Enter" to skip to content

又一个大型语言模型!认识IGEL:一个针对指令调整的德语LLM家族

又一个大型语言模型!认识IGEL:一个针对指令调整的德语LLM家族 四海 第1张又一个大型语言模型!认识IGEL:一个针对指令调整的德语LLM家族 四海 第2张

IGEL是针对文本的指令定制的德语大型语言模型。IGEL 001版本(Instruct-igel-001)是一个原始的概念验证,旨在确定是否可以通过将现有的开源模型与德语翻译指令数据集相结合来构建德语指令定制模型。

IGEL的第一个版本基于BigScience BLOOM,由Malte Ostendorff本地化为德语。IGEL旨在执行与自然语言理解相关的各种任务,包括情感分析、语言翻译和问题回答,在每个领域都具有高准确性和可靠性。

团队想要尝试LLM在德语指令建模任务中的表现如何。他们使用预训练的自定义BLOOM模型(6B)并使用基于翻译指令的数据集进行微调来实现这一目标。为了构建数据集,他们使用了一种称为自动翻译的方法将英语指令转化为德语。尽管由于这种策略存在较大的翻译错误的可能性,但他们的目标是确定模型是否仍然能够学习生成指令回复。

Instruct-igel-001中的LoRA定制BLOOM-CLP Deutsch(6.4B参数)具有用于Hugging Face Transformers的合并权重。在对naive翻译的指令数据集进行训练之前,并没有太多关注数据的清理、筛选或后处理。

团队提到,幻觉、有毒性和刻板印象只是instruct-igel-001存在的一些问题,这些问题在语言模型中很常见。他们计划完成聊天模型的开发,以创建一个对话界面。这将以超越传统的请求-响应方法的方式改善数据质量。

Leave a Reply

Your email address will not be published. Required fields are marked *