来自Inception、MBZUAI和Cerebras的研究人员开源了“Jais”：全球最先进的阿拉伯大型语言模型

来自Inception、MBZUAI和Cerebras的研究人员开源了“Jais”：全球最先进的阿拉伯大型语言模型四海第1张

大型语言模型如GPT-3及其对社会各个方面的影响是一个备受关注和争议的话题。大型语言模型显著推动了自然语言处理领域的发展。它们提高了各种与语言相关的任务的准确性，包括翻译、情感分析、摘要和问答。由大型语言模型驱动的聊天机器人和虚拟助手变得越来越复杂，能够处理复杂的对话。它们被用于客户支持、在线聊天服务，甚至成为某些用户的伴侣。

构建阿拉伯语大型语言模型（LLM）面临着由于阿拉伯语言的特性和其方言的多样性而产生的独特挑战。与其他语言的大型语言模型类似，阿拉伯语LLMs可能会继承训练数据中的偏见。解决这些偏见并确保在阿拉伯语境中负责任地使用人工智能是一个持续关注的问题。

Inception、Cerebras和阿布扎比人工智能大学（UAE）的研究人员推出了一种新的基于阿拉伯语的大型语言模型Jais和Jais-chat。他们的模型基于GPT-3生成式预训练架构，仅使用了130亿个参数。

他们面临的主要挑战是获取用于训练该模型的高质量阿拉伯语数据。与拥有高达2万亿个标记的英文数据相比，阿拉伯语语料库要小得多。语料库是用于语言学、自然语言处理（NLP）和文本分析的大型结构化文本集合，用于研究和语言模型训练。语料库是研究语言模式、语义、语法等方面的宝贵资源。

为了解决这个问题，他们训练了双语模型，通过增加有限的阿拉伯语预训练数据与丰富的英文预训练数据相结合。他们对Jais进行了预训练，包括72亿个阿拉伯语标记和2320亿个英文标记。他们开发了一种专门的阿拉伯文本处理流程，包括彻底的数据过滤和清理，以生成高质量的阿拉伯语数据。

他们表示，他们的模型的预训练和微调能力超越了所有已知的开源阿拉伯模型，并且与在更大数据集上训练的最先进的开源英文模型相当。考虑到大型语言模型的固有安全问题，他们通过安全导向的指令进一步微调了模型。他们通过安全提示、基于关键词的过滤和外部分类器添加了额外的安全防护。

他们表示，Jais代表了中东自然语言处理和人工智能领域的重要发展和扩展。它推进了阿拉伯语的理解和生成，为当地参与者提供了主权和私有部署选择，并培育了一个应用和创新的活跃生态系统；这项工作支持了数字和人工智能转型的更广泛战略计划，以迎接一个更开放、更具语言包容性和文化意识的时代。