Press "Enter" to skip to content

苏黎世大学的研究人员开发了SwissBERT:瑞士四种官方语言的多语言语言模型

苏黎世大学的研究人员开发了SwissBERT:瑞士四种官方语言的多语言语言模型 四海 第1张苏黎世大学的研究人员开发了SwissBERT:瑞士四种官方语言的多语言语言模型 四海 第2张

近期,著名的BERT模型一直是自然语言处理中领先的语言模型之一。该语言模型适用于多个NLP任务,这些任务将输入序列转换为输出序列。BERT(Bidirectional Encoder Representations from Transformers)使用了Transformer注意机制。注意机制学习文本语料库中单词或子词之间的上下文关系。BERT语言模型是自然语言处理进展的最重要例子之一,并使用了自监督学习技术。

在开发BERT模型之前,语言模型在训练时分析文本序列,要么从左到右,要么从左到右和从右到左结合。这种单向方法对于通过预测下一个单词来生成句子,并将其附加到序列中,然后预测下一个到下一个单词,直到获得完整的有意义的句子的工作效果很好。通过BERT,引入了双向训练,与以前的语言模型相比,它能更深入地理解语言上下文和流。

最初的BERT模型发布为英文。随后,开发了其他语言模型,如法文的CamemBERT和意大利文的GilBERTo。最近,苏黎世大学的研究人员开发了一种适用于瑞士的多语言模型。这个模型名为SwissBERT,它在瑞士标准德语、法语、意大利语和罗曼什语Grischun中训练了超过2100万篇瑞士新闻文章,总计120亿个标记。

SwissBERT的引入是为了克服瑞士研究人员在执行多语言任务时面临的挑战。瑞士主要有四种官方语言-德语、法语、意大利语和罗曼什语,对于每种特定语言,单独的语言模型很难进行组合以执行多语言任务。此外,第四种国家语言罗曼什语也没有单独的神经语言模型。由于在自然语言处理领域实现多语言任务有一定难度,瑞士国家语言在SwissBERT之前没有统一的模型。SwissBERT通过简单地结合这些语言的文章,并通过隐式利用新闻中的共同实体和事件来创建多语言表示,克服了这一挑战。

SwissBERT模型是由预先训练在81种语言中的跨语言模块(X-MOD)转换器重新建模而来。研究人员通过训练自定义语言适配器,将预先训练的X-MOD转换器适应到他们的语料库中。他们为SwissBERT创建了一个瑞士特定的子词汇表,得到的模型包含了1.53亿个参数。

研究团队在一些任务上评估了SwissBERT的性能,包括对当代新闻(SwissNER)中的命名实体进行识别和检测用户生成的对瑞士政治的立场。SwissBERT的表现优于常见的基准模型,并在检测立场方面优于XLM-R。在对罗曼什语的能力进行评估时,发现SwissBERT在零-shot跨语言转移和德语-罗曼什语单词和句子的对齐方面明显优于未经该语言训练的模型。然而,在识别历史上经过OCR处理的新闻中的命名实体方面,该模型表现不佳。

研究人员发布了带有用于下游任务微调的SwissBERT示例。这个模型在未来的研究甚至非商业目的上似乎很有前景。通过进一步的适应,下游任务可以从该模型的多语言能力中受益。

Leave a Reply

Your email address will not be published. Required fields are marked *