苏黎世大学的研究人员开发了SwissBERT：瑞士四种官方语言的多语言语言模型

近期，著名的BERT模型一直是自然语言处理中领先的语言模型之一。该语言模型适用于多个NLP任务，这些任务将输入序列转换为输出序列。BERT（Bidirectional Encoder Representations from Transformers）使用了Transformer注意机制。注意机制学习文本语料库中单词或子词之间的上下文关系。BERT语言模型是自然语言处理进展的最重要例子之一，并使用了自监督学习技术。

在开发BERT模型之前，语言模型在训练时分析文本序列，要么从左到右，要么从左到右和从右到左结合。这种单向方法对于通过预测下一个单词来生成句子，并将其附加到序列中，然后预测下一个到下一个单词，直到获得完整的有意义的句子的工作效果很好。通过BERT，引入了双向训练，与以前的语言模型相比，它能更深入地理解语言上下文和流。

最初的BERT模型发布为英文。随后，开发了其他语言模型，如法文的CamemBERT和意大利文的GilBERTo。最近，苏黎世大学的研究人员开发了一种适用于瑞士的多语言模型。这个模型名为SwissBERT，它在瑞士标准德语、法语、意大利语和罗曼什语Grischun中训练了超过2100万篇瑞士新闻文章，总计120亿个标记。

SwissBERT的引入是为了克服瑞士研究人员在执行多语言任务时面临的挑战。瑞士主要有四种官方语言-德语、法语、意大利语和罗曼什语，对于每种特定语言，单独的语言模型很难进行组合以执行多语言任务。此外，第四种国家语言罗曼什语也没有单独的神经语言模型。由于在自然语言处理领域实现多语言任务有一定难度，瑞士国家语言在SwissBERT之前没有统一的模型。SwissBERT通过简单地结合这些语言的文章，并通过隐式利用新闻中的共同实体和事件来创建多语言表示，克服了这一挑战。

SwissBERT模型是由预先训练在81种语言中的跨语言模块（X-MOD）转换器重新建模而来。研究人员通过训练自定义语言适配器，将预先训练的X-MOD转换器适应到他们的语料库中。他们为SwissBERT创建了一个瑞士特定的子词汇表，得到的模型包含了1.53亿个参数。

研究团队在一些任务上评估了SwissBERT的性能，包括对当代新闻（SwissNER）中的命名实体进行识别和检测用户生成的对瑞士政治的立场。SwissBERT的表现优于常见的基准模型，并在检测立场方面优于XLM-R。在对罗曼什语的能力进行评估时，发现SwissBERT在零-shot跨语言转移和德语-罗曼什语单词和句子的对齐方面明显优于未经该语言训练的模型。然而，在识别历史上经过OCR处理的新闻中的命名实体方面，该模型表现不佳。

研究人员发布了带有用于下游任务微调的SwissBERT示例。这个模型在未来的研究甚至非商业目的上似乎很有前景。通过进一步的适应，下游任务可以从该模型的多语言能力中受益。