这篇人工智能论文提出通过在多种非英语语言中建立语义对齐来增强预训练的LLMs的能力

I had trouble accessing your link so I’m going to try to continue without it.

这篇人工智能论文提出通过在多种非英语语言中建立语义对齐来增强预训练的LLMs的能力四海第1张

你有没有尝试在ChatGPT中用英语以外的语言提问？你可能会得到一个奇怪、无关的答案，因为这些模型通常对英语有偏见。如果LLMs可以在任何语言中工作，那不是更容易吗？

中国国家重点实验室的新型软件技术研究人员提出了一种针对非英语语言的预训练LLM。由于预训练语料库和指令调整数据都是英文的，LLMs在非英语语言中的通常性能较差。可以通过持续使用大规模单语数据进行预训练来改善它。

研究人员通过翻译任务对LLMs进行指令调整，以改善两种语言之间的对应关系，并使用跨语言通用任务来提高指令的能力。他们使用LLaMA-7B作为他们的预训练LLM，并考虑了六种与英文字母类似的语言。LLaMA代表大型语言模型元AI。

对于每种语言，使用特定语言的数据获得一个x-LLaMA，然后与LLMs进行进一步比较。这种语言建模需要根据前缀序列预测下一个标记。它需要在大规模语料库和翻译数据上训练LLM。翻译数据是学习语义对齐最有用的资源之一，通过使用人工专家注释的翻译数据来进行指令调整，可以提高LLM的翻译性能。

研究人员使用公开可用的句级翻译数据集构建翻译任务指令数据。这使得他们的方法可扩展、可重复和可扩展到更多语言。他们发现将非英语文本排列在翻译数据的目标侧可以提高LLM在非英语任务上的性能，而不是将其放在源侧。

研究人员使用双语翻译性能作为了解语义对齐的参数。他们发现翻译任务指令数据的规模也极大地影响对齐。他们得出了一个关于翻译性能和数据规模的表达式，其呈指数形式的对数依赖关系。他们发现，与英语相同的语言相比，较不相似的语言需要更多的翻译数据来建立语义对齐。

为了比较x-LLaMA，研究人员设计了Alpaca-7B（一个LLaMA），它使用英语指令进行调整；Parrot-7B，它使用人工注释的翻译数据进行调整；以及Bayling-7B，它使用人工交互翻译进行调整。他们发现，在六种非英语语言中，x-LLaMA的性能优于Alpaca-7B的42.50%。x-LLaMA在非英语任务上的准确性与Alpaca-7B在英语任务上的准确性相同。

最后，这证明了跨语言指令调整是一种有效的方法。他们的方法和发现揭示了为非英语语言开发更强大的LLMs的潜力。