关于评估大型语言模型的一切你应该知道的

开放式语言模型

随着开源语言模型变得更加易得，很容易迷失在所有选项中。

我们如何确定它们的性能并进行比较？我们如何自信地说一个模型比另一个更好？

本文通过介绍训练和评估指标，以及一般和特定的基准，提供一些答案，以清晰地了解模型的性能。

如果你错过了，可以看看开放式语言模型系列文章的第一篇：

towardsdatascience.com

语言模型定义了一个词汇表上的概率分布，以选择序列中最有可能的下一个词。给定一段文本，语言模型为语言中的每个单词分配一个概率，并选择最有可能的单词。

困惑度衡量了语言模型在给定序列中预测下一个词的能力。作为一个训练指标，它显示了模型对其训练集的学习程度。

我们不会深入讨论数学细节，但直观地说，最小化困惑度意味着最大化预测概率。

换句话说，最好的模型是在看到新文本时不会感到惊讶的模型，因为它预期到了 —— 这意味着它已经很好地预测了序列中接下来的单词。

虽然困惑度是有用的，但它不考虑单词背后的含义或使用的上下文，并且它受到我们如何对数据进行分词的影响 —— 不同的语言模型使用不同的词汇表和分词技术可能会产生不同的困惑度分数，使直接比较变得不太有意义。

困惑度是一个有用但有限的指标。我们主要使用它来跟踪模型训练的进展或进行比较…