该CSAIL科学家通过最先进的机器学习模型和对语言如何增强其他类型的人工智能的研究,描述了自然语言处理研究
言辞、数据、算法综合构成,
关于LLMs的文章,如此神圣。
一个语言世界的一瞥,
其中语言机器被展现。
将一个大型语言模型(LLM)如CHATGPT用于创建探讨大型语言模型主题的诗歌,并将其作为本文的引言,这是一种自然的倾向。
那么,这首诗是如何以押韵的方式和聪明的短语组合在一起的呢?我们直接找到了源头:麻省理工学院助理教授和CSAIL首席研究员Jacob Andreas,他的研究集中在推进自然语言处理领域的发展,包括开发尖端的机器学习模型和探索语言作为增强其他形式人工智能的手段的潜力。这包括了在使用自然语言教授机器人方面的开创性工作,以及利用语言使计算机视觉系统能够表达其决策过程的原理。我们向Andreas探讨了该技术的机理、影响和未来前景。
问:语言是一个丰富的生态系统,充满了人类用来相互沟通的微妙细节——讽刺、反语和其他形式的比喻语言。除了字面意义之外,还有无数种传达意义的方式。大型语言模型能够理解上下文的复杂性吗?模型实现“上下文学习”意味着什么?此外,多语言转换器如何处理英语以外的不同语言的变体和方言?
答:当我们考虑语言环境时,这些模型能够推理比我们先前所知道的任何文档和文本块更广泛的内容。但这只是一种上下文。对于人类而言,语言的产生和理解是在一个有根据的上下文中进行的。例如,我知道我坐在这张桌子旁边。有一些物品我可以引用,但目前我们与人类用户交互时,这些语言模型通常看不到任何东西。
有一个更广泛的社会背景来影响我们的语言使用,这些模型至少在一开始并不敏感或意识到这些背景。如何向其提供有关其语言生成和语言建模发生的社会背景的信息并不清楚。另一个重要的问题是时间背景。我们在特定的时间拍摄这个视频,当时有一些事实是真实的。我们现在拥有的模型是基于互联网的一个快照训练的,这个快照在某个时间停止了——对于我们现在拥有的大多数模型来说,可能是几年前——它们不知道自那时以来发生了任何事情。它们甚至不知道自己正在进行文本生成的那个时刻。弄清楚如何提供所有这些不同类型的上下文也是一个有趣的问题。
也许这里最令人惊讶的组成部分之一是这种称为上下文学习的现象。如果我将一个小的ML [机器学习]数据集馈送到模型中,例如一篇电影评论和评论家为该电影分配的星级评分,您只需要给出这些东西的几个例子,语言模型就会生成可以预测电影评级的声音。总的来说,如果我有一个机器学习问题,我有我的输入和输出。当您将输入提供给模型时,您给它一个或多个输入,并要求它预测输出,模型通常可以很好地完成这项工作。
这是一种非常有趣、根本上不同的机器学习方式,其中我有一个通用的大型模型,可以将许多小的机器学习数据集插入其中,而无需训练新的模型,分类器或生成器或专门针对我的特定任务。这实际上是我们研究组和谷歌同事在一些合作中一直在思考的事情,试图理解这种上下文学习现象的确切方式。
问:我们想相信人类(至少在某种程度上)正在追求客观和道德上被认为是真实的东西。大型语言模型,也许具有未定义或尚未理解的“道德指南针”,不受真实性的约束。为什么大型语言模型倾向于产生虚假事实,或者自信地断言不准确的事实?这是否限制了在需要事实准确性的应用程序中的实用性?对于我们如何解决这个问题是否有一个主导理论?
答:这些模型产生错误的事实是有据可查的,它们并不总是可靠的。最近,我要求ChatGPT描述我们研究组的一些研究。它列出了五篇论文,其中四篇实际上并不存在,而其中一篇是我在英国的一位同事写的真实论文,我从未与他合著过。事实性仍然是一个很大的问题。即使超越了这一点,在涉及到一般推理的事情、涉及到复杂的计算、复杂的推论时,这些模型仍然似乎很难。这种转换器架构可能存在根本性的限制,我相信需要更多的建模工作来使事情变得更好。
为什么会出现这种情况仍然是一个部分开放的问题,但可能仅仅是从架构上来说,它们很难建立起世界的连贯模型。它们可以做到一点点。你可以用事实性问题、琐事问题来查询它们,它们大多数时候都能正确回答,甚至比街头的平均人类用户更加准确。但与普通的人类用户不同,它们内部是否存在任何与世界状态有关的信念是非常不清楚的。我认为这既是出于架构上的原因,变压器显然没有地方可以存放这种信念,也是出于训练数据的原因,这些模型是在由不同的人在不同的时刻撰写的互联网上进行训练的,这些人对世界的状态有不同的认识。因此,很难期望模型能够一致地表示这些事情。
尽管如此,我并不认为这是神经语言模型或更一般的语言模型的根本局限,而是当前语言模型所面临的问题。我们已经看到模型正在接近能够构建事实的表示、世界状态的表示,我认为还有进一步改进的空间。
问: GPT-2到GPT-3再到GPT-4的进展速度令人眼花缭乱。从现在起它的轨迹看起来是指数增长还是S型曲线,会在近期的进展中减缓吗?如果是的话,是否存在规模、计算、数据或架构方面的限制?
答:在短期内,我最担心的事情与我之前提到的真实性和连贯性问题有关,即使是我们今天拥有的最好的模型也会产生错误的事实。它们会生成有漏洞的代码,而由于这些模型的工作方式,它们以一种特别难以被人类发现的方式进行。当我们思考代码时,仍然存在一个开放的问题,即手写一个函数对于某人来说是否比让语言模型生成该函数并让人去验证该函数的实现是否正确更省事。
急于立即部署这些工具确实存在一些风险,我们可能会陷入一种世界,一切都稍微有些糟糕,但人们实际上很难可靠地检查这些模型的输出。尽管如此,这些问题是可以克服的。特别是随着事物的变化速度,长期来看,有很大的空间来解决这些关于事实性、连贯性和生成代码的正确性问题。这确实是一些工具,我们可以用它们来解放我们社会中许多不愉快的任务、繁琐的工作,这是令人兴奋的。