一组来自中国的研究人员开发了WebGLM：一种基于通用语言模型（GLM）的网络增强问答系统

一组来自中国的研究人员开发了WebGLM：一种基于通用语言模型（GLM）的网络增强问答系统机器学习第1张

大型语言模型（LLMs），包括GPT-3、PaLM、OPT、BLOOM和GLM-130B，极大地推动了计算机在语言理解和生成方面的可能性。其中最基本的语言应用之一，即问答，由于最近LLM的突破而得到了显着改进。根据现有研究，LLMs的闭书QA和上下文学习QA的表现与受监督模型相当，这有助于我们对LLMs的记忆能力的理解。但即使是LLMs也有限制，当面对需要大量特殊知识的问题时，它们无法达到人类的期望。因此，最近的尝试集中在构建增强了外部知识（包括检索和在线搜索）的LLMs上。

例如，WebGPT能够进行在线浏览，对复杂问题提供详细的答案和有用的参考。尽管它很受欢迎，但原始的WebGPT方法尚未被广泛采用。首先，它依赖于对浏览轨迹、精心撰写的响应和答案偏好标注的许多专家级注释，所有这些都需要昂贵的资源、大量的时间和广泛的培训。其次，通过告诉系统与Web浏览器交互，给出操作指令（如“搜索”、“阅读”和“引用”），然后从在线来源收集相关材料，行为克隆方法（即模仿学习）需要其基本模型GPT-3类似于人类专家。

最后，Web浏览的多轮结构需要大量的计算资源，并且对于用户体验来说可能过于缓慢，例如，WebGPT-13B需要大约31秒才能回答一个500个标记的查询。清华大学、北京航空航天大学和智普AI的研究人员在本研究中介绍了WebGLM，这是一个基于100亿参数的通用语言模型（GLM-10B）构建的稳健的Web增强质量保证系统。图1展示了其中的一个示例。它是有效、经济、对人类偏好敏感，最重要的是，它与WebGPT的水平相当。为了获得良好的性能，该系统使用了几种新颖的方法和设计，包括LLM增强检索器，一种将细粒度的LLM蒸馏检索与粗粒度的Web搜索相结合的两阶段检索器。

像GPT-3这样的LLMs自然接受正确的引用的能力是这种技术的灵感来源，这可以通过适当的基于引文的过滤来改进较小的密集检索器。基于LLM上下文学习引导并在引用的长形QA样本上进行训练的基于GLM-10B的响应生成器被称为引导生成器。LLMs可以通过足够的基于引文的过滤来提供高质量的数据，而不是依靠昂贵的人类专家在WebGPT中编写。一个得分器，通过在线QA论坛上的用户点赞信号进行教学，可以了解人类多数人对各种答复的偏好。

一组来自中国的研究人员开发了WebGLM：一种基于通用语言模型（GLM）的网络增强问答系统机器学习第3张 — 图1显示了WebGLM对样本查询的回答快照，附带了在线资源的链接。

他们展示了一种合适的数据集架构可以产生与WebGPT的专家标注相比的高质量评分器。他们的定量消融测试和深入的人类评估结果显示了WebGLM系统的高效和有效。特别是，WebGLM（10B）在他们的图灵测试中优于WebGPT（175B），并且优于大小相似的WebGPT（13B）。WebGLM是目前最好的公开可用的Web增强QA系统之一，得益于对唯一公开可用系统Perplexity.ai的改进。总之，在本文中，他们提供了以下内容：•他们建立了WebGLM，这是一个有效的带有人类偏好的Web增强质量保证系统。它的性能类似于WebGPT（175B），并且比类似大小的WebGPT（13B）要好得多。

它还超越了由LLMs和搜索引擎驱动的流行系统Perplexity.ai。•他们在现实世界的部署中确定了WebGPT的局限性。他们提出了一组新的设计和策略，以在实现基线系统的高准确性的同时实现高效和具有成本效益的优势。•他们制定了人类评估指标，用于评估Web增强型QA系统。广泛的人类评估和实验证明了WebGLM的强大能力，并为系统未来的发展产生了见解。代码实现可在GitHub上找到。