Press "Enter" to skip to content

“见面 LLm-AUGMENTER Microsoft Research 的架构,用于增强LLMs的记忆、知识和外部反馈”

这个新框架可以作为生产就绪LLM解决方案的参考。

使用Midjourney创建

最近,我开始了一个以人工智能为重点的教育性新闻简报,已经有超过160,000个订阅者了。TheSequence 是一个无废话(没有炒作、没有新闻等)的面向机器学习的新闻简报,只需5分钟阅读。其目标是让您了解机器学习项目、研究论文和概念的最新动态。请订阅以下链接以试试看:

TheSequence | Jesus Rodriguez | Substack

机器学习、人工智能和数据领域最新动态的最佳来源…

thesequence.substack.com

广大语言模型(LLMs)的强大能力已得到广泛认可,例如ChatGPT。这些模型在生成流利、连贯和信息丰富的自然语言文本方面表现出色。它们的出色性能归功于丰富的编码世界知识和从中进行概括的能力。然而,LLMs中的知识编码容易丢失,并且概括过程可能导致“记忆扭曲”。因此,当部署在关键任务中时,这些模型经常会出现幻觉,这可能会带来问题。此外,尽管模型大小呈指数级增长,但LLMs无法编码许多应用所需的所有信息。例如,现实世界环境的动态性使得LLMs对于新闻问答等时间敏感任务很快过时。此外,由于隐私问题,许多专有数据集对LLMs的训练是不可访问的。最近,微软研究部门发表了一篇论文,介绍了LLM-AUGMENTER,这是一个旨在增强LLMs的外部知识和自动反馈的框架。

从功能上讲,LLM-AUGMENTER将知识增强和记忆结合在一个连贯的架构中。下图展示了在足球场景中使用LLM-AUGMENTER的情况。当出现用户查询,例如关于2013年洛杉矶银河队的球员转会的问题时,LLM-AUGMENTER会从中获取证据…

Leave a Reply

Your email address will not be published. Required fields are marked *