来自Datategy和Math＆AI研究所的研究人员为大型语言模型的多模态未来提供了一个观点

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-07-at-2.09.42-AM-1024×739.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-07-at-2.09.42-AM-150×150.png”/>来自法国的Datategy SAS和土耳其的Math & AI Institute的研究人员提出了一种最近兴起的多模态架构的潜在方向。他们研究的核心思想是，经过深入研究的命名实体识别（NER）形式可以在多模态大型语言模型（LLM）设置中加以利用。LLaVA、Kosmos或AnyMAL等多模态架构最近一直受到关注，并已在实践中展示了其能力。这些模型可以对文本以外的模态数据进行标记化处理，例如图片，并使用外部的模态特定编码器将其嵌入到联合语言空间中。这样，架构可以以交错的方式提供一种指导调整多模态数据混合文本的手段。这篇<a href=”https://www.xiaozhuai.com/this-ai-paper-introduces-rmt-which-combines-retnet-and-transformer-revolutionizing-computer-vision.html”>论文</a>提出，这种通用的架构偏好未来可以拓展成一个更雄心勃勃的设置，他们称之为“全模态时代”。与NER的概念相关的“实体”可以想象成这些类型架构的模态。例如，目前的LLMs在推断完整的代数推理方面存在困难。虽然正在进行研究以开发“友好于数学”的特定模型或使用外部工具，但这个问题的一个特定的前景可能是将定量值定义为这个框架中的一种模态。另一个例子是可以由特定的时态认知模态编码器处理的隐式和显式的日期和时间实体。LLMs在地理空间理解方面也面临很大困难，远远不被认为是“具备地理空间意识”的。此外，还需要处理数值全局坐标，其中在语言嵌入空间中应准确反映邻近和相邻的概念。因此，将位置作为特殊的地理空间模态纳入，同时配备特殊设计的编码器和联合训练，也可以为此问题提供解决方案。除了这些例子，可以作为模态纳入的第一个潜在实体包括人、机构等。作者们认为，这种方法有望解决参数化/非参数化知识扩展和上下文长度限制的问题，因为复杂性和信息可以分布到多个模态编码器中。这也可能解决通过模态注入更新信息的问题。研究人员仅提供了这种潜在框架的边界，并讨论了开发基于实体驱动的语言模型的前景和挑战。