“遇见Rumi项目：面向大型语言模型的多模态语用提示”

“遇见Rumi项目：面向大型语言模型的多模态语用提示” 四海第1张

在数字化时代兴起的技术中，大型语言模型(LLMs)已成为一种强大的工具，革新了人类社会和文化的许多方面，重塑了我们与计算机的互动方式。然而，存在一个需要解决的关键挑战。LLMs的限制显而易见，揭示了无法理解对话的上下文和细微差别以及依赖于提示的质量和特定性的差距。一个主要的限制是它们缺乏真实交流的深度，错过了所有的语际信息。

微软的Rumi项目旨在通过解决对非语言线索和上下文细微差别的理解的局限性，提升LLMs的能力。它将语际输入纳入基于提示的LLMs交互，以提高沟通质量。研究人员使用音频和视频模型从数据流中检测实时非语言线索。使用两个独立的模型从用户的音频中提取语际信息，一个是音频的韵律音调和抑扬顿挫，另一个是从语音的语义中提取的信息。他们使用视觉转换器对帧进行编码，并从视频中识别面部表情。下游服务将语际信息纳入基于文本的提示中。这种多模态方法旨在增强用户情感和意图的理解，从而将人工智能与人类的交互提升到一个新的水平。

在这项研究中，研究人员只是简要探讨了语际在传达用户意图方面提供关键信息的作用。未来，他们计划改进模型，使其更好、更高效。他们还希望添加更多细节，如从标准视频中获取的HRV（心率变异性）以及认知和环境感知。这都是为了在与人工智能的下一个交互浪潮中增加未明示的意义和意图的更大努力的一部分。