视觉标题：使用大型语言模型来增强视频会议，并提供动态视觉效果

Google增强现实的研究科学家Ruofei Du和高级研究科学家Alex Olwal在博客中指出，最近视频会议的进步极大地改进了远程视频通信，通过实时字幕和降噪等功能。然而，在各种情况下，动态视觉增强将有助于更好地传达复杂和微妙的信息。例如，在讨论在日本餐厅点什么菜时，你的朋友可以分享视觉图像，帮助你更自信地点“Sukiyaki”。或者当谈论你最近的旧金山家庭旅行时，你可能想展示你个人相册中的照片。

在ACM CHI 2023上介绍了我们的“视觉字幕：通过即时视觉增强语言交流”系统，我们引入了一个系统，使用口头提示来增强同步视频通信的实时视觉效果。我们使用我们为此目的策划的数据集，对大型语言模型进行了微调，以在开放词汇对话中主动建议相关的视觉效果。作为ARChat项目的一部分，我们开源了Visual Captions，该项目旨在快速原型开发具有实时转录的增强通信。

Visual Captions通过实时视觉效果促进口头交流。该系统甚至对实时语音转文字记录中经常出现的典型错误也非常稳健。例如，在上下文之外，转录模型误解了“pier”一词，将其误认为是“pair”，但Visual Captions仍建议使用Santa Monica Pier的图像。

通过动态视觉增强语言交流的设计空间

我们邀请了10个内部参与者，他们各自具有不同的技术和非技术背景，包括软件工程师、研究人员、UX设计师、视觉艺术家、学生等等，讨论他们对潜在实时视觉增强服务的特定需求和愿望。在两个会议中，我们介绍了设想系统的低保真原型，随后展示了现有文本到图像系统的视频演示。这些讨论形成了一个视觉增强实时对话的设计空间，如下图所示，标记为D1到D8。

视觉增强可以与对话同步或异步（D1：时间），可以用于表达和理解语音内容（D2：主题），可以使用各种不同的视觉内容、视觉类型和视觉来源进行应用（D3：视觉）。这种视觉增强可能会因会议规模（D4：规模）和会议是否处于同地或远程设置（D5：空间）而有所不同。这些因素还影响视觉效果是应该私下显示、在参与者之间共享还是公开对所有人显示（D6：隐私）。参与者还确定了他们在进行对话时想与系统交互的不同方式（D7：启动）。例如，人们提出了不同程度的“主动性”，这表示用户希望模型采取主动的程度。最后，参与者设想了不同的交互方式，例如使用语音或手势进行输入。（D8：交互）。

通过动态视觉增强语言交流的设计空间。

在初步反馈的基础上，我们设计了Visual Captions，专注于生成语义相关的视觉内容、类型和来源的同步视觉。虽然参与者在这些初步的探索性会话中参与的是一对一的远程对话，但在野外部署Visual Captions通常会是一对多（例如，一个人向观众进行演示）和多对多的情况（例如，多人在会议中进行讨论）。

因为最适合补充对话的视觉内容强烈依赖于讨论的上下文，我们需要一个特定于此用途的训练集。因此，我们收集了1595个语言（1）、视觉内容（2）、类型（3）和来源（4）的四元组数据集，涵盖了各种情境，包括日常对话、讲座和旅游指南。例如，“我很想看看它！”对应于“面孔微笑”的视觉内容，一个“emoji”的视觉类型和“公共搜索”的视觉来源。 “她有没有告诉你我们去墨西哥的旅行？”对应于“墨西哥旅行的一张照片”的视觉内容，一个“照片”的视觉类型和“个人相册”的视觉来源。我们为研究社区公开发布了该VC1.5K数据集。

视觉意图预测模型

为了预测哪些视觉内容可以补充对话，我们使用VC1.5K数据集基于大型语言模型训练了一个视觉意图预测模型。为了进行训练，我们将每个视觉意图解析成“ <Visual Type> of <Visual Content> from <Visual Source>”的格式。

{"prompt": "<Previous Two Sentences> →", 
  "completion": 
"<Visual Type 1> of "<Visual Type 1> from "<Visual Source 1>;
 <Visual Type 2> of "<Visual Type 2> from "<Visual Source 2>; 
  ... \𝑛"}

使用这种格式，该系统可以处理开放性词汇的对话，并在上下文中预测视觉内容、视觉来源和视觉类型。我们发现，与基于关键字的方法相比，这种方法在处理开放性词汇的例子（例如“你姑姑艾米将在这个周六来访”）时表现更佳，并且可以提供相关的视觉类型或视觉来源。

我们模型预测的视觉意图的示例。

我们使用了VC1.5K数据集中的1276个（80%）例子对大型语言模型进行细化训练，将其余的319个（20%）例子作为测试数据。我们使用标记准确率指标来衡量经过微调的模型的性能，即批次中被模型正确预测的标记百分比。在训练期间，我们的模型达到了97%的训练标记准确率和87%的验证标记准确率。

性能

为了评估训练的Visual Captions模型的实用性，我们邀请了89名参与者执行了846项任务。他们被要求根据六个定性语句的“1-强烈不同意”到“7-强烈同意”的比例提供反馈。大多数参与者更喜欢在对话中使用视觉内容（Q1，83% ≥ 5-稍微同意）。此外，他们认为显示的视觉内容是有用和信息丰富的（Q2，82% ≥ 5-稍微同意），高质量的（Q3，82% ≥ 5-稍微同意）并且与原始讲话相关（Q4，84% ≥ 5-稍微同意）。参与者还发现，在相应对话的上下文中，预测的视觉类型（Q5，87% ≥ 5-稍微同意）和视觉来源（Q6，86% ≥ 5-稍微同意）是准确的。

由研究参与者评定的视觉预测模型的技术评估结果。

使用这个经过微调的视觉意图预测模型，我们在ARChat平台上开发了Visual Captions，可以直接在视频会议平台（如Google Meet）的摄像头流中添加新的交互小部件。如下系统工作流程所示，Visual Captions自动捕捉用户的语音，检索最后一句话，每100毫秒将其馈入视觉意图预测模型中，检索相关视觉内容，然后实时提供建议。

Visual Captions 的系统工作流程。

Visual Captions 提供了三种主动性的视觉建议：

自动展示（高主动性）：系统自主搜索并向所有参会者公开展示视觉内容，无需用户交互。
自动建议（小猪AI主动性）：建议的视觉内容显示在一个私人滚动视图中。用户选择一个视觉内容后，该视觉内容就会公开展示。在这种模式下，系统会主动推荐视觉内容，但用户可以决定何时以及展示什么。
按需建议（低主动性）：只有当用户按下空格键时，系统才会建议视觉内容。

定量和定性评估：用户研究

我们在受控实验室研究（n=26）和野外部署研究（n=10）中评估了Visual Captions。参与者发现实时视觉内容有助于通过帮助解释陌生概念、解决语言歧义和使对话更加有趣来促进现场对话。参与者还报告了在现场与系统互动时不同的偏好，并且不同的社交场景中偏好不同程度的主动性。

参与者的任务负载指数和Likert量表评分（从1-完全不同意到7-完全同意）：四个没有Visual Captions（“No VC”）和三个Visual Captions模式：自动展示、自动建议和按需建议。

结论和未来方向

本研究提出了一种名为Visual Captions的实时视觉增强口头交流系统，该系统使用了一个包含15个主题类别、246名参与者收集的1595个视觉意图的数据集进行训练。我们公开发布了训练数据集VC1.5K，以支持该领域的进一步研究。我们还在ARChat中部署了Visual Captions，该工具通过转录会议并增强摄像头视频流，促进了Google Meet中的视频会议。

Visual Captions是朝着在口头交流中实时增强视觉效果的方向迈出的重要一步。通过了解日常对话中视觉线索的重要性，我们可以创建更有效的交流工具并改善人们的联系方式。

致谢

本研究是Google多个团队的合作成果。项目的主要贡献者包括刘兴宇、弗拉基米尔·基里柳克、袁秀秀、智恒芃、亚历克斯·奥尔瓦尔和杜若飞。

我们要感谢ARChat团队的协助，包括Jason Mayes、Max Spear、Na Li、Jun Zhang、Jing Jin、Yuan Ren、Adarsh Kowdle、Ping Yu、Darcy Philippon和Ezgi Oztelcan。我们还要感谢那些与我们进行有见地的讨论并对手稿提供反馈的人，包括Eric Turner、Yinda Zhang、Feitong Tan、Danhang Tang和Shahram Izadi。我们还要感谢CHI的审稿人员提供的有见地的反馈。