Google增强现实的研究科学家Ruofei Du和高级研究科学家Alex Olwal在博客中指出,最近视频会议的进步极大地改进了远程视频通信,通过实时字幕和降噪等功能。然而,在各种情况下,动态视觉增强将有助于更好地传达复杂和微妙的信息。例如,在讨论在日本餐厅点什么菜时,你的朋友可以分享视觉图像,帮助你更自信地点“Sukiyaki”。或者当谈论你最近的旧金山家庭旅行时,你可能想展示你个人相册中的照片。 在ACM CHI 2023上介绍了我们的“视觉字幕:通过即时视觉增强语言交流”系统,我们引入了一个系统,使用口头提示来增强同步视频通信的实时视觉效果。我们使用我们为此目的策划的数据集,对大型语言模型进行了微调,以在开放词汇对话中主动建议相关的视觉效果。作为ARChat项目的一部分,我们开源了Visual Captions,该项目旨在快速原型开发具有实时转录的增强通信。 Visual Captions通过实时视觉效果促进口头交流。该系统甚至对实时语音转文字记录中经常出现的典型错误也非常稳健。例如,在上下文之外,转录模型误解了“pier”一词,将其误认为是“pair”,但Visual Captions仍建议使用Santa Monica Pier的图像。 通过动态视觉增强语言交流的设计空间 我们邀请了10个内部参与者,他们各自具有不同的技术和非技术背景,包括软件工程师、研究人员、UX设计师、视觉艺术家、学生等等,讨论他们对潜在实时视觉增强服务的特定需求和愿望。在两个会议中,我们介绍了设想系统的低保真原型,随后展示了现有文本到图像系统的视频演示。这些讨论形成了一个视觉增强实时对话的设计空间,如下图所示,标记为D1到D8。 视觉增强可以与对话同步或异步(D1:时间),可以用于表达和理解语音内容(D2:主题),可以使用各种不同的视觉内容、视觉类型和视觉来源进行应用(D3:视觉)。这种视觉增强可能会因会议规模(D4:规模)和会议是否处于同地或远程设置(D5:空间)而有所不同。这些因素还影响视觉效果是应该私下显示、在参与者之间共享还是公开对所有人显示(D6:隐私)。参与者还确定了他们在进行对话时想与系统交互的不同方式(D7:启动)。例如,人们提出了不同程度的“主动性”,这表示用户希望模型采取主动的程度。最后,参与者设想了不同的交互方式,例如使用语音或手势进行输入。(D8:交互)。 通过动态视觉增强语言交流的设计空间。 在初步反馈的基础上,我们设计了Visual Captions,专注于生成语义相关的视觉内容、类型和来源的同步视觉。虽然参与者在这些初步的探索性会话中参与的是一对一的远程对话,但在野外部署Visual Captions通常会是一对多(例如,一个人向观众进行演示)和多对多的情况(例如,多人在会议中进行讨论)。 因为最适合补充对话的视觉内容强烈依赖于讨论的上下文,我们需要一个特定于此用途的训练集。因此,我们收集了1595个语言(1)、视觉内容(2)、类型(3)和来源(4)的四元组数据集,涵盖了各种情境,包括日常对话、讲座和旅游指南。例如,“我很想看看它!”对应于“面孔微笑”的视觉内容,一个“emoji”的视觉类型和“公共搜索”的视觉来源。 “她有没有告诉你我们去墨西哥的旅行?”对应于“墨西哥旅行的一张照片”的视觉内容,一个“照片”的视觉类型和“个人相册”的视觉来源。我们为研究社区公开发布了该VC1.5K数据集。 视觉意图预测模型 为了预测哪些视觉内容可以补充对话,我们使用VC1.5K数据集基于大型语言模型训练了一个视觉意图预测模型。为了进行训练,我们将每个视觉意图解析成“ <Visual Type>…
Leave a Comment