Press "Enter" to skip to content

微软研究员介绍了新的多模态大型语言模型KOSMOS-2

微软研究员介绍了新的多模态大型语言模型KOSMOS-2 四海 第1张

在一篇新的论文中,微软的研究人员介绍了KOSMOS-2,这是一个新的多模态大型语言模型,已经能够证明其作为通用接口的成功。KOSMOS-2旨在通过融合基础能力,革新人类与人工智能在语言、视觉和视觉语言任务中的交互。

多模态大型语言模型(MLLMs)由于在各种活动中表现出卓越的性能,已经成为一种多用途接口。这些模型能够使用不同的模态(如文本、图像和音频)理解和生成响应,使得这些模型具有很高的价值。KOSMOS-2通过实现多模态大型语言模型的基础能力,将这种能力提升到了新的高度。

基础能力在视觉语言活动中尤为重要,因为它们为人机界面提供了更实用和有效的方式。KOSMOS-2可以根据地理坐标解释图片中的特定区域,使用户能够轻松地指向物品或感兴趣的区域,而不是依赖冗长的文本描述。

KOSMOS-2的一个显著特点是其提供了视觉响应,如边界框。这种能力通过消除指代歧义并提供精确清晰的视觉参考,极大地帮助了视觉语言任务。通过将名词短语和引用术语连接到特定的图片区域,KOSMOS-2生成更准确、信息丰富和全面的响应。

为了赋予KOSMOS-2基础能力,微软研究团队构建了一个大规模的基于图像和文本配对的数据集。通过将这个数据集与KOSMOS-1中现有的多模态语料库整合,模型被训练以充分利用其基础潜力。该过程涉及提取和连接相关的文本片段,如名词短语和引用表达,到由边界框表示的空间位置。

然后,这些空间坐标被转换成位置标记,创建了一种数据格式,作为将图像元素与标题连接起来的“超链接”。实验结果表明,KOSMOS-2在短语基础和引用表达理解等基础任务中表现出色。

最后,根据论文的说法,它在KOSMOS-1中评估的语言和视觉语言任务中表现出竞争力。基础能力的引入为KOSMOS-2带来了许多其他下游应用的可能性,包括基于基础的图片字幕生成和基于基础的视觉问答。

如果您有兴趣,可以通过GitHub上提供的在线演示来探索KOSMOS-2的能力。

编辑注:您准备好了解最新的生成AI技术吗?加入我们进行为期一天的生成AI峰会。超越炒作,深入探讨这一前沿技术。现在免费注册,释放生成AI的力量。

Leave a Reply

Your email address will not be published. Required fields are marked *