微软研究员介绍了新的多模态大型语言模型KOSMOS-2

微软研究员介绍了新的多模态大型语言模型KOSMOS-2 四海第1张

在一篇新的论文中，微软的研究人员介绍了KOSMOS-2，这是一个新的多模态大型语言模型，已经能够证明其作为通用接口的成功。KOSMOS-2旨在通过融合基础能力，革新人类与人工智能在语言、视觉和视觉语言任务中的交互。

多模态大型语言模型（MLLMs）由于在各种活动中表现出卓越的性能，已经成为一种多用途接口。这些模型能够使用不同的模态（如文本、图像和音频）理解和生成响应，使得这些模型具有很高的价值。KOSMOS-2通过实现多模态大型语言模型的基础能力，将这种能力提升到了新的高度。

基础能力在视觉语言活动中尤为重要，因为它们为人机界面提供了更实用和有效的方式。KOSMOS-2可以根据地理坐标解释图片中的特定区域，使用户能够轻松地指向物品或感兴趣的区域，而不是依赖冗长的文本描述。

KOSMOS-2的一个显著特点是其提供了视觉响应，如边界框。这种能力通过消除指代歧义并提供精确清晰的视觉参考，极大地帮助了视觉语言任务。通过将名词短语和引用术语连接到特定的图片区域，KOSMOS-2生成更准确、信息丰富和全面的响应。

为了赋予KOSMOS-2基础能力，微软研究团队构建了一个大规模的基于图像和文本配对的数据集。通过将这个数据集与KOSMOS-1中现有的多模态语料库整合，模型被训练以充分利用其基础潜力。该过程涉及提取和连接相关的文本片段，如名词短语和引用表达，到由边界框表示的空间位置。

然后，这些空间坐标被转换成位置标记，创建了一种数据格式，作为将图像元素与标题连接起来的“超链接”。实验结果表明，KOSMOS-2在短语基础和引用表达理解等基础任务中表现出色。

最后，根据论文的说法，它在KOSMOS-1中评估的语言和视觉语言任务中表现出竞争力。基础能力的引入为KOSMOS-2带来了许多其他下游应用的可能性，包括基于基础的图片字幕生成和基于基础的视觉问答。

如果您有兴趣，可以通过GitHub上提供的在线演示来探索KOSMOS-2的能力。

编辑注：您准备好了解最新的生成AI技术吗？加入我们进行为期一天的生成AI峰会。超越炒作，深入探讨这一前沿技术。现在免费注册，释放生成AI的力量。