近年来,大型语言模型(LLMs)在人工智能领域获得了重要地位,但它们主要关注文本,并且在理解视觉内容方面存在困难。多模态大型语言模型(MLLMs)应运而生,用于弥合这一差距。MLLMs将视觉和文本信息结合在一个基于Transformer的模型中,使其能够从两种模态中学习和生成内容,标志着人工智能能力的重大进展。
KOSMOS-2.5是一个多模态模型,旨在在统一框架内处理两个密切相关的转录任务。第一个任务涉及生成具有空间感知的文本块,并在文本丰富的图像中为文本行分配空间坐标。第二个任务侧重于以markdown格式生成结构化文本输出,捕捉各种样式和结构。
这两个任务在单个系统下管理,利用共享的Transformer架构、任务特定的提示和可适应的文本表示。该模型的架构结合了基于ViT(Vision Transformer)的视觉编码器和基于Transformer架构的语言解码器,通过一个重采样模块连接起来。
为了训练这个模型,它在大量的文本密集图像数据集上进行了预训练,其中包括带有边界框和纯markdown文本的文本行。这种双任务训练方法增强了KOSMOS-2.5的整体多模态识字能力。
以上图片显示了KOSMOS-2.5的模型架构。KOSMOS-2.5的性能在两个主要任务中进行了评估:端到端的文档级文本识别和以markdown格式从图像生成文本。实验结果展示了它在理解文本密集图像任务方面的强大性能。此外,KOSMOS-2.5在涉及少样本和零样本学习的场景中展示了有前途的能力,使其成为处理文本丰富图像的现实应用的多功能工具。
尽管取得了这些有希望的结果,但当前模型仍面临一些限制,并提供了宝贵的未来研究方向。例如,尽管KOSMOS-2.5在输入和输出涉及文本的空间坐标的情况下进行了预训练,但目前不支持使用自然语言指令对文档元素的位置进行细粒度控制。在更广泛的研究领域中,进一步发展模型扩展能力是一个重要方向。