Press "Enter" to skip to content

认识富裕-8B:熟练平台背后非常独特的基金模型

这个模型是为基于代理的任务而设计的,并展示了一些在语言和计算机视觉方面独特的能力。

使用Modjourney创建

我最近开始写一个以人工智能为重点的教育通讯,已经有超过160,000个订阅者了。TheSequence是一个无废话(即没有炒作,没有新闻等)的面向机器学习的通讯,只需要5分钟阅读。我们的目标是保持您对机器学习项目、研究论文和概念的最新了解。请尝试订阅以下内容:

TheSequence | Jesus Rodriguez | Substack

机器学习、人工智能和数据的最佳信息源来保持最新进展…

thesequence.substack.com

Adept.ai是新晋人工智能独角兽的一部分。最初由一些标志性转换器论文的作者孵化,Adept致力于自主人工智能代理领域的研究。到目前为止,Adept已经在估值超过10亿美元的情况下筹集了超过4.15亿美元。该平台致力于构建能够理解高级目标并将其转化为行动的代理,主要依靠计算机视觉和语言。直到现在,对Adept后面的模型了解甚少,直到Adept开源了Fuyu-8B,这是其平台模型的较小版本。

Adept的使命是为知识工作者创建一个智能伴侣,一个拥有广泛知识的数字副驾驶员。为了实现这个目标,Adept非常注重把握用户的上下文并代替他们采取行动。这个努力的关键部分涉及精通图像理解。在知识工作的世界中,用户期望他们的副驾驶员能够无缝访问屏幕上可见的内容。通常,关键的信息是通过图像传达的,无论是图表、幻灯片还是PDF文件。此外,执行操作通常需要与屏幕上的按钮和菜单进行交互。虽然如果所有这些任务都可以通过API完成将是理想的,但许多以业务为导向的软件缺乏全面的API,因此需要通过图形用户界面(UI)来操作这些应用程序,以保持用户的参与度。

总的来说,Fuyu-8B在新一代多模态模型中展示了一些独特的特征:

1. 比标准架构更小更简单。

2. 为代理范式设计的。

3. 快速。

4. 在标准基准测试中能够与更大的模型匹配,同时在代理特定任务中超越它们。

架构

在最新一代基础模型中,多模态模型共享着一个通用的结构。它们通常具有独立的图像编码器,其输出通过交叉注意机制或适配器集成到现有的大型语言模型(LLM)中。这种范式可以在众多模型中找到,例如PALM-e,PALI-X,QWEN-VL,LLaVA 1.5和Flamingo。这些模型通常在固定的图像分辨率下操作。在推理过程中,超过这个分辨率的图像必须缩小,而具有不同宽高比的图像需要填充或变形。

在训练方面,许多其他多模态模型需要经历多步训练过程。图像编码器通常与LLM分开训练,通常使用对比训练目标,这在实施和管理上可能很复杂。必须决定何时冻结各个组件的权重。有些模型甚至包括额外的高分辨率图像阶段,以确保对高分辨率图像进行有效处理。

当确定如何按比例扩展这些模型时,将面临一个挑战,即如何在编码器和解码器之间分配额外的参数,并在训练过程中如何分配计算资源。然而,Adept提供了一个避开这些复杂性的模型。

从架构上看,Fuyu是一个直接的、只有解码器的Transformer,与Persimmon-8B具有相同的规格,没有专用的图像编码器。图像块直接投影到Transformer的第一层中,绕过了嵌入查询。这种方法把传统的Transformer解码器视为一个图像Transformer,尽管没有池化和因果注意力。更多细节,请参考附图。

图像来源:Adept

这种简化提供了处理不同分辨率图像的灵活性。为了实现这一点,图像标记被像文本标记一样处理。特定于图像的位置嵌入被删除,图像标记按照栅格扫描顺序输入模型中,特殊的换行字符表示换行。模型可以利用其现有的位置嵌入来适应不同的图像尺寸。在训练过程中,可以使用任意大小的图像,省去了需要分别进行高分辨率和低分辨率训练阶段的需要。

功能

除了多模态基础模型中预期的标准功能外,Fuyu-8B呈现出一套有趣的独特功能:

图像中的问答

Fuyu展示了在图像中处理复杂问题的能力,如下所示:

图像来源:Adept

图表理解

面对复杂的可视化数据,比如下面的图表,Fuyu在辨别复杂关系、记录各种要素之间的联系和提供富有洞察力的答案方面表现出色:

图像来源:Adept

文档掌握

Fuyu的能力可以解读各种类型的文档,无论是复杂的信息图还是陈旧的PDF文档:

图像来源:Adept

图解释

该模型的专长还包括解读复杂科学图表,娴熟地回答复杂的关联问题:

图像来源:Adept

OCR熟练度

除了这些技能外,Adept还通过优化内部模型,在面对用户界面(UI)图像时擅长以下两项重要任务:

· bbox_to_text:给定一个边界框,Adept可以精确识别该边界框内的文本。

· text_to_bbox:相反地,当提供文本时,Adept可以熟练地返回包围指定文本的边界框。

图像来源:Adept

Fuyu-8B无疑是近期在开源基础模型中最有趣的发布之一。其架构的简单性和独特的功能使它成为值得关注的模型之一。

Leave a Reply

Your email address will not be published. Required fields are marked *