认识富裕-8B：熟练平台背后非常独特的基金模型

这个模型是为基于代理的任务而设计的，并展示了一些在语言和计算机视觉方面独特的能力。

我最近开始写一个以人工智能为重点的教育通讯，已经有超过160,000个订阅者了。TheSequence是一个无废话（即没有炒作，没有新闻等）的面向机器学习的通讯，只需要5分钟阅读。我们的目标是保持您对机器学习项目、研究论文和概念的最新了解。请尝试订阅以下内容：

TheSequence | Jesus Rodriguez | Substack

机器学习、人工智能和数据的最佳信息源来保持最新进展…

thesequence.substack.com

Adept.ai是新晋人工智能独角兽的一部分。最初由一些标志性转换器论文的作者孵化，Adept致力于自主人工智能代理领域的研究。到目前为止，Adept已经在估值超过10亿美元的情况下筹集了超过4.15亿美元。该平台致力于构建能够理解高级目标并将其转化为行动的代理，主要依靠计算机视觉和语言。直到现在，对Adept后面的模型了解甚少，直到Adept开源了Fuyu-8B，这是其平台模型的较小版本。

Adept的使命是为知识工作者创建一个智能伴侣，一个拥有广泛知识的数字副驾驶员。为了实现这个目标，Adept非常注重把握用户的上下文并代替他们采取行动。这个努力的关键部分涉及精通图像理解。在知识工作的世界中，用户期望他们的副驾驶员能够无缝访问屏幕上可见的内容。通常，关键的信息是通过图像传达的，无论是图表、幻灯片还是PDF文件。此外，执行操作通常需要与屏幕上的按钮和菜单进行交互。虽然如果所有这些任务都可以通过API完成将是理想的，但许多以业务为导向的软件缺乏全面的API，因此需要通过图形用户界面（UI）来操作这些应用程序，以保持用户的参与度。

总的来说，Fuyu-8B在新一代多模态模型中展示了一些独特的特征：

1. 比标准架构更小更简单。

2. 为代理范式设计的。

3. 快速。

4. 在标准基准测试中能够与更大的模型匹配，同时在代理特定任务中超越它们。

架构

在最新一代基础模型中，多模态模型共享着一个通用的结构。它们通常具有独立的图像编码器，其输出通过交叉注意机制或适配器集成到现有的大型语言模型（LLM）中。这种范式可以在众多模型中找到，例如PALM-e，PALI-X，QWEN-VL，LLaVA 1.5和Flamingo。这些模型通常在固定的图像分辨率下操作。在推理过程中，超过这个分辨率的图像必须缩小，而具有不同宽高比的图像需要填充或变形。

在训练方面，许多其他多模态模型需要经历多步训练过程。图像编码器通常与LLM分开训练，通常使用对比训练目标，这在实施和管理上可能很复杂。必须决定何时冻结各个组件的权重。有些模型甚至包括额外的高分辨率图像阶段，以确保对高分辨率图像进行有效处理。

当确定如何按比例扩展这些模型时，将面临一个挑战，即如何在编码器和解码器之间分配额外的参数，并在训练过程中如何分配计算资源。然而，Adept提供了一个避开这些复杂性的模型。

从架构上看，Fuyu是一个直接的、只有解码器的Transformer，与Persimmon-8B具有相同的规格，没有专用的图像编码器。图像块直接投影到Transformer的第一层中，绕过了嵌入查询。这种方法把传统的Transformer解码器视为一个图像Transformer，尽管没有池化和因果注意力。更多细节，请参考附图。

这种简化提供了处理不同分辨率图像的灵活性。为了实现这一点，图像标记被像文本标记一样处理。特定于图像的位置嵌入被删除，图像标记按照栅格扫描顺序输入模型中，特殊的换行字符表示换行。模型可以利用其现有的位置嵌入来适应不同的图像尺寸。在训练过程中，可以使用任意大小的图像，省去了需要分别进行高分辨率和低分辨率训练阶段的需要。

功能

除了多模态基础模型中预期的标准功能外，Fuyu-8B呈现出一套有趣的独特功能：

图像中的问答

Fuyu展示了在图像中处理复杂问题的能力，如下所示：

图表理解

面对复杂的可视化数据，比如下面的图表，Fuyu在辨别复杂关系、记录各种要素之间的联系和提供富有洞察力的答案方面表现出色：

文档掌握

Fuyu的能力可以解读各种类型的文档，无论是复杂的信息图还是陈旧的PDF文档：

图解释

该模型的专长还包括解读复杂科学图表，娴熟地回答复杂的关联问题：

OCR熟练度

除了这些技能外，Adept还通过优化内部模型，在面对用户界面（UI）图像时擅长以下两项重要任务：

· bbox_to_text：给定一个边界框，Adept可以精确识别该边界框内的文本。

· text_to_bbox：相反地，当提供文本时，Adept可以熟练地返回包围指定文本的边界框。

Fuyu-8B无疑是近期在开源基础模型中最有趣的发布之一。其架构的简单性和独特的功能使它成为值得关注的模型之一。