Press "Enter" to skip to content

多模型是什么?

给 LLMs 增加看见的能力!

Mecari 文本和图像嵌入演示在 Nomic 的 Atlas 上运行的屏幕截图

这篇文章适合谁?

  • 读者群体 [🟢⚪️⚪️]: AI 初学者,熟悉流行的概念、模型及其应用
  • 水平 [🟢🟢️⚪️]:中级主题
  • 复杂度 [🟢⚪️⚪️]:易于理解,没有数学公式或复杂理论

❓为什么这很重要

基础的大型语言模型(LLMs),在大型数据集上进行预训练,通过零-shot、少-shot或迁移学习方式,对泛用的多任务进行高效处理。

确实,诸如 PaLM2 和 GPT4 等这些模型的例子,已经彻底改变了我们使用文本作为输入与计算机进行交互的方式,但是……

  • 如果有一种方法可以扩展这些模型的智能,使它们能够使用不同类型的输入模态,例如照片、音频和视频?换句话说,让它们成为多模态的!
  • 这可以极大改善我们在网络上搜索事物的方式,或者甚至在现实世界的应用中,比如医学和病理学等方面,更好地理解我们周围的世界。
  • 解决方案已经存在!多模态深度学习模型可以结合来自不同类型输入的嵌入向量,例如,一个 LLM 可以“看到”您所询问的内容,并返回相关结果。

⚡️如果您想了解更多有关这一切如何工作并尝试使用可运行的演示,请继续关注!

🔥 它是如何工作的?

它从嵌入开始

培训深度学习模型最强大的构建块之一是创建嵌入向量。

在训练过程中,模型将遇到的不同类别(例如人物、食物和玩具)编码为它们的数值表示,也就是所谓的嵌入,作为一组数字储存。

当我们要从类别(或类)的稀疏表示(例如长字符串的文本或图像)转换为更紧凑的表示,并且可以在其他模型中重复使用时,嵌入就非常有用。

Leave a Reply

Your email address will not be published. Required fields are marked *