给 LLMs 增加看见的能力!

这篇文章适合谁?
- 读者群体 [🟢⚪️⚪️]: AI 初学者,熟悉流行的概念、模型及其应用
- 水平 [🟢🟢️⚪️]:中级主题
- 复杂度 [🟢⚪️⚪️]:易于理解,没有数学公式或复杂理论
❓为什么这很重要
基础的大型语言模型(LLMs),在大型数据集上进行预训练,通过零-shot、少-shot或迁移学习方式,对泛用的多任务进行高效处理。
确实,诸如 PaLM2 和 GPT4 等这些模型的例子,已经彻底改变了我们使用文本作为输入与计算机进行交互的方式,但是……
- 如果有一种方法可以扩展这些模型的智能,使它们能够使用不同类型的输入模态,例如照片、音频和视频?换句话说,让它们成为多模态的!
- 这可以极大改善我们在网络上搜索事物的方式,或者甚至在现实世界的应用中,比如医学和病理学等方面,更好地理解我们周围的世界。
- 解决方案已经存在!多模态深度学习模型可以结合来自不同类型输入的嵌入向量,例如,一个 LLM 可以“看到”您所询问的内容,并返回相关结果。
⚡️如果您想了解更多有关这一切如何工作并尝试使用可运行的演示,请继续关注!
🔥 它是如何工作的?
它从嵌入开始
培训深度学习模型最强大的构建块之一是创建嵌入向量。
在训练过程中,模型将遇到的不同类别(例如人物、食物和玩具)编码为它们的数值表示,也就是所谓的嵌入,作为一组数字储存。
当我们要从类别(或类)的稀疏表示(例如长字符串的文本或图像)转换为更紧凑的表示,并且可以在其他模型中重复使用时,嵌入就非常有用。