Google的多模态AI Gemini——技术深入解析

谷歌首席执行官桑达尔·皮查伊（Sundar Pichai）与谷歌DeepMind的德米斯·哈萨比斯（Demis Hassabis）于2023年12月介绍了Gemini。这个新的大型语言模型已经整合到谷歌广泛的产品阵容中，为数百万用户提供改进。

Gemini是谷歌先进的多模态人工智能模型，是统一的DeepMind和Brain AI实验室共同努力的成果。Gemini站在前辈们的肩膀上，承诺提供一个更互联和智能的应用套件。

与Bard、Duet AI和PaLM 2 LLM首秀之后紧密结合的谷歌Gemini的发布，标志着谷歌不仅要竞争，更要引领人工智能革命。

与人工智能寒冬的概念相反，Gemini的发布表明人工智能春天正在蓬勃发展，充满潜力和增长。回顾ChatGPT诞生一年以来，这本身就是人工智能的一个突破性时刻，谷歌的举动表明该行业的扩张远未结束；事实上，它可能只是加快了步伐。

Gemini是什么？

谷歌的Gemini模型能够处理多种数据类型，包括文本、图像、音频和视频。它有三个版本——Ultra、Pro和Nano——每个版本都针对特定应用进行了定制，从复杂推理到设备上使用。Ultra在多方面任务中表现突出，将在Bard Advanced上提供。Pro在性能和资源效率方面取得平衡，已经整合到用于文本提示的Bard中。Nano经过优化，适用于设备上的部署，有两种尺寸，并具备像Pixel 8 Pro这样的设备的离线使用的硬件优化，如4位量化。

Gemini的架构在其本地多模态输出能力上独一无二，使用离散图像标记进行图像生成，并从通用语音模型中集成音频特征以实现细致的音频理解。它处理视频数据的能力，将其作为序列图像与文本或音频输入交织在一起，展示了其多模态能力。

Gemini支持文本、图像、音频和视频序列作为输入

使用Gemini

Gemini 1.0正在谷歌的生态系统中推出，包括Bard，后者现在受益于Gemini Pro的改进能力。谷歌还将Gemini集成到其搜索、广告和Duet服务中，提高用户体验，提供更快速、更准确的回应。

对于那些想要利用Gemini能力的人来说，谷歌AI Studio和谷歌Cloud Vertex提供了对Gemini Pro的访问，后者还提供更多的定制和安全功能。

要体验由Gemini Pro提供支持的增强功能的Bard，用户可以按照以下简单步骤进行：

前往Bard：打开您偏好的Web浏览器，转到Bard网站。
安全登录：使用您的谷歌账号登录，确保无缝安全体验。
交互式聊天：您现在可以使用Bard，其中可以选择Gemini Pro的高级功能。

多模态的力量：

Gemini的核心是利用基于Transformer的架构，类似于在成功的自然语言处理模型如GPT-3中采用的方法。然而，Gemini的独特之处在于其能够处理和整合来自多个模态的信息，包括文本、图像和代码。这是通过一种称为跨模态注意力的新颖技术实现的，它使模型能够学习不同类型数据之间的关系和依赖。

以下是Gemini的关键组成部分：

多模态编码器：此模块独立处理每种模态（例如文本、图像）的输入数据，提取相关特征并生成个体表示。
跨模态注意力网络：这个网络是Gemini的核心。它使模型能够学习不同表示之间的关系和依赖，让它们能够“交谈”和丰富彼此的理解。
多模态解码器：这个模块利用跨模态注意力网络生成的丰富表示来执行各种任务，如图像标题生成、文本到图像生成和代码生成。

Gemini模型不仅仅是理解文字或图片，它更多地是通过整合不同类型的信息来接近我们作为人类如何感知世界。例如，Gemini可以查看一系列图像并确定其中对象的逻辑或空间顺序。它还可以分析对象的设计特征以进行判断，比如判断哪辆车具有更具空气动力学形状。

但是Gemini的才能不仅仅局限于视觉理解。它可以将一组指令转化为代码，创建实用工具，例如倒计时器，不仅能按照指令进行功能操作，还包括创意元素，如激励表情符号，以增强用户互动。这表明它具备处理需要综合创意和功能性的任务的能力，这些能力通常被认为是人类独有的。

Gemini的能力：空间推理

Gemini的能力：空间推理 (来源)

Gemini的能力延伸到执行编程任务

Gemini的能力延伸到执行编程任务(来源)

Gemini的精妙设计基于丰富的神经网络研究历史，并利用Google的先进TPU技术进行训练。特别是Gemini Ultra在各种人工智能领域创造了新的基准，展示出在多模态推理任务中出色的性能提升。

凭借其分析和理解复杂数据的能力，Gemini为真实世界的应用提供了解决方案，特别是在教育领域。它可以通过理解手写笔记并提供准确的数学排版，分析和纠正问题的解决方案，如物理学中的问题。这些能力预示着人工智能在教育环境中辅助的未来，为学生和教育工作者提供先进的学习和解决问题的工具。

利用Gemini等开发代理程序，如AlphaCode 2，在竞争性编程问题上表现出色。这展示了Gemini作为通用人工智能的潜力，能够处理复杂的多步问题。

Gemini Nano将人工智能的力量带到日常设备中，在摘要和阅读理解以及编码和与STEM相关的挑战等任务中保持出色的能力。这些较小的模型经过精细调整，以在低内存设备上提供高质量的人工智能功能，使先进的人工智能变得比以往更加易于访问。

Gemini的开发涉及培训算法和基础设施的创新，使用了Google的最新TPU。这使得即使是最小的模型也能提供出色的性能，确保了高效的扩展和强大的训练过程。

Gemini的训练数据集与其能力一样多样，包括网络文档、书籍、代码、图像、音频和视频。这种多模态和多语言的数据集能够确保Gemini模型能够有效地理解和处理各种内容类型。

Gemini和GPT-4

尽管出现了其他模型，但每个人都想知道Google的Gemini如何与OpenAI的GPT-4（新LLM的行业基准）相比。谷歌的数据表明，虽然GPT-4在常识推理任务上可能表现出色，但Gemini Ultra在几乎所有其他领域中占上风。

Gemini VS GPT-4

上述对比表格显示了Google的Gemini人工智能在各种任务中的出色表现。值得注意的是，在MMLU基准测试中，Gemini Ultra以90.04%的准确率取得了令人瞩目的成绩，表明它在57个科目的多项选择题上具有较强的理解能力。

在评估小学数学问题的GSM8K中，Gemini Ultra的得分达到94.4%，展示了其先进的算术处理能力。在编码基准测试中，Gemini Ultra在Python代码生成的HumanEval中获得了74.4%的得分，表明其对编程语言的理解能力强。

读者理解测试DROP基准中，Gemini Ultra再次以82.4%的得分处于领先地位。同时，在常识推理测试中，HellaSwag，Gemini Ultra表现出色，尽管它没有超过GPT-4设定的极高基准。

结论

Gemini的独特架构，由谷歌的尖端技术驱动，使其成为人工智能领域中的一位强大竞争者，挑战着GPT-4等模型设定的现有基准。它的版本——Ultra、Pro和Nano——分别针对特定需求，从复杂的推理任务到高效的设备应用，展示了谷歌在各个平台和设备上实现先进人工智能的承诺。

Gemini融入谷歌生态系统，从Bard到谷歌云Vertex的整合，彰显了提升用户体验的潜力，涵盖了一系列服务。它不仅承诺完善现有应用程序，还可以为基于人工智能的解决方案开辟新的途径，无论是个性化助手、创意活动还是商业分析。

展望未来，像Gemini这样的人工智能模型不断取得的进展凸显了持续的研究与开发的重要性。培训如此复杂的模型并确保其道德和负责任的使用所面临的挑战始终是热议的焦点。