ChatGPT终于成为多模式

ChatGPT在过去几年里取得了巨大的成长。最近,OpenAI宣布ChatGPT现在可以听、看和说话。
ChatGPT的多模式已经呈现出新的形态。
2023年11月,
OpenAI的ChatGPT出现在互联网上。之后两个月,拥有超过1亿用户,它成为了历史上增长最快的消费者软件应用。这家非营利组织公司看到了盈利的机会,所以采取了行动。
利润来自他们的免费服务,但大部分利润和资金主要用于支付账单,这要感谢LLM模型对资源的巨大需求。
2023年3月14日,
推出GPT4巩固了OpenAI在超智能乌托邦中的地位——成为了进一步拓展人工智能和自然语言处理技术边界的关键参与者。
其他大公司也表示了兴趣。每个人都开始进一步拓展这个领域的边界。同时,大部分这些科技公司从这个革命性的人工智能领域中获得了丰厚的利润。
ChatGPT,曾经依靠像微软这样的公司注入数十亿美元的救命钱,现在终于可以看、听和说话。
可以用个隐喻形容,它重获新生。
一、语音:当ChatGPT说话

请观看OpenAI的演示视频,其中揭示了ChatGPT应用内的新多模式功能:
这对ChatGPT来说是一个“Hello World”的时刻,也同样活灵活现,多亏了它的新多模式升级。
通过语音,用户可以向ChatGPT发送指令。ChatGPT将用一种似乎自然的声音回应。这个新的语音功能使ChatGPT成为了一款强大的语音助手。
“我们与专业配音演员合作,为每个声音创作。我们还使用Whisper…将您的口语转写成文本,”OpenAI在他们的公告文章中说道。
Whisper是OpenAI的语音识别系统,经过了680,000小时的数据训练。
在OpenAI分享的演示中,用户要求ChatGPT应用讲一个关于刺猬的睡前故事,ChatGPT回应并讲了一个故事。它的声音听起来很像ChatGPT本身,正如ZDNet报道的那样,它与亚马逊的Alexa等语音助手的功能相似。
事实上,有传言称Alexa计划整合GPT4这样的生成式人工智能,以使其语音助手更加可靠、智能。
二、图像:当人工智能看到

在OpenAI的演示中,用户通过发送自行车的图片给ChatGPT来让其修理自行车。ChatGPT ‘看到’这些图片,并提供修理自行车的解决方案[1]。
当ChatGPT能够将使用说明书和工具相关联,并能够指导用户如何真正修理自行车时,事情变得有趣起来了。[2]
图像输入功能在许多不同的情况下都非常有帮助:识别物体,解决数学问题,阅读使用说明书,或者(当然)修理自行车。能够看到图像可以极大地改善需要分析的视觉任务。
这个特性的一个有趣应用是丹麦初创公司Be My Eyes所利用的。
自2012年以来,Be My Eyes一直为超过2.5亿盲人或视力低下的人们创造技术。他们正在使用GPT-4来帮助这些有不同能力的人,并为此开发了GPT-4驱动的AI版本的他们以前的Virtual Volunteer™ app。
这使得Be My Eyes App – 这个已经在帮助盲人学生应对他们的挑战的应用程序 – 变得更好、更可靠。
您好,读者们!希望您能喜欢这篇文章。这篇文章是我每周的Creative Block通讯的一部分,这是一个关于人工智能、科技和科学的周报。如果您想阅读更多类似的文章,请访问Creative Block。
接下来,让我们继续。
根据OpenAI的说法,Be My Eyes可以使很多用户受益,因为他们现在可以与一个AI助理进行互动,这个助理 – 多亏了图像功能 – 可以让他们了解周围的情况。
“图像理解由多模态GPT-3.5和GPT-4驱动。这些模型运用它们的语言推理能力来处理各种图像,例如照片、屏幕截图和同时包含文本和图像的文档。”OpenAI在其博客中说道。
III.安全:当ChatGPT试图变得更安全时

OpenAI进行了Beta测试和“红队”测试以探索和减轻风险。
这使得ChatGPT几乎安全,如果不是完全安全的话。
不久前,OpenAI发表了一篇论文,描述了他们与GPT-4V的测试努力。GPT-4V源于单词GPT-4(V)ision,是一个能够分析用户提供的图像输入的GPT-4模型。
按照OpenAI自己的话来说,他们的主要目标是“获得与GPT-4V互动的真实方式的额外反馈和见解。”
这篇论文为我们展示了GPT4的多模态本质中的风险。
OpenAI的积极评估显示,ChatGPT能够避免有害内容。它似乎拒绝生成包含真实人物的AI图像。此外,GPT4-V也拒绝在图像中识别人物。
然而,负面评估表明,GPT-4V仍然可能产生虚假信息、破解CAPTCHA或对图像进行地理定位。
在这一基础上,OpenAI表示:
“…例如解决CAPTCHA的能力表明了该模型解决难题和执行复杂的视觉推理任务的能力。在地理定位评估中的高性能证明了模型所拥有的世界知识,对于那些想要搜索某个物品或地点的用户来说是非常有用的。”OpenAI在其GPT-4V(ision)系统卡片报告中强调。
多亏了人工智能,CAPTCHA的时代已经过去了。
OpenAI发现了一个有趣的发现。GPT-4V在拒绝基于图像的“越狱”方面非常出色。
图像越狱是一个术语,指的是修改图像生成器AI模型(midjourney,dalle3等)的过程,以绕过其内置的限制或限制。
这是一种通过利用它们的缺陷或操纵它们的输入,欺骗(更准确地说是欺骗)这些图像模型生成敏感图像的形式。
通过OpenAI的下面图表,我们可以看到GPT-4是如何成功实现拒绝越狱的 —— 拒绝率超过85%

该图表比较了GPT4的三个变体:GPT-4 Release,GPT-4V和GPT-4V + 拒绝系统。[3]
OpenAI还邀请了“红队”来测试该模型在科学领域的能力,例如理解出版物中的图像,以及在给定医学图像(如CT扫描)的情况下提供医疗建议的能力。
那么这个模型可靠吗?当然不是。
OpenAI对此的结论是明确的:“我们认为目前的GPT-4V版本不适合执行任何医疗功能。”
因此,图像能力还不完全可靠。然而,这仍然是一个巨大的飞跃。
OpenAI在其博客中提到,这些新功能将慢慢推出,因为安全问题。
IV. 我们对通用人工智能梦想的发展方向在哪里?

OpenAI对ChatGPT的最新增加绝非等闲之辈。多模态是OpenAI要实现通用人工智能的路径。
它是否能实现通用人工智能,这是一个有争议的问题。我们如何知道通用人工智能是否到来?坦白说,连许多人工智能专家自己都不清楚。
但是以宽泛的术语来说,我们可能知道什么是通用人工智能:人工通用智能(AGI)只是一个理论术语,指的是在认知能力方面与人类处于同一水平的人工智能。
然而,存在一个困难,即没有办法确定未来的某个时间点,我们可以说——通用人工智能已经实现了。
但从过去的经验中可以看出,每当计算机在某个领域胜过人类时,我们离通用人工智能就越近。

如今,人工智能在创造力方面似乎表现出色。现在,每个人似乎都相信通用人工智能即将到来。
然而,每当我们发现这些人工智能系统的缺陷时,通用人工智能又变得遥不可及。幻觉、错误信息和偏见,大家都知道。即使我们拥有最大最强大的人工智能模型,这些缺陷也会成为我们所谓的通用人工智能之旅中的绊脚石。
令人讨厌的是,许多人指出这些人工智能的缺点是根本性的、固有的,没有办法解决。
然而,有趣的是,在某些情况下,人类似乎并不比人工智能差。
广为传播的一份报告称,人工智能在创造力测试中超越了人类,并没有显示出显著的优势。人工智能确实与人类平起平坐,但并不总是最好的。此外,在AlphaGo的案例中,故事非常有趣。作为一场“复仇”戏剧性的展示,美国研究科学家实习生Kellin Pelrine通过利用系统的一个弱点,在围棋上击败了AlphaGo。
如果我们的目标是AGI,我觉得多模态AI是前进的道路。即使在不久的将来我们无法实现AGI,我们也可能接近AGI。
声音输入和输出、图像识别以及对安全性的承诺的整合,导致ChatGPT不断发展壮大——成为一个更加多才多艺、可靠的AI助手。通过分析环境来进行推理的能力非常接近人类的学习方式。
这些功能为无需使用双手进行互动和解决视觉问题等打开了无限可能。
此外,ChatGPT很快就能在ChatGPT窗口内搜索互联网[4]。这些功能目前将很快对所有用户和开发者开放。根据OpenAI的说法,它将逐步推出所有功能,以ChatGPT Plus和企业用户为重点。
根据OpenAI的声明,浏览器功能——尽管目前仅适用于Plus和企业用户——很快将对所有用户开放。
如果多模态是我们正在走的道路,那么可以放心地假设AGI即将到来。
在快速创新的世界中,保持信息灵通至关重要。订阅我的通讯Creative Block,洞悉其中的真知灼见:每周一次的通讯,提供关于人工智能、科技和科学的可信见解。没有炒作,没有悲观主义——只有经过深入研究的分析、发人深省的文章和真正重要的新闻。
不要错过实时了解真正进展的机会。立即订阅,保持知情! 🚀📚
Creative Block | Aditya Anil | Substack
关于人工智能、科技和科学的每周通讯,关注您的需求。点击阅读Aditya的Creative Block…
creativeblock.substack.com
脚注:
- 只等待有一天人们会说“瞧!AI也能取代机械师的工作”
- 在这里自行查看
- GPT-4发布是原始版本的GPT-4。GPT-4V是对伦理和价值观的大型数据集进行训练的GPT-4的修改版本。GPT-4V + 拒绝系统是具有额外保护层的GPT-4V,可以检测和拒绝有害的请求。
- 然而,这并不是什么新鲜事,因为您以前也可以使用gpt4——要么使用插件,要么使用Bing AI Chat。