Press "Enter" to skip to content

多模态AI在ChatGPT获得GPT-4V(ision)的视觉能力后得到进化

在将AI更加类似于人类的努力中,OpenAI的GPT模型不断突破界限。GPT-4现在能够接受文本和图像的提示。

生成式AI中的多模态表示模型根据输入可以生成文本、图像或音频等多样的输出。这些模型在特定数据上训练,学习生成类似的新数据的潜在模式,丰富了AI的应用。

多模态AI的最新进展

在这一领域,最近一个值得注意的飞跃是DALL-E 3与ChatGPT的集成,这是OpenAI在文本生成图像技术上的重大升级。这种融合使得ChatGPT能够帮助DALL-E 3精确生成用户的提示,将用户的想法转化为生动的AI生成艺术。因此,用户可以直接与DALL-E 3交互,而拥有ChatGPT的混合能使创建AI艺术的过程更加用户友好。

在这里了解更多有关DALL-E 3及其与ChatGPT的集成。这种合作不仅展示了多模态AI的进步,也使得用户轻松地创作AI艺术。

openai.com dall-e-3

https://openai.com/dall-e-3

另一方面,谷歌在今年6月推出了Med-PaLM M。它是一种多模态生成模型,擅长编码和解释各种生物医学数据。通过对PaLM-E这个语言模型进行微调,以适应医学领域,利用开源基准MultiMedBench,包含了7种生物医学数据类型和14个任务,如医学问答和放射学报告生成。

各个行业正在采用创新的多模态AI工具来推动业务扩张、简化操作并提高客户参与度。语音、视频和文本AI能力的进步推动了多模态AI的发展。

企业寻求能够改变商业模式和流程的多模态AI应用,从数据工具到新兴的AI应用,开启了多样化的增长道路。

在今年3月GPT-4发布后,一些用户注意到随着时间推移,其回应质量有所下降,这也是一些知名开发者和OpenAI论坛上关注的问题。最初被OpenAI否认,后来的研究证实了这个问题。研究显示,在3月到6月之间,GPT-4的精确度从97.6%下降到2.4%,表明随后的模型更新导致了回答质量的下降。

chatgpt-ai

ChatGPT(蓝色)和人工智能(红色)的Google搜索趋势

关于Open AI的 ChatGPT的热潮现已回归。现在它增加了一个名为GPT-4V的视觉功能,允许用户分析提供的图像。这是对用户开放的最新功能。

像GPT-4这样的大型语言模型(LLM)添加了图像分析功能被一些人视为AI研究和开发的一大步进。这种多模态LLM开辟了新的可能性,使语言模型不仅仅限于文本,还可以提供新的界面和解决新的任务,为用户带来新鲜的体验。

GPT-4V的训练于2022年完成,早期访问于2023年3月启动。GPT-4V中的视觉功能由GPT-4技术提供支持。训练过程保持不变。最初,该模型使用大量来自互联网等各种来源的文本和图像数据集来预测文本中的下一个词。

后来,使用一种名为人类反馈强化学习(RLHF)的方法,通过更多的数据进行微调,生成人类偏好的输出。

GPT-4视觉机制

GPT-4令人印象深刻的视觉语言能力虽然令人印象深刻,但其底层方法仍然在表面上。

为了探索这个假设,引入了一个新的视觉语言模型,MiniGPT-4,利用了一个名为Vicuna的高级LLM。该模型使用了一个具有预训练组件的视觉编码器,通过一个投影层将编码的视觉特征与Vicuna语言模型进行对齐。MiniGPT-4的架构简单而有效,重点在于对齐视觉和语言特征,以提高视觉交流能力。

MiniGPT-4

MiniGPT-4的架构包括一个具有预训练的ViT和Q-Former的视觉编码器,一个线性投影层和一个先进的Vicuna大型语言模型。

视觉语言任务中自回归语言模型的趋势也在增长,利用跨模态转移在语言和多模态领域之间共享知识。

MiniGPT-4通过将来自预训练视觉编码器的视觉信息与高级LLM对齐,将视觉和语言领域联系在一起。该模型利用Vicuna作为语言解码器,并采用两阶段训练方法。最初,它在一个大型的图像-文本对数据集上进行训练,以掌握视觉语言知识,然后在一个较小的高质量数据集上进行微调,以增强生成的可靠性和可用性。

为了改善MiniGPT-4中生成语言的自然性和可用性,研究人员开发了一个两阶段的对齐过程,解决了缺乏适当的视觉语言对齐数据集的问题。他们为此目的策划了一个专门的数据集。

最初,模型生成了输入图像的详细描述,通过使用与Vicuna语言模型格式对齐的会话提示来增强细节。这个阶段旨在生成更全面的图像描述。

初始图像描述提示:

###人类:<Img><ImageFeature></Img>详细描述这张图片。尽可能多地提供细节。把你看到的都说出来。###助手:

在数据后处理中,通过ChatGPT来更正生成描述中的任何不一致或错误,然后进行手动验证以确保高质量。

第二阶段微调提示:

###人类:<Img><ImageFeature></Img><Instruction>###助手:

这次探索展示了理解像GPT-4这样的多模态生成AI机制的一个窗口,揭示了视觉和语言模态如何有效地集成,生成一致和关联丰富的输出。

探索GPT-4视觉

使用ChatGPT确定图像的来源

GPT-4 Vision增强了ChatGPT分析图像并确定其地理原点的能力。这个功能使用户的互动从仅仅文本转变为文本和视觉的混合,成为那些对不同地方感兴趣的人们通过图像数据的有用工具。

Chatgpt-vision-GPT-4

问ChatGPT一个地标图片的拍摄地点

复杂数学概念

GPT-4 Vision通过分析图形或手写表达式在深入研究复杂数学思想方面表现出色。这个功能为那些希望解决复杂数学问题的个体提供了一个有用的工具,将GPT-4 Vision标记为教育和学术领域中的一个值得注意的辅助工具。

Chatgpt-vision-GPT-4

询问ChatGPT以理解一个复杂的数学概念

将手写输入转换为LaTeX代码

GPT-4V的一个显著能力之一是能够将手写输入转化为LaTeX代码。这个功能对于研究人员、学者和经常需要将手写的数学表达式或其他技术信息转换为数字格式的学生来说是一个福音。从手写到LaTeX的转变扩展了文件数字化的范围,并简化了技术写作过程。

GPT-4V能将手写输入转换为LaTeX代码的能力

GPT-4V能将手写输入转换为LaTeX代码的能力

提取表格细节

GPT-4V展示了从表格中提取细节并回答相关问题的能力,这在数据分析中非常重要。用户可以利用GPT-4V筛选表格、收集关键洞察,并解决基于数据的问题,使其成为数据分析师和其他专业人士的强大工具。

GPT-4V解析表格细节并回答相关问题

GPT-4V解析表格细节并回答相关问题

理解视觉指向

GPT-4V独特的理解视觉指向的能力为用户交互增添了新的维度。通过理解视觉线索,GPT-4V能够以更高的上下文理解回答问题。

GPT-4V展示理解视觉指向的独特能力

GPT-4V展示了理解视觉指向的独特能力

使用绘图构建简单的模拟网站

受到这条推特的启发,我尝试为unite.ai网站创建一个模拟版本。

https://www.unite.ai/wp-content/uploads/2023/10/uthomepage.mp4

虽然结果与我的初始想法不太一致,这是我所实现的结果。

基于ChatGPT Vision的输出HTML前端

基于ChatGPT Vision的输出HTML前端

GPT-4V(Vision)的限制和缺陷

OpenAI团队对GPT-4V进行了定性和定量评估。定性评估包括内部测试和外部专家评审,而定量评估则衡量了模型在识别有害内容、识别群体、隐私问题、地理位置、网络安全和多模态越狱等各种场景中的拒址率和准确性。

但模型并不完美。

这篇论文强调了GPT-4V的限制,如错误推理和图像中的缺失文本或字符。它可能产生幻觉或虚构事实。特别是对于识别图像中的危险物质,它经常发生错误识别。

在医学影像领域,GPT-4V的回答可能不一致,并且缺乏对标准实践的认知,从而可能导致误诊。

医疗目的的可靠性不高。

用于医疗目的的可靠性不高(来源

它还无法理解某些仇恨符号的细微差别,并且可能基于视觉输入生成不当内容。OpenAI建议不要在医疗或敏感环境中使用GPT-4V进行关键性解释。

总结

使用Fast Stable Diffusion XL创建

使用Fast Stable Diffusion XL创建 https://huggingface.co/spaces/google/sdxl

GPT-4 Vision(GPT-4V)的到来带来了许多很酷的可能性和新的障碍。在推出之前,我们已经付出了很多努力,确保风险,尤其是涉及人物照片的风险得到了认真研究和降低。令人印象深刻的是GPT-4V在医学和科学等棘手领域展示出了很大的潜力。

现在,有一些重要的问题摆在桌面上。比如,这些模型是否应该能够从照片中识别出名人?他们是否应该能够从照片中猜测一个人的性别、种族或情绪?而且,是否应该有特殊的调整来帮助视障人士?这些问题引发了有关隐私、公平性以及人工智能应该如何融入我们生活的一系列问题,每个人都应该有发言权。

Leave a Reply

Your email address will not be published. Required fields are marked *