报告：OpenAI加速发布名为GPT-Vision的多模态LLM的努力

报告：OpenAI加速发布名为GPT-Vision的多模态LLM的努力四海第1张

据《信息报》报道，为了在发布先进的多模态LLM方面击败竞争对手谷歌，OpenAI据报道正在加速发布GPT-Vision，代号为Gobi。这一消息发布一周后，谷歌的多模态LLM产品Gemini已经发布给少数几家公司进行测试。

那么，什么是多模态LLM呢？根据报道，这些大型语言模型将具备处理文本和图像的能力。这意味着这些LLM将能够理解和生成结合文本和图像的内容，提供了更多的功能。

正如我们在GPT-4发布时所看到的那样，这样一次发布不仅将维持OpenAI在市场上的领先地位，还将帮助其在通用LLM市场上保持市场份额。但目前尚未准备好。同一份报告称，GPT-Vision目前在安全审查中遇到了问题。

尽管目前情况可能如此，但似乎“OpenAI的工程师们似乎已接近满足法律关切。”。由于OpenAI使用了作者和《纽约时报》的训练数据，近几个月来，这些关切一直在逐渐增加，OpenAI也面临着多起诉讼威胁。

正如前面提到的，如果OpenAI能够在谷歌之前发布Gobi，这将为这家人工智能初创公司提供关键优势，而这些竞争对手正在大量投资生成式人工智能，希望赶上OpenAI。这是一个他们不想错过的关键优势。

所以，比赛开始了。OpenAI的目标是在谷歌发布Gemini之前推出Gobi。当然，这是由于ChatGPT的巨大成功。作为市场上的第一款产品，OpenAI首次接触到了新用户，显然他们希望用他们的多模态LLM再次复制这一成功。

话虽如此，Gobi可能为GPT-4带来一些有趣的可能性。Gobi可能会在GPT-4的基础上添加增强的视觉和多模态功能，这是OpenAI早些时候预览的。

多模态竞赛正在升温，而首先发布的公司很可能对未来市场产生重大影响。