Press "Enter" to skip to content

Tag: Objects

KOSMOS-2:微软的多模态大型语言模型

介绍 2023年是一个人工智能的年份,从语言模型到稳定的扩散模型。其中一个新的玩家登上了舞台,那就是由微软开发的KOSMOS-2。它是一个多模态大型语言模型(MLLM),在理解文本和图像方面具有开创性的能力。开发语言模型是一回事,而为视觉创建模型是另一回事,但拥有同时具备这两种技术的模型则是另一个全新层次的人工智能。在本文中,我们将深入探讨KOSMOS-2的特点和潜在应用,以及它对人工智能和机器学习的影响。 学习目标 了解KOSMOS-2多模态大型语言模型。 了解KOSMOS-2如何执行多模态接地和指称表达生成。 深入了解KOSMOS-2在现实世界中的应用。 在Colab中使用KOSMOS运行推理。 本文是作为 数据科学博客马拉松 的一部分发布的。 了解KOSMOS-2模型 KOSMOS-2是微软研究团队的一项成果,他们在一篇名为“Kosmos-2:将多模态大型语言模型接地到世界”的论文中介绍了这个模型。KOSMOS-2旨在同时处理文本和图像,并重新定义我们与多模态数据的交互方式。KOSMOS-2基于基于Transformer的因果语言模型架构构建,类似于其他著名模型如LLaMa-2和Mistral AI的7b模型。 然而,KOSMOS-2的独特训练过程是其与众不同之处。它使用一组庞大的图像-文本对训练数据集,称为GRIT,其中文本以特殊令牌形式包含了对图像中物体的引用边界框。这种创新的方法使KOSMOS-2能够提供对文本和图像的新理解。 什么是多模态接地? KOSMOS-2的一个亮点功能是其执行“多模态接地”的能力。这意味着它可以为图像生成描述对象及其在图像中的位置的字幕。这大大减少了语言模型中的“幻觉”问题,极大地提高了模型的准确性和可靠性。 这个概念通过独特的令牌将文本与图像中的对象联系起来,有效地将对象“接地”到视觉环境中。这减少了幻觉,增强了模型生成准确图像字幕的能力。 指称表达生成 KOSMOS-2在“指称表达生成”方面也表现出色。这个功能允许用户以图像中特定边界框和问题的方式提示模型。然后,模型可以回答有关图像中特定位置的问题,为理解和解释视觉内容提供了强大的工具。 这种令人印象深刻的“指称表达生成”用例允许用户使用提示,并为与视觉内容的自然语言交互打开了新的途径。 使用KOSMOS-2进行代码演示 我们将看到如何在Colab上使用KOSMOS-2模式进行推理。在这里找到完整的代码:https://github.com/inuwamobarak/KOSMOS-2 步骤1:设置环境 在这一步中,我们安装必要的依赖库,如🤗 Transformers、Accelerate和Bitsandbytes。这些库对使用KOSMOS-2进行高效推理至关重要。 !pip install…

Leave a Comment

Windows 11 和 Microsoft Copilot 宣布最新的人工智能更新

技术景观正在变化,人工智能(AI)正在引领潮流。作为AI领域的先驱者,微软正在其最新的创作Windows 11中释放AI的力量。随着备受期待的Copilot功能开始迈出第一步,这只是冰山一角。随着一系列由AI驱动的增强功能即将出现在Windows 11和12中,用户将享受到科技化的盛宴。 还阅读:微软将ChatGPT集成到Windows操作系统中,提供增强的AI体验 Copilot的释放:未来的一瞥 随着微软拥抱AI浪潮,Copilot功能已经在测试用户中引起了轰动。这个AI注入的未来之瞥为Windows 11带来了什么即将到来的东西。Copilot的魔力将在23H2版本中展现出来,承诺简化任务并重新定义用户体验。 还阅读:提升您的工作流程:微软的AI Copilot增强了Office、GitHub、Bing和网络安全 经典画笔:唤醒艺术家的AI启示 准备好迎接艺术革命,因为即使是备受喜爱的经典画笔也将在Windows 11上品尝到AI的魔力。微软的内部测试暗示了一次AI升级,允许用户根据描述生成图像。这种类似于Bing Image Creator的生成式AI的整合为快速编辑和注释打开了大门,将您的艺术愿景变为现实。 还阅读:AI将无聊的QR码变成绘画作品;现在就来看看吧! 相机和截图工具中的OCR:将图像转换为文本 光学字符识别(OCR)将成为相机和截图工具应用程序的一项改变游戏规则的功能。Windows Central的Zac Bowden透露,这个功能使相机应用程序能够识别图像中的文本。想象一下拍摄一个标志或文件的照片,然后轻松将其转换为可编辑的文本。OCR功能类似于Google Lens和iOS上的Live Text,为您的日常任务增添了便利性和效率。 揭示对象:照片应用程序的AI侦探 Windows 11上的照片应用程序将具备一个迷人的能力,即识别和选择图片中的对象。借鉴了iOS和Android等平台的做法,这个功能将对象置于前台。捕捉、复制并在应用程序之间粘贴这些元素,无缝地构建您的视觉杰作。 还阅读:DragGAN:AI魔法工具用于编辑图像…

Leave a Comment

使用深度预测Transformer(DPT)进行图像深度估计

介绍 图像深度估计是指确定图像中物体与观察者的距离。这是计算机视觉中的一个重要问题,因为它有助于创建3D模型、增强现实和自动驾驶汽车等技术。过去,人们使用立体视觉或特殊传感器等技术来估计深度。但现在,有一种名为深度预测Transformer(DPTs)的新方法使用深度学习来进行深度估计。 DPTs是一种可以通过观察图像来学习估计深度的模型。在本文中,我们将通过实际编码来了解DPTs的工作原理、它们的用途以及在不同应用中可以做什么。 学习目标 了解DPTs(Dense Prediction Transformers)的概念及其在图像深度估计中的作用。 探索DPTs的架构,包括视觉Transformer和编码器-解码器框架的组合。 使用Hugging Face Transformer库实现DPT任务。 认识DPTs在各个领域中的潜在应用。 本文作为Data Science Blogathon的一部分发表。 理解深度预测Transformer 深度预测Transformer(DPTs)是一种独特的深度学习模型,专门用于估计图像中物体的深度。它们利用了一种特殊类型的架构,称为Transformer,最初是为处理语言数据而开发的。然而,DPTs将这种架构进行了调整和应用,以处理视觉数据。DPTs的一个关键优势是它们能够捕捉图像各个部分之间的复杂关系,并对跨越较长距离的模型依赖进行建模。这使得DPTs能够准确地预测图像中物体的深度或距离。 深度预测Transformer的架构 深度预测Transformer(DPTs)通过将视觉Transformer和编码器-解码器框架结合起来,对图像进行深度估计。编码器组件使用自注意机制捕捉和编码特征,增强了对图像不同部分之间关系的理解。这提高了特征分辨率,并允许捕捉细粒度的细节。解码器组件通过将编码特征映射回原始图像空间,利用上采样和卷积层等技术来重建密集的深度预测。DPTs的架构使得模型能够考虑场景的全局上下文和不同图像区域之间的模型依赖关系,从而得出准确的深度预测。 总之,DPTs利用视觉Transformer和编码器-解码器框架对图像进行深度估计。编码器捕捉特征并使用自注意机制对其进行编码,解码器通过将编码特征映射回原始图像空间来重建密集的深度预测。这种架构使得DPTs能够捕捉细粒度的细节、考虑全局上下文并生成准确的深度预测。 使用Hugging Face Transformer实现DPT 我们将使用Hugging Face…

Leave a Comment