Press "Enter" to skip to content

Month: September 2023

用FC-CLIP革命性地改善全景分割:一个统一的单阶段人工智能AI框架

图像分割是一项基本的计算机视觉任务,其中将图像划分为有意义的部分或区域。就像将一张图片分成不同的部分,使计算机能够识别和理解图像内的独立对象或区域。这个过程对于各种应用非常重要,从医学图像分析到自动驾驶汽车,因为它使计算机能够像人类一样解释和与视觉世界互动。 分割基本上可以分为两个主题:语义分割和实例分割。语义分割意味着标记图像中的每个像素所属的对象类型,后者则是计算相同类型的独立对象的数量,即使它们彼此靠近。 然后,有分割之王:全景分割(panoptic segmentation)。它结合了语义分割和实例分割的挑战,旨在预测不重叠的掩模,每个掩模与其相应的类别标签配对。 多年来,研究人员在改进全景分割模型的性能方面取得了显著进展,主要关注全景质量(PQ)。然而,一个基本的挑战限制了这些模型在实际场景中的应用:由于对细粒度数据集的注释成本高昂,语义类别的数量限制。 这是一个重大问题,可以想象到。要检查数千张图像并标记其中的每个对象是非常耗时的。如果我们能够以某种方式自动化这个过程会怎么样?如果我们能够找到一个统一的方法呢?是时候见识一下FC-CLIP了。 FC-CLIP是一个统一的单阶段框架,解决了上述限制。它具有革命性的潜力,可以改进全景分割,并扩展其在开放词汇情景下的适用性。 为了克服封闭词汇分割的挑战,计算机视觉界探索了开放词汇分割的领域。在这种范式中,使用自然语言中表示的类别名称的文本嵌入作为标签嵌入。这种方法使模型能够对更广泛的词汇进行分类,显著增强其处理更广泛类别的能力。通常会使用预训练的文本编码器来确保提供有意义的嵌入,使模型能够捕捉对于开放词汇分割至关重要的词语和短语的语义细微差别。 基于ViT和CNN的CLIP都产生语义有意义的特征。来源:https://arxiv.org/pdf/2308.02487.pdf CLIP和ALIGN等多模态模型在开放词汇分割中表现出巨大的潜力。这些模型利用它们从大量互联网数据中学习对齐的图像-文本特征表示的能力。最近的方法,例如SimBaseline和OVSeg,已经将CLIP适应于开放词汇分割,利用了两阶段框架。 虽然这些两阶段方法取得了相当大的成功,但它们本质上存在低效和低效的问题。为了获得掩码生成和CLIP分类需要单独的骨干网络,增加了模型的大小和计算成本。此外,这些方法通常在不同的输入尺度上执行掩码分割和CLIP分类,导致结果不理想。 这引出了一个关键问题:我们能否将掩码生成器和CLIP分类器统一到单一阶段的框架中,用于开放词汇分割?这样的统一方法可能在流程中提高效率和效果。 FC-CLIP概述。来源:https://arxiv.org/pdf/2308.02487.pdf 这个问题的答案就在于FC-CLIP。 这个开创性的单阶段框架无缝地整合了掩码生成和CLIP分类,它是建立在一个共享的冻结卷积CLIP骨干之上的。FC-CLIP的设计基于一些聪明的观察: 1. 预训练的对齐:冻结的CLIP骨干确保预训练图像文本特征对齐保持完好,从而允许进行超词典分类。 2. 强大的掩码生成器:通过添加轻量级像素解码器和掩码解码器,CLIP骨干可以充当一个强大的掩码生成器。 3. 分辨率的泛化:随着输入尺寸的增加,卷积CLIP表现出更好的泛化能力,使其成为密集预测任务的理想选择。 采用单个冻结的卷积CLIP骨干的结果是一个设计优雅简单且高度有效的模型。与先前最先进的模型相比,FC-CLIP需要的参数更少,训练时间更短,具有更低的计算成本,使其非常实用。

Leave a Comment

使用密集预测变换进行图像语义分割

介绍 本文将介绍一种计算机视觉技术——图像语义分割。虽然听起来很复杂,但我们会一步一步解析它,并介绍一种使用密集预测变换器(DPTs)实现的图像语义分割概念,这是从Hugging Face的集合中选择的。使用DPTs引入了一个具有非同寻常能力的新阶段。 学习目标 DPTs相对于传统对远程连接的理解的比较。 使用Python实现使用DPT进行深度预测的语义分割。 探索DPT设计,理解它们独特的特点。 本文是数据科学博文马拉松的一部分。 什么是图像语义分割? 想象一下,你有一张图像,并希望根据图像中每个像素的表示对其进行标注。这就是图像语义分割的概念。它可以用于计算机视觉,区分汽车和树木,或者分离图像的不同部分;这一切都是为了智能地标记像素。然而,真正的挑战在于理解对象之间的上下文和关系。让我们将其与处理图像的旧方法进行比较。 卷积神经网络(CNNs) 第一个突破是使用卷积神经网络来处理涉及图像的任务。然而,CNNs有一些限制,尤其是在捕捉图像中的长距离连接方面。想象一下,如果你试图理解图像中不同元素在长距离上是如何相互作用的,传统的CNNs会遇到困难。这就是我们赞美DPT的地方。这些模型基于强大的变换器架构,具备捕捉关联的能力。我们将在接下来看到DPTs。 什么是密集预测变换器(DPTs)? 要理解这个概念,想象一下将我们之前在NLP任务中使用的变换器的强大能力与图像分析相结合。这就是密集预测变换器背后的概念。它们就像图像世界中的超级侦探一样。它们不仅能够标记图像中的每个像素,还可以预测每个像素的深度——这在某种程度上提供了有关每个对象与图像之间的距离的信息。我们将在下面看到这一点。 DPT架构工具箱 DPTs有不同类型,每种类型都有其“编码器”和“解码器”层。让我们在这里看一下两种流行的类型: DPT-Swin-Transformer:将其想象为具有10个编码器层和5个解码器层的超级变换器。它擅长理解图像中不同级别的元素之间的关系。 DPT-ResNet:这个类型就像是一个聪明的侦探,具有18个编码器层和5个解码器层。它善于发现远距离对象之间的联系,同时保持图像的空间结构完整性。 关键特点 以下是关于DPTs如何使用一些关键特点的更详细说明: 分层特征提取:就像传统的卷积神经网络(CNNs)一样,DPTs从输入图像中提取特征。然而,它们采用一种分层的方法,将图像分为不同层次的细节。正是这种层次结构有助于捕捉局部和全局上下文,使模型能够理解不同尺度上对象之间的关系。 自注意机制:这是DPTs的核心,受原始变换器架构启发,使模型能够捕捉图像内的长程依赖关系,并学习像素之间的复杂关系。每个像素都考虑来自所有其他像素的信息,使模型对图像有整体的理解。 使用DPTs进行图像语义分割的Python演示 我们将在下面看到DPTs的实现。首先,让我们通过安装Colab上未预安装的库来设置环境。您可以在这里或https://github.com/inuwamobarak/semantic-segmentation找到此代码。 首先,我们安装并设置环境。…

Leave a Comment

使用Segmind API和Postman轻松集成GenAI应用程序

简介 在商业竞争中,将人工智能(AI)整合到我们的应用程序中变得愈发必要。添加这些AI功能可以提升用户体验、自动化任务并提供有价值的见解。由于我们拥有多种多样的GenAI模型,所以有很多可能性。然而,将AI整合到您的应用程序中可能会很复杂,特别是与GenAI这种新趋势相结合,其中许多过程仍在试验阶段。因此,假设您想了解如何将GenAI整合到您的个人应用程序或软件中,例如时尚应用程序,那么本文旨在通过使用Segmind API和Postman实现GenAI应用程序集成以简化此过程。 学习目标 了解Segmind模型和API 了解Segmind中的GenAI集成API 使用Segmind API中的Postman 本文是发布在数据科学博客马拉松的一部分。 理解Segmind模型API 要全面了解Segmind的GenAI API,您必须了解其目的、功能和优点。一些值得关注的潜在用例包括电子商务应用程序的图像识别、时尚设计、动画、背景去除、艺术作品、绘画、漫画等。除了易于使用,Segmind AI还通过网站上的API和游乐场提供可用的GenAI模型,网址为https://www.segmind.com/models。在本文中,我们将使用API推断调用。选择适合您任务的模型并使用可用的API脚本非常简单。下面是一个示例,展示了一个可在https://www.segmind.com/models/sd1.5-outpaint/api找到的稳定扩散1.5超出模型。 import requestsfrom base64 import b64encodedef toB64(imgUrl): return str(b64encode(requests.get(imgUrl).content))[2:-1]api_key = “YOUR API-KEY”url =…

Leave a Comment

语言复兴的生成AI

简介 语言不仅仅是沟通的形式,更是文化、身份和遗产的储藏室。然而,许多语言面临灭绝的风险。语言复兴旨在扭转这个趋势,生成式人工智能已经成为这一努力中的强大工具。 语言复兴对于保护濒危语言和文化遗产至关重要。生成式人工智能凭借其自然语言处理能力,在这一任务中具有重要作用。本指南将探讨以下内容: 如何利用生成式人工智能进行语言复兴 实用的Python实现 了解语音合成、文本生成和度量 本文作为“数据科学博文马拉松”的一部分发表。 理解语言复兴 语言复兴涉及到振兴濒危或休眠语言的努力。它包括语言文献记录、教学和语言资源的创建。 理解AI语言复兴意味着认识到人工智能在保护和复兴濒危语言方面的变革潜力。人工智能系统,特别是GPT-3等自然语言处理(NLP)模型,可以理解、生成和翻译语言,使其成为记录和教学濒危语言的宝贵工具。这些由人工智能驱动的倡议可以创建大规模的语言语料库、自动翻译服务,甚至是互动式语言学习应用程序,使语言复兴更加可行。 此外,人工智能还可以为创作具有文化敏感性的内容做出贡献,促进语言和文化遗产之间的更深层次的联系。通过理解人工智能在语言复兴中的微妙挑战和机遇,利益相关者可以利用这项技术弥合语言差距,吸引年轻一代,确保这些语言蓬勃发展。 最终,AI语言复兴是一项多学科的努力,将语言学家、社区和技术人员汇聚在一起,以保护语言多样性,保存濒危语言所编码的丰富人类文化图谱。 生成式人工智能和自然语言处理 基于深度学习的生成式人工智能可以理解和生成类似人类的文本。自然语言处理(NLP)致力于使计算机能够理解、解释和生成人类语言。 构建语言语料库 在应用生成式人工智能之前,您需要一个大规模的语言数据集。本节将介绍如何收集、组织和预处理用于人工智能应用的语言数据。 使用Python和GPT-3生成文本 OpenAI的GPT-3是一个可以生成类似人类文本的强大语言模型。我们将指导您设置OpenAI API并创建Python实现,用于在目标语言中生成文本。 # 使用GPT-3生成文本的Python代码import openai# 设置OpenAI API密钥api_key =…

Leave a Comment

如何使用ChatGPT在Google Sheets中

介绍 Google Sheets是一款广泛使用且知名的电子表格应用程序。多年来,它已经确立了自身作为数据管理和分析的关键资源。然而,对于没有扎实的数据分析或编程基础的人来说,充分发挥Google Sheets的潜力可能会是一项具有挑战性的任务。在这里,ChatGPT for Google Sheets通过提供解决方案来改变体验。 人工智能(AI)正在不断重新定义我们在不断发展的技术世界中与数字VoAGI互动的方式。使用ChatGPT for Google Sheets扩展了用户的选择,并使数据相关任务变得比以往任何时候都更容易、更合乎逻辑和更有效。你只需要一个OpenAI账户和Google Sheets即可发挥AI的力量! 使用ChatGPT附加组件 GPT-3可以解释高级提示和命令,因此将GPT-3与Google Sheets和Google Script集成在一起并不构成挑战。对此函数的调用创建了一个定制的操作,该操作在调用时向OpenAI API发出请求,并附带相关提示。 设置ChatGPT集成 ChatGPT API是一个扩展,它允许你将ChatGPT的功能整合到你的程序、商品或服务中。你可以利用ChatGPT的潜力,为请求提供类似人类的答案,并进行非正式的对话。 它可以处理大量数据并与多个系统和平台无缝集成。此外,它使程序员能够根据特定需求定制框架,从而提高所产生内容的准确性和适用性。 它使用自然语言处理(NLP)理解和生成类似人类的回应。这非常适用于构建AI聊天机器人、虚拟助手和其他交互式服务。 在Google Sheets中启用API访问 GPT…

Leave a Comment

选择最佳数据集成方法的指南

企业依靠无缝数据集成来解锁可行操作见解,提高决策能力和推动创新然而,由于存在多种数据集成方法,很难确定最佳方法最常见的方法包括ETL、ELT、数据虚拟化和CDC在本文中,我们将探讨和比较各种数据集成方法,揭示… 选择最佳数据集成方法的指南 阅读更多 »

Leave a Comment

如何实践数据中心化人工智能并使人工智能改善自身数据集

编辑注:Jonas Mueller是本届西部ODSC大会的发言人,将于10月30日至11月2日发表讲话一定要去听听他的演讲“如何实践以数据为中心的人工智能,并让人工智能提升自身数据集”机器学习模型的优劣取决于它们所训练的数据的质量….

Leave a Comment

创新的AI公司Luda揭示了一种革命性的实时强化学习系统

在2023年9月27日,技术界出现了一个重大事件,引发了一家突破性的公司Luda的出现,该公司致力于普及人工智能(AI)Luda赋予普通民众构建、培养和部署独特AI实体的能力,通过将游戏融入学习过程,创造出一个引人入胜的沙盒体验由经验丰富的专家组成的团队[…]

Leave a Comment

“机器学习工程师的LLMOps入门指南”

介绍 OpenAI发布的ChatGPT引发了人们对大型语言模型(LLMs)的兴趣,现在人人都在谈论人工智能。但这不仅仅是友好的对话;机器学习(ML)社区引入了一个新术语叫做LLMOps。我们都听说过MLOps,但LLMOps又是什么呢?嗯,这就是关于如何在整个生命周期中处理和管理这些强大的语言模型的一切。 LLMs正在改变我们创建和维护基于人工智能的产品的方式,这种转变导致了对新工具和最佳实践的需求。在本文章中,我们将详述LLMOps及其背景。我们还将探讨如何使用LLMs构建人工智能产品与传统机器学习模型的区别。此外,由于这些区别,我们还将比较MLOps(机器学习运营)与LLMOps的不同之处。最后,我们将讨论在LLMOps领域可以预期的令人兴奋的发展。 学习目标: 深入了解LLMOps及其发展。 通过示例学习使用LLMOps构建模型。 了解LLMOps与MLOps的区别。 对LLMOps的未来有所了解。 本文作为数据科学博文马拉松的一部分发表。 什么是LLMOps? LLMOps代表着大型语言模型操作,类似于MLOps,但专门为大型语言模型(LLMs)设计。它需要使用新的工具和最佳实践来处理与LLM驱动的应用程序有关的一切,从开发到部署和持续维护。 为了更好地理解这个概念,让我们来解释一下LLMs和MLOps的含义: LLMs是可以生成人类语言的大型语言模型。它们拥有数十亿的参数,并且是在数十亿的文本数据上进行训练的。 MLOps(机器学习运营)是一组用于管理机器学习驱动应用程序生命周期的工具和实践。 现在我们已经解释了基本概念,让我们更深入地探讨这个话题。 关于LLMOps的热潮是什么? 首先,像BERT和GPT-2这样的LLMs自2018年以来就已经存在。然而,现在,在近五年后,我们才遇到了LLMOps这个概念的迅猛崛起。主要原因是LLMs在2022年12月发布ChatGPT时受到了很多媒体的关注。 自那时以来,我们看到了许多不同类型的应用程序充分利用LLMs的强大能力。这包括从熟悉的ChatGPT之类的聊天机器人,到用于编辑或摘要的更个人化的写作助手(例如Notion AI),以及用于文案撰写的高效助手(例如Jasper和copy.ai)。它还包括用于编写和调试代码的编程助手(例如GitHub Copilot)、测试代码的助手(例如Codium AI)以及识别安全问题的助手(例如Socket AI)。 随着越来越多的人将LLM驱动的应用程序开发和投入生产,人们开始贡献他们的经验。 “用LLMs做一些酷炫的东西很容易,但让它们适合投入生产非常困难。” –…

Leave a Comment

“人工智能驱动的商业短信的崛起”

介绍 近年来,人工智能(AI),特别是自然语言处理(NLP)和机器学习(ML)的融合,已经从根本上改变了企业中基于文本的沟通方式。本文深入探讨了AI驱动的文本消息的技术方面,探索了这项技术的基本概念、应用、益处、挑战以及未来。 学习目标 了解基于AI的文本消息的基本概念,包括自然语言处理(NLP)和机器学习(ML)在改变企业中基于文本的沟通方面的作用。 探索基于AI的文本消息系统的技术组成部分,如分词、命名实体识别(NER)、词性标注(POS)、监督学习、词嵌入和循环神经网络(RNN)。 深入了解AI驱动的文本消息在各行业中的实际应用,包括客户支持、市场营销、日程安排和反馈分析。 本文是数据科学博文马拉松的一部分。 理解基于AI的文本消息 人工智能正在改变我们的文本和互动方式。这些技术组件是基于AI的文本消息系统的构建模块,使其能够有效地理解、处理和生成基于文本的互动。从技术核心到真实世界的应用,我们在本文中发现了基于AI的文本消息的精髓,并深入探讨了对话技术的未来。 分词 分词是将文本分解为较小单元(通常为单词或标记)的基本过程。在自然语言处理(NLP)和文本消息中,分词是一个关键步骤,因为它将连续的人类语言转换为计算机可以处理的离散单元。例如,考虑这个句子:“快速的棕色狐狸跳跃。” 分词会将这个句子分解为单独的标记:[“快速的”,“棕色”,“狐狸”,“跳跃”]。 命名实体识别(NER) 命名实体识别(NER)是一种用于识别和分类文本中特定实体或元素的技术。这些实体可以包括人名、组织名、日期、地点等等。在基于AI的文本消息中,NER对于帮助系统理解消息中不同元素的上下文和重要性至关重要。例如,在句子“Apple Inc.成立于1976年4月1日,位于加利福尼亚的库比蒂诺市”,NER将识别“Apple Inc.”为组织,“1976年4月1日”为日期,“库比蒂诺市”为地点。 词性标注(POS) 词性标注(POS)是将文本中的每个单词分配到语法类别(如名词、动词、形容词等)的过程。这种分类有助于理解句子的句法结构以及单词彼此之间的关系。在基于AI的文本消息中,POS标注对于分析用户输入的语法结构非常有用,这对于生成连贯和与上下文相适应的回复至关重要。例如,在句子“猫坐在垫子上”中,POS标注将识别“猫”作为名词,“坐”作为动词,而“在”作为冠词。 监督学习 监督学习是一种机器学习技术,其中模型是在带有相应正确输出标签的标记数据上进行训练的。在文本消息自动化的背景下,监督学习可以用于文本分类等任务。例如,如果您想将传入的消息分类为询问、反馈或投诉,您可以使用带有对应类别的消息数据集对模型进行训练。 词嵌入 词嵌入是一种将词表示为高维空间中的数值向量的方法。这些嵌入捕捉了词之间的语义关系。在基于人工智能的文本消息中,词嵌入被用于将词转换为机器学习模型能够使用的数值表示。例如,“king”这个词在嵌入空间中可能被表示为一个接近“queen”的向量,表明它们在语义上的相似性。 循环神经网络(RNNs) RNNs是一种为处理序列数据而设计的神经网络类型,使其非常适合语言建模等任务。在文本消息自动化中,RNNs被用于理解对话的顺序性。它们可以跨多个消息保持上下文,确保回复连贯和具有情境相关性。 用于文本消息的自然语言处理(NLP)和机器学习基础…

Leave a Comment

构建功能强大的聊天助手,无需OpenAI密钥,适用于PDF和文章

介绍 自然语言处理领域正在迅速扩张,特别是随着大型语言模型的诞生,它们彻底改变了这个领域并使其对每个人都可访问。在本文中,我们将探索并实现一些NLP技术,创建一个功能强大的聊天助手,可以根据给定的文章(或PDF)使用开源库回答您的问题,而无需OpenAI API密钥。 本文作为数据科学博文马拉松的一部分发表。 工作流程 应用程序的工作流程如下所示: 用户提供一个PDF文件或文章的URL,提出一个问题,应用程序将根据提供的来源尝试回答问题。 我们将使用PYPDF2库(对于PDF文件)或BeautifulSoup库(对于文章URL)提取内容。然后,我们将使用langchain库的CharacterTextSplitter将其分成块。 对于每个块,我们使用all-MiniLM-L6-v2模型计算其对应的词嵌入向量,将句子和段落映射到384维的稠密向量空间(词嵌入只是将单词/句子表示为向量的技术),并且相同的技术应用于用户的问题。 这些向量作为输入传递给由<sentence_transformers 提供的语义搜索函数,该函数是用于最先进的句子、文本和图像嵌入的Python框架。</sentence_transformers  该函数将返回可能包含答案的文本块,然后问答模型将基于语义搜索和用户问题的输出生成最终答案。 注意 所有提到的模型都可以通过API访问,只需使用HTTP请求即可。 代码将使用Python编写。 FAQ-QN是一个关键词,表示您应该查看常见问题解答部分,特别是第N个问题,以获取更多详情。 实现 在本节中,我将只关注实现部分,详细信息将在常见问题解答部分提供。 依赖项 我们首先下载依赖项,然后导入它们。 pip install -r requirements.txt import torch…

Leave a Comment