Press "Enter" to skip to content

352 search results for "计算机视觉"

这项脑AI研究通过稳定扩散从读取脑电波中重建图像

构建与人类视觉系统类似的人工系统,是计算机视觉的一个重要目标。最近在人口脑活动测量方面的进展,以及深度神经网络模型的实现和设计的改进,使得可以直接比较人工网络的结构特征与生物大脑潜在表示的架构特征,揭示了这些系统的工作方式的关键细节。从脑活动中重建视觉图像,比如通过功能磁共振成像(fMRI)检测到的脑活动,就是其中的一个应用之一。这是一个有趣但困难的问题,因为潜在的脑表示大部分是未知的,而且用于脑数据的样本量通常很小。 近年来,学者们使用深度学习模型和技术,如生成对抗网络(GAN)和自监督学习,来应对这一挑战。然而,这些研究要求对fMRI实验中使用的特定刺激进行微调,或者从头开始训练新的生成模型。这些尝试在像素级和语义保真度方面表现出很大但受限的性能,部分原因是神经科学数据量较小,部分原因是构建复杂生成模型的多个困难。 扩散模型,尤其是计算资源消耗较少的潜在扩散模型,是最近的一个GAN替代方案。然而,由于LDMs仍然相对较新,很难完全理解它们的内部工作原理。 大阪大学和CiNet的研究团队使用一种名为稳定扩散的LDM来从fMRI信号重建视觉图像,试图解决上述问题。他们提出了一个简单的框架,可以在不需要训练或微调复杂深度学习模型的情况下,重建具有高语义保真度的高分辨率图像。 作者在这项研究中使用的数据集是自然场景数据集(NSD),该数据集收集了来自fMRI扫描仪的数据,每个受试者在30-40个会话期间观看了10,000张图片的三次重复。 来源:https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full 首先,他们使用潜在扩散模型从文本中创建图像。在上图(顶部)中,z被定义为由模型通过c进行修改的生成的潜在表示,c被定义为文本的潜在表示(描述图像),zc被定义为由自编码器压缩的原始图像的潜在表示。 为了分析解码模型,作者按照以下三个步骤进行操作(上图,中部)。首先,他们从早期视觉皮层(蓝色)的fMRI信号中预测出呈现图像X的潜在表示z。然后,将z经过解码器处理,产生粗糙的解码图像Xz,然后将其编码并通过扩散过程。最后,将噪声图像添加到从高级视觉皮层(黄色)的fMRI信号中得到的解码潜在文本表示c中,并进行去噪处理,得到zc。从zc出发,解码模块产生最终重建的图像Xzc。需要强调的是,这个过程所需的唯一训练是线性映射fMRI信号到LDM组件zc、z和c。 从zc、z和c出发,作者进行了编码分析,通过将它们映射到脑活动来解释LDM的内部操作(上图,底部)。从表示中重建图像的结果如下所示。 来源:https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full 使用简单的 z 重新创建的图像具有与原始图像的视觉一致性,但其语义价值丧失了。另一方面,仅使用 c 部分重建的图像产生了具有很强语义保真度但视觉不一致的图像。通过使用 zc 恢复的图像能够产生具有很高语义保真度的高分辨率图像,从而证明了该方法的有效性。 对大脑的最终分析揭示了关于 DM 模型的新信息。在大脑的后部,即视觉皮层中,所有三个组件都取得了很高的预测性能。特别是,z 在早期视觉皮层(位于视觉皮层后部)中提供了强大的预测性能。同时,它在上部视觉皮层(即视觉皮层的前部)中表现出很强的预测值,但在其他区域的值较小。另一方面,在上部视觉皮层中,c 提供了最佳的预测性能。 来源:https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full 查看论文和项目页面。所有关于这项研究的荣誉归功于该项目的研究人员。还请不要忘记加入我们的26k+ ML…

Leave a Comment

变分自编码器概述

介绍 变分自编码器(VAEs)是显式设计用于捕捉给定数据集的潜在概率分布并生成新样本的生成模型。它们采用了一个由编码器-解码器结构组成的架构。编码器将输入数据转换为潜在形式,解码器旨在基于这个潜在表示重构原始数据。VAE被编程为最小化原始数据和重构数据之间的差异,使其能够理解底层数据分布并生成符合相同分布的新样本。 VAEs的一个显著优势是它们能够生成类似于训练数据的新数据样本。由于VAE的潜在空间是连续的,解码器可以生成在训练数据点之间平滑插值的新数据点。VAEs在密度估计和文本生成等各个领域都有应用。 本文是数据科学博文马拉松的一部分。 变分自编码器的架构 一个VAE通常由两个主要组件组成:一个编码器连接和一个解码器连接。编码器网络将输入数据转换为低维的“秘密空间”,通常被称为“秘密代码”。 可以研究使用各种神经网络拓扑结构(如全连接或卷积神经网络)来实现编码器网络。所选择的架构基于数据的特性。编码器网络生成必要的参数,如高斯分布的均值和方差,以用于采样和生成潜在代码。 同样,研究人员可以使用各种类型的神经网络构建解码器网络,其目标是从提供的潜在代码中重构原始数据。 变分自编码器的架构示例:fen VAE包括一个编码器网络,将输入数据映射到潜在代码,并且包括一个解码器网络,通过将潜在代码转换回重构数据来进行逆操作。通过进行这个训练过程,VAE学习到了一个优化的潜在表示,捕捉了数据的基本特征,从而实现精确的重构。 关于正则化的直觉 除了架构方面,研究人员还对潜在代码应用正则化,使其成为VAE的重要元素。这种正则化通过鼓励潜在代码的平滑分布而防止过拟合,而不仅仅是简单地记住训练数据。 正则化不仅有助于生成在训练数据点之间平滑插值的新数据样本,还有助于VAE生成类似于训练数据的新数据。此外,这种正则化还防止解码器网络完美地重构输入数据,促进学习更一般的数据表示,增强VAE生成多样化数据样本的能力。 在VAE中,研究人员通过将Kullback-Leibler(KL)散度项纳入损失函数来数学表达正则化。编码器网络生成高斯分布的参数(如均值和对数方差),用于对潜在代码进行采样。VAE的损失函数包括计算学习到的潜在变量的分布与先验分布(正态分布)之间的KL散度。研究人员将KL散度项纳入损失函数中,以鼓励潜在变量具有与先验分布类似的分布。 KL散度的公式如下: KL(q(z∣x)∣∣p(z)) = E[log q(z∣x) − log p(z)] 总之,VAE中的正则化起着增强模型生成新数据样本的能力并减轻过拟合训练数据风险的关键作用。 VAE的数学细节 概率框架和假设…

Leave a Comment

“结识PaLM-E:一个新的拥有5620亿参数的具身多模态语言模型,能够执行机器人操作规划、视觉问答等任务”

大型语言模型(LLMs)展示了在包括对话、逐步推理、数学问题解决和代码撰写在内的各个领域中的强大推理能力。尽管将大量文本数据用于LLMs的训练可以产生与其物理环境有关的表示,但将这些表示与真实世界的视觉和物理传感器模态相连接对于解决计算机视觉和机器人领域中更广泛的基于真实世界的问题至关重要。 以前的工作将LLMs的输出与学习到的机器人策略和可行性函数结合起来进行决策,但这种方法受到限制。以前的工作的局限性在于LLM只接收文本输入,这对于许多需要场景的几何配置至关重要的任务来说是不足够的。此外,他们的研究表明,在常见的视觉语言任务(如视觉问答)上训练的最先进的视觉语言模型无法直接解决机器人推理问题。在这项研究中,来自Google和TU Berlin的研究人员提出了具有体现的语言模型,该模型直接包括来自具体代理的传感器模态的连续输入,并允许语言模型在实际世界中进行更准确的顺序决策。他们开发了PaLM-E,这是一个单一的大型具体化多模态模型,具有积极的迁移效果,可以解决多种观察模态下的多种具体化推理问题。 PaLM-E LLM表现出积极的迁移效果,即学习者在学习第二语言(L2)时可以将他们在第一语言(L1)中的知识或技能应用于L2学习中,从而更快、更有效地掌握L2。例如,如果学习者的L1与他们正在学习的L2具有相似的语法结构,他们可能能够利用对L1语法的了解来更快地理解和应用L2语法规则。同样,如果学习者的L1和L2共享同源词(在两种语言中拼写和含义相似的词),他们可以通过识别和记忆这些同源词来快速扩展他们的L2词汇量。积极迁移与负迁移相对应,负迁移发生在学习者的L1的知识或技能干扰他们获得L2的能力时。例如,如果学习者的L1的语法结构与他们的L2大相径庭,即使他们在理解上理解了L2的语法规则,他们也可能在正确应用L2的语法规则时遇到困难。 与基于Transformer的LLM的自注意力层处理语言标记的方式类似,图片和状态估计等输入也被合并到与语言标记相同的潜在嵌入中。他们首先通过编码器将连续输入注入到预训练的LLM中。这些编码器经过端到端训练,可以产生自然语言中的顺序判断,具体化代理可以通过配置低层规则或响应具体化查询来理解这些判断。通过对比各种输入表示(例如标准与以物体为中心的ViT编码用于视觉输入)、在训练编码器时冻结与微调语言模型以及研究在多个任务上进行联合训练是否能够实现迁移,他们在一系列情境中评估了这种方法。 他们在三个机器人操作领域(其中两个在真实世界中是闭环的)、常见的视觉语言任务(如VQA和图片描述)和语言任务上测试了这种技术,以确定该方法的广度。根据他们的研究结果,多任务训练相对于单一任务训练可以提高性能。他们展示了在机器人任务中这种任务之间的迁移可能导致更高的数据效率,包括在新的物品组合或未知对象上表现出一次性或零次性的泛化,并大大提高从少量训练样本中的学习性能。据他们所知,将540B的PaLM LLM和22B的Vision Transformer(ViT)结合起来创建了迄今为止发表的最大的视觉语言模型,使PaLM-E扩展到了562B个参数。 在没有使用任务特定的微调的情况下,PaLM-E-562B在OK-VQA基准测试上取得了最先进的性能。他们还发现,即使只在单个图像示例上进行训练,PaLM-E-562B显示出了广泛的技能,包括零次多模态思维链(CoT)少量提示、无OCR算术推理和多图像推理。在他们的知识范围内,使用端到端模型在多模态数据上展示零次CoT尚未被证明具体化程序。 总结他们的主要贡献,他们(1)建议并展示了如何在训练多模态大型语言模型时包含具体化数据,以创建一个通用的、迁移学习的、多具体化决策代理。他们证明,即使最先进的通用视觉语言模型在开箱即用的情况下不能有效解决具体化推理问题(零-shot),也有可能训练一个既有效的具体化推理器又能胜任任务的通用视觉语言模型。在研究这种模型的最佳训练方法时, 他们(3)提供了新的架构概念,包括实体标记的多模态标记和神经场景表示。最后但并非最不重要的是,他们(4)证明了PaLM-E不仅是一个具体化推理器,而且还是一个定量技能丰富的视觉和语言通用模型,并且(5)显示扩大语言模型的规模可以实现多模态微调而减少灾难性遗忘。可以在他们的项目网站上找到各种演示。

Leave a Comment

阿里巴巴AI研究提出Composer:一个基于数十亿(文本,图像)对训练的巨型(50亿参数)可控扩散模型

现如今,基于文本的生成图片模型已经能够创建各种逼真的图片。最近的许多研究努力将文本到图片的模型进一步扩展,通过添加分割图、场景图、绘画、深度图和修复遮罩等条件或在少量特定主题数据上进行微调来实现定制化生成。然而,当将这些模型应用于实际应用时,设计师仍然需要更多的控制。例如,在真实世界的设计项目中,生成模型通常需要帮助可靠地生成同时对语义、形式、风格和颜色有要求的图片。 阿里巴巴中国的研究人员介绍了Composer。它是一个训练有数十亿个(文本,图片)对的大型(50亿参数)可控扩散模型。他们认为组合性而不仅仅是条件性是控制图像生成的秘密。后者引入了很多可能的组合,可以极大地扩大控制空间。类似的思想在语言和场景理解领域也有研究。在这些领域中,组合性被称为组合泛化,即能够从有限数量的可用组件中识别或创建出有限数量的独特组合的能力。基于上述概念,他们在这项工作中提供了一个组合生成模型的实现,称之为Composer。他们将可以平滑重新组合视觉元素以创建新图片的生成模型称为组合生成模型。他们使用一个具有UNet骨干的多条件扩散模型来实现Composer。每个Composer训练迭代有两个阶段:分解阶段,在这个阶段,计算机视觉算法或预训练模型被用来将一批图片分解成单个表示;合成阶段,在这个阶段,Composer被优化以从表示子集中重建图片。 图1:组合图像合成的思想,首先将一张图片分解成多个基本部分,然后以很高的创造力和控制度重新组合它们。为了做到这一点,这些组件以各种形式存在,并在整个生成过程中充当条件,使得在推理步骤中可以进行广泛的修改。建议以高分辨率查看。 Composer可以解码出从未见过的表示组合中的独特图片,这些表示可能来自多个来源,可能不兼容,而仅仅是通过重建目的进行训练。尽管概念上很简单且易于使用,但Composer在传统和以前未开发的图片生成和操作任务上表现出色,如但不限于文本到图片生成、多模态条件图片生成、风格转换、姿势转换、图片翻译、虚拟试穿、插值和来自各个方向的图片变化、通过修改草图进行图片重构、依赖图片翻译和图片翻译。 此外,Composer可以将所有上述操作的可编辑区域限制在用户指定的区域内,这比传统的修复操作更灵活,同时通过引入掩膜的正交表示防止在该区域之外修改像素。尽管经过多任务训练,Composer在COCO数据集上利用标题作为标准,在文本到图片合成中获得了零射击FID为9.2的结果,展示了其出色的性能。他们的分解-合成范式表明,当条件是可组合的而不仅仅是单独使用时,生成模型的控制空间可以大大增加。因此,他们的Composer架构可以重塑广泛的传统生成任务,并揭示了迄今未被认识的生成能力,为进一步研究各种分解技术提供了启示。此外,基于无分类器和双向引导,他们展示了许多使用Composer进行不同图片生成和修改任务的方法,并为后续研究提供了有益的参考。在将这项工作公开之前,他们计划仔细检查Composer如何降低滥用风险,并可能提供一个经过筛选的版本。

Leave a Comment

使用深度预测Transformer(DPT)进行图像深度估计

介绍 图像深度估计是指确定图像中物体与观察者的距离。这是计算机视觉中的一个重要问题,因为它有助于创建3D模型、增强现实和自动驾驶汽车等技术。过去,人们使用立体视觉或特殊传感器等技术来估计深度。但现在,有一种名为深度预测Transformer(DPTs)的新方法使用深度学习来进行深度估计。 DPTs是一种可以通过观察图像来学习估计深度的模型。在本文中,我们将通过实际编码来了解DPTs的工作原理、它们的用途以及在不同应用中可以做什么。 学习目标 了解DPTs(Dense Prediction Transformers)的概念及其在图像深度估计中的作用。 探索DPTs的架构,包括视觉Transformer和编码器-解码器框架的组合。 使用Hugging Face Transformer库实现DPT任务。 认识DPTs在各个领域中的潜在应用。 本文作为Data Science Blogathon的一部分发表。 理解深度预测Transformer 深度预测Transformer(DPTs)是一种独特的深度学习模型,专门用于估计图像中物体的深度。它们利用了一种特殊类型的架构,称为Transformer,最初是为处理语言数据而开发的。然而,DPTs将这种架构进行了调整和应用,以处理视觉数据。DPTs的一个关键优势是它们能够捕捉图像各个部分之间的复杂关系,并对跨越较长距离的模型依赖进行建模。这使得DPTs能够准确地预测图像中物体的深度或距离。 深度预测Transformer的架构 深度预测Transformer(DPTs)通过将视觉Transformer和编码器-解码器框架结合起来,对图像进行深度估计。编码器组件使用自注意机制捕捉和编码特征,增强了对图像不同部分之间关系的理解。这提高了特征分辨率,并允许捕捉细粒度的细节。解码器组件通过将编码特征映射回原始图像空间,利用上采样和卷积层等技术来重建密集的深度预测。DPTs的架构使得模型能够考虑场景的全局上下文和不同图像区域之间的模型依赖关系,从而得出准确的深度预测。 总之,DPTs利用视觉Transformer和编码器-解码器框架对图像进行深度估计。编码器捕捉特征并使用自注意机制对其进行编码,解码器通过将编码特征映射回原始图像空间来重建密集的深度预测。这种架构使得DPTs能够捕捉细粒度的细节、考虑全局上下文并生成准确的深度预测。 使用Hugging Face Transformer实现DPT 我们将使用Hugging Face…

Leave a Comment

介绍DiffusionDet:一种利用扩散进行目标检测的人工智能(AI)模型

目标检测是一种强大的技术,用于识别图像和视频中的物体。借助深度学习和计算机视觉的进展,它近年来取得了长足的发展。它有潜力在从交通和安全到医疗和零售的各个行业中引发革命。随着技术的不断改进,我们可以期待在目标检测领域看到更多令人兴奋的发展。 目标检测中的一个关键挑战是准确地定位图像中的物体。这涉及到确定物体是否存在以及确定其精确的位置和大小。 大多数目标检测器使用回归和分类技术的组合来识别图像中的物体。通常通过查看图像的特定区域,如滑动窗口或区域建议,并使用这些作为“引导”来帮助识别物体。其他方法,如锚框或参考点,也可以帮助目标检测。 尽管这些目标检测技术相对简单且有效,但它们依赖于一组固定的预定搜索条件。大多数情况下需要定义一组候选物体。然而,定义所有这些预定条件可能很繁琐。是否有一种更简化这个过程而无需这些预定搜索准则的方法? 腾讯的研究人员提出了DiffusionDet,这是一种在目标检测中使用的扩散模型。 在过去几个月中,扩散模型一直是人工智能界的关注中心,主要得益于稳定扩散模型的公开发布。简单来说,扩散模型将输入作为噪声,并逐渐去噪,遵循一定的规则,直到得到期望的输出。在稳定扩散的背景下,输入是通过文本提示获得的噪声图像,并且在逐渐去噪,直到获得与给定文本提示类似的图像。 那么,扩散方法如何用于目标检测?我们不是在生成新的东西,而是想知道给定图像中的物体。他们是如何做到的? DiffusionDet的概览。来源:https://arxiv.org/pdf/2211.09788.pdf 在DiffusionDet中,设计了一种新颖的框架,用于直接从一组随机框中检测物体。这些框在训练期间不包含需要优化的可学习参数,预期通过噪声到框的方法逐渐精确地覆盖目标物体。 将这些框想象成输入噪声,这里的约束是它们应该包含一个物体。因此,最终我们希望得到一组包含不同物体的框。去噪步骤是逐渐改变框的大小和位置。这种方法不需要启发式的对象先验和可学习的查询,简化了物体候选的识别,并推动了检测流水线的发展。 DiffusionDet的框架。来源:https://arxiv.org/pdf/2211.09788.pdf DiffusionDet将目标检测视为涉及图像中边界框位置和大小的生成任务。在训练过程中,通过方差调度控制的噪声被添加到地面实况框中,创建了带有噪声的框,然后使用这些框从骨干编码器的输出特征图中裁剪特征。然后,将这些特征发送到检测解码器,该解码器被训练以无噪声地预测地面实况框。这使得DiffusionDet能够从随机框中预测地面实况框。在推理时,DiffusionDet通过反向学习扩散过程并调整噪声先验分布到学习到的边界框分布来生成边界框。

Leave a Comment

遇见FathomNet:一个使用人工智能和机器学习算法的开源图像数据库,以帮助处理视觉数据积压,以理解我们的海洋及其居民

海洋正在以前所未有的速度发生变化,使得在视觉监测大量海洋数据的同时保持负责任的管理变得具有挑战性。由于研究界正在寻求基线,所需数据的数量和速度正在超过我们快速处理和分析它们的能力。数据一致性的缺乏、不充分的格式以及对重要标记数据集的需求,这些都导致了最近机器学习的进展在快速和更复杂的视觉数据分析方面取得的有限成功。 为了满足这一需求,几个研究机构与MBARI合作,利用人工智能和机器学习的能力加速海洋研究。这种合作的一个结果是FathomNet,这是一个开源的图像数据库,利用先进的数据处理算法来标准化和聚合精心策划的标记数据。团队认为,使用人工智能和机器学习将是加速海洋健康关键研究并消除处理水下图像的瓶颈的唯一途径。关于这个新图像数据库背后的开发过程的详细信息可以在《Scientific Reports》杂志的最近一篇研究论文中找到。 机器学习在历史上在自动化视觉分析领域产生了转变,部分原因在于大量的注释数据。对于陆地应用来说,机器学习和计算机视觉研究人员争相使用的基准数据集是ImageNet和Microsoft COCO。为了给研究人员提供一个丰富、引人入胜的水下视觉分析标准,团队创建了FathomNet。为了建立一个自由可访问、高度维护的水下图像训练资源,FathomNet结合了来自许多不同来源的图像和记录。 MBARI的视频实验室的研究人员精心注释了近28,000小时的深海视频和超过1百万张MBARI在35年间收集到的深海照片。MBARI的视频库中有约820万个关于动物、生态系统和物体观察的注释。探险技术实验室从各种海洋栖息地和所有海洋盆地的各个地方收集了超过1,000小时的视频数据。这些录像还被CVision AI开发的基于云的协作分析平台使用,并由夏威夷大学和OceansTurn的专家进行了注释。 此外,2010年,美国国家海洋和大气管理局(NOAA)海洋探索团队在NOAA Okeanos Explorer船上使用双重远程操作车系统收集了视频数据。为了更广泛地注释收集到的视频,他们从2015年开始资助专业分类学家。最初,他们通过志愿参与的科学家众包注释。MBARI的一部分数据集,以及国家地理和NOAA的材料都包含在FathomNet中。 由于FathomNet是开源的,其他机构可以随时为其做出贡献,并将其用作处理和分析视觉数据的更耗时和资源消耗大的传统方法的替代品。此外,MBARI启动了一个试点计划,使用从FathomNet训练的机器学习模型分析由远程控制水下车辆(ROVs)拍摄的视频。使用AI算法使标记速度提高了十倍,同时减少了人力成本81%。基于FathomNet数据的机器学习算法可能会改变海洋探索和监测领域。其中一个例子包括使用配备摄像头和增强的机器学习算法的机器人车辆自动搜索和监测海洋生物和其他水下物体。 通过不断的贡献,FathomNet目前拥有84,454张图像,反映了来自81个不同收藏的175,875个定位,涉及2,243个概念。在各种位置和成像设置中,该数据集将很快获得超过2亿次观察,为超过20万种动物物种获得1,000次独立观察。四年前,由于缺乏注释照片,机器学习无法检查数千小时的海洋电影。通过解锁发现和提供工具,探险家、科学家和普通公众可以利用这些工具加快海洋研究的步伐,FathomNet将这一愿景变为现实。 FathomNet是协作和社区科学如何促进我们对海洋的认识的巨大例证。团队认为,该数据集可以在理解海洋变得比以往任何时候都更重要的情况下加速海洋研究,以MBARI和其他合作伙伴的数据为基础。研究人员还强调他们希望FathomNet成为一个社区,在这个社区中,来自各个领域的海洋爱好者和探险家可以分享他们的知识和技能。这将成为解决海洋视觉数据问题的跳板,否则这是不可能没有广泛参与的。为了加快视觉数据的处理并创建一个可持续和健康的海洋,FathomNet不断改进,包括来自社区的更多标记数据。 这篇文章是由Marktechpost工作人员撰写的研究摘要,基于研究论文《FathomNet:一个用于在海洋中实现人工智能的全球图像数据库》。这项研究的所有功劳归功于该项目的研究人员。请查看论文、工具和参考文章。此外,别忘了加入我们的26k+ ML SubReddit、Discord频道和电子邮件通讯,我们会分享最新的人工智能研究新闻、酷炫的人工智能项目等等。 这篇文章介绍了FathomNet:一个开源的图像数据库,利用人工智能和机器学习算法来帮助处理我们的海洋和其生物居民的视觉数据积压问题。 本文首发于MarkTechPost。

Leave a Comment

机器学习简化和标准化的顶级工具

人工智能和机器学习作为世界从技术中受益的领域的创新领导者。选择使用哪种工具可能会很困难,因为市场上有很多流行的工具来保持竞争力。 选择机器学习工具就是选择未来。由于人工智能领域的一切都发展得如此迅速,保持“老狗,老把戏”和“刚做出来昨天”的平衡非常重要。 机器学习工具的数量正在扩大;随之而来的要求是评估它们并理解如何选择最好的工具。 在本文中,我们将介绍一些知名的机器学习工具。此评测将涵盖机器学习库、框架和平台。 Hermione 最新的开源库Hermione将使数据科学家更容易、更快地设置更有序的脚本。此外,Hermione还提供了数据视图、文本向量化、列归一化和反归一化等主题的课程,这些课程有助于日常工作。有了Hermione,您只需遵循一套程序,剩下的事情都会由她来处理,就像魔术一样。 Hydra 名为Hydra的开源Python框架使创建复杂的研究应用程序变得更加容易。Hydra的命名来源于其管理许多相关任务的能力,就像一个有着许多头的九头蛇一样。其主要功能是能够动态地组合层次结构配置,并通过配置文件和命令行进行覆盖。 另一个特性是动态命令行选项补全。它可以从各种来源进行层次化配置,并且配置可以从命令行提供或更改。此外,它可以启动程序以在远程或本地运行,并使用一个命令执行多个任务,并带有不同的参数。 Koalas Koalas项目将pandas DataFrame API集成到Apache Spark之上,以提高数据科学家在处理大量数据时的生产力。 Pandas是事实上的(单节点)Python DataFrame实现,而Spark是大规模数据处理的事实上的标准。如果您已经熟悉pandas,您可以使用此软件包立即开始使用Spark,并避免任何学习曲线。一个代码库同时兼容Spark和Pandas(测试、较小的数据集)(分布式数据集)。 Ludwig Ludwig是一个声明式机器学习框架,为定义机器学习流程提供了一种简单灵活的数据驱动配置方法。Linux基金会AI&Data托管Ludwig,可用于各种人工智能活动。 在配置中声明输入和输出特征以及适当的数据类型。用户可以指定其他参数来预处理、编码和解码特征,从预训练模型中加载数据,构建内部模型架构,调整训练参数或进行超参数优化。 Ludwig将根据配置的显式参数自动创建端到端的机器学习流程,对于那些没有指定设置的情况,会回退到智能默认值。 MLNotify 使用开源程序MLNotify,只需一行导入语句,即可在模型训练结束时向您发送在线、手机和电子邮件通知。MLNotify是一个附加到知名机器学习库的fit()函数的Python库,在过程完成后通知用户。 每个数据科学家都知道,在训练了数百个模型后,等待训练结束是很乏味的。因为训练需要一些时间,您需要来回切换以偶尔检查它。一旦训练开始,MLNotify将为您打印出特定的跟踪URL。您有三种输入代码的选项:扫描QR码、复制URL或浏览https://mlnotify.aporia.com。然后,您可以看到训练的进展。训练结束后,您将立即收到通知。您可以启用在线、手机或电子邮件通知,以在训练结束后立即收到提醒。 PyCaret 通过开源的基于Python的PyCaret模块,可以自动化机器学习的工作流程。PyCaret是一个简短、简单易懂的Python低代码机器学习库,可以让您花更多时间进行分析,而不是开发。有许多数据准备选项可用。从特征工程到缩放。PyCaret的设计是模块化的,每个模块都有特定的机器学习操作。…

Leave a Comment

见面提示扩散:一种用于在基于扩散的生成模型中实现上下文学习的人工智能框架

最先进的大型语言模型(LLM),包括BERT、GPT-2、BART、T5、GPT-3和GPT-4,是由最近在机器学习领域,尤其是在自然语言处理(NLP)领域的进展所开发出来的。这些模型已经被有效地应用于各种任务,包括文本生成、机器翻译、情感分析和问答。它们学习上下文的能力,通常被称为上下文学习,是这些LLM的新兴行为之一。像GPT-3这样具有上下文学习能力的LLM,可以通过条件化输入输出样本和新鲜查询输入来完成任务,而无需优化任何模型参数。 多种语言任务的预训练可以与上下文学习和精心设计的提示结构相结合,使得LLM能够成功地推广到它们从未遇到过的活动中。尽管上下文学习在NLP领域已经得到了广泛的研究,但在计算机视觉领域中几乎没有应用。要将上下文学习作为一种用于伟大视觉应用的标准技术来展示其实用性和潜力存在两个重要困难:1)创建一个有效的视觉提示比创建语言任务的提示更困难,因为它需要领域特定的输入输出对作为示例和图片搜索作为标准。2)在计算机视觉中,通常会为专门的任务训练大型模型,包括文本到图像生成、类别条件生成、分割、检测和分类。 这些庞大的视觉模型必须更加灵活以适应新的任务,并不适用于上下文学习。最近的一些尝试通过使用NLP的答案来解决这些问题。具体地说,当将示例照片、查询图像和输出图像融合为一个庞大的整体时,训练基于Transformer的图像修复模型来预测被屏蔽的输出图像。然而,将大尺寸的图像拼接在一起会显著增加计算开销,尤其是在高分辨率的情况下。本研究通过解决这两个问题,来探讨基于文本引导的扩散生成模型的上下文学习潜力。 为了在能够处理各种视觉-语言活动的视觉-语言提示下执行上下文学习,微软和德克萨斯大学奥斯汀分校的研究人员提出了一种新颖的模型架构,称为Prompt Diffusion。Prompt Diffusion在六个单独的视觉-语言任务中并行进行。具体地,他们利用他们的视觉-语言提示来描述一个通用的视觉-语言任务。然后,他们根据Stable Diffusion和ControlNet的设计灵感构建了Prompt Diffusion,它可以使用他们的视觉-语言提示作为输入。他们将Prompt Diffusion视为实现文本引导的扩散模型具备上下文学习能力的第一步。然后,它可以利用这些知识通过将连接重新映射到查询图像并包含语言指令来创建输出图像。更重要的是,跨多个任务的学习赋予了模型上下文学习的能力。Prompt Diffusion可以成功地推广到尚未观察到的多个新功能上。除了在训练期间表现良好的六个任务上,它还在熟悉和新的未见任务上表现出色。 从经验上看,Prompt Diffusion在关于上下文学习的熟悉和新的未见任务上表现出色。预计Prompt Diffusion的有效性将激发并推动更多关于基于扩散的上下文视觉学习的研究。以下是他们的主要贡献的摘要: • 一种先进的视觉-语言提示设计,有效地实现了多种视觉-语言活动的融合。 • 使用Prompt Diffusion模型在学习和新的未见任务上进行高质量的上下文生成,这是第一个具备上下文学习能力的基于扩散的可适应视觉-语言基础模型。 • 在GitHub上可以找到Pytorch代码实现。

Leave a Comment

遇见CLAMP:一种新的AI工具,用于分子活性预测,可以在推理时间适应新的实验

几十年来,基于化学结构预测分子的化学、宏观或生物性质的任务一直是一个关键的科学研究问题。由于近年来技术的显著进步,许多机器学习算法已被用于发现化学结构与这些分子特性之间的相关性。此外,深度学习的出现标志着引入了活性预测模型,这些模型用于在去除具有不良特征的分子后对剩余分子进行生物测试排序。这些基于深度学习的活性预测模型是计算药物发现行业的主要工具,它们可以与自然语言处理中的大型语言模型和计算机视觉中的图像分类模型进行比较。这些基于深度学习的活性预测模型利用了各种低级化学结构描述,包括化学指纹、描述符、分子图、SMILES字符串表示或其组合。 尽管这些架构表现出色,但它们的进展并不像视觉和语言领域那样具有革命性。通常,使用来自生物实验或“生物检测”的分子对和活性标签来训练活性预测模型。由于标注训练数据(也称为生物活性)的过程非常耗时和劳动密集,研究人员急切地寻找能够以较少数据点高效训练活性预测模型的方法。此外,当前的活性预测算法还不能够使用关于活性预测任务的全面信息,这主要是因为这些模型需要从它们所训练或微调的生物检测或活性预测任务中获得测量数据。因此,当前的活性预测模型无法进行零样本活性预测,并且在少样本情况下的预测准确性较差。 由于其被报道具有零样本和少样本能力,研究人员已经转向各种科学语言模型来进行低数据任务。但是,当涉及到活性预测时,这些模型在预测质量方面明显不足。在解决这个问题的过程中,来自奥地利林茨约翰内斯·开普勒大学机器学习系的一组杰出研究人员发现,使用化学数据库作为训练或预训练数据,并选择一个高效的分子编码器,可以提高活性预测的效果。为了解决这个问题,他们提出了一种名为对比语言-生物检测-分子预训练(CLAMP)的新型活性预测架构,该架构可以根据预测任务的文本描述进行条件化。这种模块化架构由一个单独的分子编码器和一个单独的语言编码器组成,这两个编码器在这两个数据模态之间进行对比性预训练。研究人员还提出了一种对训练数据中包含的化学数据库中的信息进行对比性预训练的目标。这些数据中包含了比生物医学文本中的化学结构多几个数量级的化学结构。 如前所述,CLAMP使用可训练的文本编码器创建生物检测嵌入和可训练的分子编码器创建分子嵌入。假设这些嵌入已进行层归一化。奥地利研究人员提出的方法还包括一个评分函数,当一个分子在某个生物检测上活跃时提供高值,而在不活跃时提供低值。此外,对比学习策略使模型能够进行零样本迁移学习,简而言之,为未见过的生物检测产生有见地的预测。根据研究人员进行的多个实验评估显示,他们的方法在少样本学习基准和药物发现中的零样本问题上显著改善了预测性能,并产生了可迁移的表示。研究人员认为他们模型的模块化架构和预训练目标是其出色性能的主要原因。 需要记住的是,尽管CLAMP表现出色,但仍有改进的空间。许多影响生物检测结果的因素,如化学剂量,未被考虑在内。此外,某些不正确的预测可能由于语法不一致和否定引起。尽管如此,对比学习方法CLAMP在几个大型数据集上展示了在零样本预测药物发现任务中的最佳性能。

Leave a Comment

生成式人工智能的迷人演进

介绍 在不断扩展的人工智能领域中,一个引人入胜的领域吸引着研究人员、技术人员和爱好者的想象力,那就是生成式人工智能。这些聪明的算法每天都在推动机器人的能力和理解力的极限,引领着一个新的创新和创造的时代。在这篇文章中,我们将踏上一段关于生成式人工智能演化的激动人心的旅程,探索其谦逊的起源、重要的转折点以及影响其发展的开创性进展。 我们将研究生成式人工智能如何革新各个领域,从艺术和音乐到医学和金融,从早期尝试创建简单模式到现在创造令人惊叹的杰作。通过理解生成式人工智能的历史背景和创新,我们可以深入了解它对未来的巨大潜力。让我们一起探索机器如何获得创造、发明和想象的能力,从而永远改变人工智能和人类创造力的领域。 生成式人工智能演化时间线 在不断发展的人工智能领域中,很少有分支像生成式人工智能一样引起如此多的好奇和兴趣。从最早的概念化到近年来取得的令人叹为观止的成就,生成式人工智能的发展之旅堪称非凡。 在本节中,我们将踏上一段迷人的时间之旅,揭示塑造生成式人工智能发展的里程碑。我们深入研究关键突破、研究论文和进展,绘制出其增长和演化的全面图景。 让我们一起踏上历史之旅,见证创新概念的诞生,重要人物的出现,以及生成式人工智能在各个行业的渗透,丰富生活并改变我们对人工智能的认知。 1805年:第一个神经网络/线性回归 1805年,Adrien-Marie Legendre引入了一个具有输入层和单个输出单元的线性神经网络(NN)。该网络将输出计算为加权输入的总和。使用最小二乘法调整权重,类似于现代线性神经网络,为浅层学习和随后的复杂结构奠定了基础。 1925年:第一个RNN架构 20世纪20年代,物理学家Ernst Ising和Wilhelm Lenz引入和分析了第一个非学习的循环神经网络(RNN)架构(Ising模型或Lenz-Ising模型)。它以响应输入条件进入平衡状态,并成为第一个学习型循环神经网络的基础。 1943年:神经网络的引入 1943年,Warren McCulloch和Walter Pitts首次引入了神经网络的概念。它受到生物神经元的工作方式的启发。神经网络是用电路模拟的。 1958年:MLP(无深度学习) 1958年,Frank Rosenblatt引入了具有非学习的第一层和自适应输出层的多层感知机(MLP)。尽管这还不是深度学习,因为只有最后一层是学习的,但Rosenblatt基本上拥有了后来被重新命名为极限学习机(ELMs)的东西,只是没有得到适当的归属。 1965年:第一个深度学习 1965年,Alexey Ivakhnenko和Valentin Lapa引入了第一个成功的深度多层感知机(MLP)的学习算法。…

Leave a Comment

“Enel使用Amazon SageMaker自动化大规模电网资产管理和异常检测”

这是Mario Namtao Shianti Larcher的客座文章,他是Enel的计算机视觉负责人Enel起初是意大利的国家电力实体,如今已发展成为在32个国家拥有7400万用户的跨国公司,也是全球第一家私人网络运营商它还被认为是第一家可再生能源…

Leave a Comment

在医学论文上微调LLaMA 认识PMC-LLaMA-A模型,它在生物医学问答基准测试中取得了高性能

大型语言模型(LLM)的发展,例如OpenAI的ChatGPT和GPT-4,在自然语言处理、计算机视觉和生物医学等许多领域中重塑了人工智能。不幸的是,ChatGPT的训练细节和其变体的模型架构仍然未知。虽然LLaMA是一个开源的基础语言模型,但据推测,它在需要广泛领域知识的应用中表现不佳,是由于在模型预训练阶段缺乏领域特定数据引起的。 许多研究一直在讨论修改和使用开源LLM来实现专门目的。例如,Alpaca和Vicuna专注于通过训练模型以遵守自动创建的指令示例来扩展模型的交互能力。 上海交通大学和上海人工智能实验室最近的一项工作采用了一种不同的方法,将领域知识注入到单个预训练的LLaMA中,以将基础语言模型引导到医学专用语料库。他们介绍了PMC-LLaMA,这是一个公开可用的语言模型,通过在480万篇医学学术论文上对LLaMA-7B进行改进开发而成。团队认为,在医学讨论和咨询中,一个以医学为重点的基础语言模型会有更多的益处。 团队从S2ORC数据集开始,该数据集包含81.1M篇英文学术论文,并根据其PubMed Central(PMC)ID对其进行了排序。因此,约有490万篇论文,总计超过750亿个标记与医学知识高度相关。通过优化GPT2中首次提出的自回归生成目标,他们在这些免费的PMC论文上对LLaMA-7B模型进行了微调。他们采用bf16(脑浮点)数据格式和完全分片数据并行(FSDP)加速方法来加快学习过程。 团队通过对上述相关的医学问答数据集进行三种不同类型的微调来测试PMC-LLaMA:完全微调、参数高效微调和数据高效微调。实验结果表明,当微调指令调整时,PMC-LLaMA在医学领域中优于LLaMA和其他使用LLaMA微调指令训练的模型。 PMC-LLaMA的一个缺点是,这480万篇论文中并不包含每个标记,因为迄今为止他们只进行了五个时期的训练。在未来,他们计划逐步训练具有更多参数的PMC-LLaMA模型,持续训练PMC-LLaMA,并更新hugging face页面上的基础模型。

Leave a Comment

“微软AI提出MM-REACT:一种将ChatGPT和视觉专家结合起来进行高级多模态推理和行动的系统范式”

大型语言模型(LLMs)正在迅速发展,并对经济和社会变革做出重要贡献。随着互联网上发布了许多人工智能(AI)工具,其中一个在过去几个月中非常受欢迎的工具是ChatGPT。ChatGPT是一种自然语言处理模型,允许用户生成像人类一样有意义的文本。OpenAI的ChatGPT基于GPT变压器架构,GPT-4是支撑它的最新语言模型。 随着最新的人工智能和机器学习发展,计算机视觉得到了指数级的提升,网络架构和大规模模型训练得到了改进。最近,一些研究人员引入了MM-REACT,这是一种将多个视觉专家与ChatGPT结合起来进行多模态推理和行动的系统范例。MM-REACT以更灵活的方式将各个视觉模型与语言模型结合起来,以克服复杂的视觉理解挑战。 MM-REACT的目标是处理现有视觉和视觉语言模型难以应对的各种复杂视觉任务。为此,MM-REACT使用提示设计来表示各种类型的信息,例如文本描述、文本化的空间坐标以及作为对齐文件名表示的密集视觉信号,如图像和视频。这种设计使ChatGPT能够接受和处理不同类型的信息与视觉输入相结合,从而实现更准确、全面的理解。 MM-REACT是一个将ChatGPT的能力与一组视觉专家相结合以增加多模态功能的系统。文件路径被用作占位符,并输入到ChatGPT中,以使系统能够接受图像作为输入。每当系统需要从图像中获取特定信息,例如识别名人姓名或框坐标时,ChatGPT会寻求特定视觉专家的帮助。专家的输出被序列化为文本,并与输入结合起来进一步激活ChatGPT。如果不需要外部专家,则直接将响应返回给用户。 通过向ChatGPT提示中添加与每个专家能力、输入参数类型和输出类型相关的特定指令,以及每个专家的一些上下文示例,使ChatGPT能够理解视觉专家的使用知识。此外,还指导使用正则表达式匹配来调用相应的专家。 通过实验,零-shot实验显示了MM-REACT如何有效地解决其特定的感兴趣的能力。它已经证明在解决需要复杂视觉理解的各种高级视觉任务方面非常高效。作者分享了一些例子,其中MM-REACT能够解决图像上显示的线性方程。此外,它还能够通过命名图像中的产品及其成分等来进行概念理解。总之,这种系统范例很好地结合了语言和视觉专业知识,并能够实现高级视觉智能。

Leave a Comment

分割任何东西,但更快!这种人工智能方法加速了SAM模型

在计算机视觉中,寻找图像中的对象一直是一个长期存在的任务。目标检测算法尝试通过在对象周围绘制一个框来定位对象,而分割算法则试图以像素级精确确定对象的边界。图像分割旨在根据语义含义或视觉特征将图像分割成不同的区域或对象。它在各种应用中至关重要,包括对象识别、场景理解、自动驾驶、医学成像等。 多年来,已经开发了许多方法和算法来解决这个具有挑战性的问题。传统方法使用手工设计的特征,而最近的进展则带来了以深度学习模型驱动的模型。这些现代方法已经取得了显著的进展,实现了最先进的性能,并在图像理解和分析方面开启了新的可能性。 然而,这些模型存在根本的局限性。它们受限于训练集中看到的对象,并且无法分割剩余的对象。 然后出现了完全改变图像分割游戏的Segment Anything Model (SAM)。它是一个开创性的视觉模型,能够根据用户交互提示在图像中分割任何对象。它基于在广泛的SA-1B数据集上训练的Transformer架构构建,表现出了显著的性能,并开启了一个被称为Segment Anything的新颖有趣的任务。凭借其普适性和潜力,它有望成为未来视觉应用的基石。 然而,SAM并非完美无缺。这种力量是有代价的,对于SAM来说,代价就是复杂性。它计算上过于耗费资源,这使得在实际场景中应用它变得具有挑战性。与SAM架构的核心部分——Vision Transformers (ViTs)有关的计算资源要求是与Transformer模型相关的计算资源要求。 有没有办法让SAM更快?答案是肯定的,它被称为FastSAM。 FastSAM是为了满足SAM模型在工业应用中的高需求而提出的。它成功地提高了SAM的执行速度,并使其能够应用于实际场景。 FastSAM大大加速了SAM的速度。来源:https://arxiv.org/pdf/2306.12156.pdf FastSAM将segment anything任务分解为两个顺序阶段:全实例分割和提示引导选择。第一阶段使用基于卷积神经网络(CNN)的检测器为图像中的所有实例生成分割掩模。在第二阶段,它输出与用户提示相对应的感兴趣区域。利用CNN的计算效率,FastSAM展示了实时segment anything模型的可实现性,而不会牺牲性能质量。 FastSAM概览。来源:https://arxiv.org/pdf/2306.12156.pdf FastSAM基于YOLOv8-seg,这是一个配备了受YOLACT方法启发的实例分割分支的目标检测器。通过将这个CNN检测器训练在仅占SA-1B数据集2%的数据上,FastSAM在大大降低计算需求的同时,实现了与SAM相当的性能。该方法在多个下游分割任务中证明了其有效性,包括在MS COCO上的对象提议,其中FastSAM在提议数量为1000个时的平均召回上超过了SAM,并在单个NVIDIA RTX 3090上运行速度快了50倍。

Leave a Comment

人工智能(AI)中的顶级目标检测算法和库

计算机视觉的科学最近在目标识别方面发生了巨大的变化,这通常被认为是一个困难的研究领域。由于两个过程同时进行的复杂性,目标定位和分类是计算机视觉中一个困难的研究领域。深度学习和图像处理中最重要的进展之一是目标检测,它可以定位和标记给定图像中的对象。目标检测模型是适应性的,因为它可以被教会识别和查找多个对象。创建物体定位的过程通常使用边界框。 对目标检测的兴趣在深度学习技术和尖端图像处理工具出现之前就非常强烈。目标检测模型通常被教会寻找非常特定的事物。图像、电影或实时处理可以从构建好的模型中受益。目标检测使用对象的特征来确定它正在寻找的对象。目标检测模型可以通过寻找四个直角、形成边长相等的正方形来寻找正方形。如果目标检测模型试图定位某个球形物体,它会寻找构成该形状的中心点。人脸识别和物体追踪是这些识别方法的应用例子。 目标检测的一些常见用途包括自动驾驶汽车、物体跟踪、人脸检测和识别、机器人技术和车牌识别。 首先,让我们来看一下目前最好的目标检测算法。 1.  方向梯度直方图(HOG) 在图像处理和各种形式的计算机视觉中,方向梯度直方图(HOG)被用作目标检测的特征描述符。HOG算法利用梯度方向过程来确定图像中最重要的特征。在方向梯度直方图描述符方法中,梯度方向可能发生在图像的某些区域,如检测窗口。HOG类似特征的简单性使得它们所包含的信息更容易消化。 缺点:尽管方向梯度直方图(HOG)在目标识别的早期阶段是一个重大突破,但它存在一些严重的缺点。在照片中进行复杂的像素计算需要很长时间,因此在空间有限的某些目标识别场景下效果不佳。 2.  快速区域卷积神经网络(Fast R-CNN) 快速区域卷积神经网络(Fast R-CNN)是一种用于检测对象的训练算法。该方法改进了R-CNN和SPPnet的速度和准确性,并解决了它们的关键缺点。Python和C++可以创建快速R-CNN软件(Caffe)。 3.  更快区域卷积神经网络(Faster R-CNN) 与R-CNN类似,更快区域卷积神经网络(Faster R-CNN)是一种目标检测方法。与R-CNN和Fast R-CNN相比,该方法通过利用区域建议网络(RPN),与检测网络共享完整图像的卷积特征,从而节省了成本。 更快区域卷积神经网络(Faster R-CNN)模型是R-CNN系列的一种前沿变体,相比于前身,它提供了显著的加速。R-CNN和Fast R-CNN模型使用选择性搜索算法来计算区域建议。然而,更快区域卷积神经网络(Faster R-CNN)利用更强大的区域建议网络进行升级。 4.  基于区域的卷积神经网络(R-CNN)…

Leave a Comment

2023年超参数优化的顶级工具/平台

超参数是用于调节算法在创建模型时的行为的参数。这些因素无法通过常规训练来发现。在训练模型之前,必须对其进行分配。 选择产生最佳性能的超参数组合的过程被称为机器学习中的超参数优化或调整。 根据任务的不同,有几种自动优化方法,每种方法都有其优点和缺点。 随着深度学习模型的复杂性增加,用于优化超参数的工具数量也在增加。对于超参数优化(HPO),通常有两种类别的工具包:依赖云计算资源的开源工具和服务。 下面展示了用于ML模型的顶级超参数优化库和工具。 贝叶斯优化 基于贝叶斯推断和高斯过程,一种名为BayesianOptimisation的Python程序使用贝叶斯全局优化来找到未知函数的最大值,迭代次数最少。这种方法最适用于高成本函数优化,其中在探索和开发之间取得正确平衡至关重要。 GPyOpt GPyOpt是一个基于贝叶斯优化的Python开源包。它使用GPy构建,GPy是一个用于建模高斯过程的Python框架。该库可以创建湿实验、自动设置模型和机器学习方法等。 Hyperopt Hyperopt是一个用于串行和并行优化的Python模块,可以包含条件、离散和实值维度的搜索空间。对于希望进行超参数优化(模型选择)的Python用户,它提供了并行化的技术和基础设施。该库支持的贝叶斯优化技术基于回归树和高斯过程。 Keras Tuner 使用Keras Tuner模块,我们可以找到机器学习模型的理想超参数。该库包含了HyperResNet和HyperXception两个预构建的可自定义的计算机视觉程序。 度量优化引擎(MOE) 度量优化引擎(MOE)是一个用于最佳实验设计的开源黑盒贝叶斯全局优化引擎。当评估参数需要时间或金钱时,MOE是一种有用的系统参数优化方法。它可以帮助解决各种问题,例如通过A/B测试最大化系统的点击率或转化率,调整昂贵批处理作业或机器学习预测方法的参数,设计工程系统或确定实验的理想参数。 Optuna Optuna是一个用于自动超参数优化的软件框架,非常适用于机器学习。它提供了一个用户API,具有命令式、按运行定义搜索空间的设计,可以动态构建超参数的搜索空间。该框架提供了许多库,用于平台无关的架构、简单的并行化和Pythonic的搜索空间。 Ray Tune Ray Tune是一个用于耗时任务(如深度学习和强化学习)的超参数优化框架。该框架具有多种用户友好的功能,包括可配置的试验变体创建、网格搜索、随机搜索和条件参数分布,以及可扩展的搜索算法实现,包括Population Based Training(PBT)、Median…

Leave a Comment

“可识别但不可见:一种保护隐私的人物再识别方案(论文摘要)”

人员再识别(Person Re-ID)是一种先进的计算机视觉方法,可以更容易地通过不同地点和时间的监控摄像头来识别人员。尽管个人图像具有改善安全和公共安全的巨大潜力,但其使用存在着重大的隐私问题。由于根据数据隐私法律法规,个人图像被视为私人信息,因此这些问题需要隐私保护的解决方案。 现有的隐私保护人员再识别方法存在一定的局限性。传统的加密方法可以提供较强的隐私保护,但无法对加密数据进行计算。同态加密(HE)直接支持对密文进行计算,但不允许云服务器访问计算结果。此外,现有的浮点特征向量加密机制存在解码和计算错误的问题。 最近,发表了一篇新文章,提出一种名为FREED的新的隐私保护人员再识别解决方案。该系统将隐私保护的人员再识别定义为加密特征向量的相似性度量,使得云服务器可以在不泄露任何个人图像隐私的情况下执行再识别操作。 具体而言,FREED利用新的编码机制和安全批处理计算协议来加密浮点特征向量并有效地执行再识别操作。 FREED引入了三个关键组件来保护特征向量的隐私: 编码机制(ECMO)将浮点特征向量转换为整数,确保准确性并避免解码错误。 安全批处理乘法(BatchSMUL)协议高效计算加密特征向量的相似性度量,减少计算成本。 安全批处理部分解密(BatchPDec)协议安全地对相似性度量进行排序,实现准确的人员再识别,同时不泄露个人隐私。 通过这些组件,可以提供一个强大的隐私保护解决方案,用于人员再识别任务。 提出使用ECMO将浮点特征向量转换为整数,具有两个关键优势。首先,它消除了其他编码方法常见的解码错误。ECMO确保在加密和解密后更准确地检索原始特征向量,保留其准确性,并提高人员再识别的准确性。其次,与传统方法相比,这种转换为整数显著降低了计算错误率和加密成本。ECMO的更高效和精确的过程提高了方案的整体准确性和实用性,适用于实际应用。 通过对计算和通信开销方面的效率进行评估,测试表明ECMO相对于其他编码技术具有较低的错误率。同时还确定了控制参数设置。FREED提供了一种安全可行的人员再识别方法,相比先前的协议在计算和通信方面性能更好。 总之,本文介绍了FREED,一种新颖有效的隐私保护人员再识别解决方案。通过利用编码机制(ECMO)将浮点特征向量转换为整数,FREED解决了传统编码方法的局限性,提高了准确性并减少了计算和计算错误。安全批处理乘法(BatchSMUL)和安全批处理部分解密(BatchPDec)协议提高了系统的效率。通过广泛的实验评估,FREED在计算和通信方面展示了其有效性和效率,相比于MGN等方法,FREED为解决人员再识别中的隐私挑战提供了一种有希望的方法,同时保持了高准确性和实用性,适用于实际应用。

Leave a Comment

2023年机器学习模型的顶级合成数据工具/初创公司

有意创建的信息,而不是实际事件的结果,被称为合成数据。合成数据是通过算法生成的,并用于训练机器学习模型、验证数学模型,并作为测试生产或操作数据测试数据集的替代。 使用合成数据的优点包括在使用私有或受控数据时减轻限制,根据无法满足准确数据的特定情况调整数据要求,并为DevOps团队生成用于软件测试和质量保证的数据集。 尝试复制原始数据集复杂性时的限制可能会导致差异。完全替代准确数据是不可能的,因为仍然需要准确的数据来生成实际的合成信息示例。 合成数据有多重要? 开发人员需要大量细致注释的数据集来训练神经网络。当神经网络具有更多多样化的训练数据时,通常更准确。 问题在于编制和确定可能包含几千到数千万个项目的数据集需要大量的工作,并且经常是不可承受的。 现在出现了虚假数据。AI.Reverie的联合创始人保罗·瓦尔博斯基认为,从标注服务中获取的一张图片可能需要6美元,但可以以6美分的价格合成生成。 节省金钱只是个开始。瓦尔博斯基继续表示,通过确保您拥有数据的多样性以准确反映现实世界,合成数据对于处理隐私问题和减少偏见至关重要。 合成数据集有时优于现实世界的数据,因为它们可以自动进行标记,并且可以有意地包含罕见但关键的边角情况。 合成数据初创公司和企业名单 Datagen 成立于2018年的以色列公司Datagen获得了2200万美元的资金,其中包括去年2月的1850万美元A轮融资,这是该公司的正式亮相。由于它主要专注于逼真的视觉模拟和自然世界的重建,尤其擅长人体运动,Datagen将其特殊风格的合成数据称为“模拟数据”。Datagen使用生成对抗网络(GANs),这是一种越来越常见的人工智能方法,与许多处理合成数据的其他企业一样。它类似于计算机棋局中的两个系统之间的游戏,但一个系统生成虚假数据,而另一个系统评估结果的真实性。该公司将GANs与称为强化学习人形动作技术和超级渲染算法的东西相结合,在物理模拟器中进行研究开发。 Datagen的目标行业包括零售、机器人技术、增强和虚拟现实、物联网和自动驾驶汽车。以一个Amazon Go店铺为例,它的计算机视觉系统监视购物者,以确保没有人带走任何物品。 Parallel Domain 模拟自动驾驶车辆的环境可能是当今最常见的应用案例之一。这是Parallel Domain的主要业务领域,这是一家成立于2017年的硅谷初创公司,我们之前已经对其进行了介绍。自那时以来,该公司已经筹集了大约1390万美元的资金,其中包括去年年底的1100万美元A轮融资。丰田可能是其最重要的支持者和客户。该公司致力于教育自动驾驶汽车如何避免伤害人员,为其合成数据平台专注于一些最具挑战性的用例。最近,该公司与丰田研究院合作开发了一种使用合成数据教授自主系统对象永恒性的方法。尽管由于Parallel Domain的影响,现在AI可以在物体暂时消失时仍然追踪物体,但当前的感知系统仍然像孩子玩捉迷藏一样。此外,该公司还向公众提供了用于完全注释的合成相机和LiDAR数据集的数据可视化工具。该公司为自动无人机交付和自动驾驶提供人工训练数据。 Mindtech 成立于2017年的英国公司Mindtech筹集了约650万美元的资金。就在上个月,该公司完成了325万美元的种子轮融资。其中一位著名的投资者是In-Q-Tel,这是一家美国政府组织,为具有帮助像CIA这样的组织的潜力的创新提供资金。因此,这就是它。Mindtech开发的模块化工具Chameleon允许用户使用逼真的3D模型即时创建无限数量的场景和情境。根据该公司的说法,Chameleon专门设计为帮助其客户开发“理解和预测人类互动”的AI系统。除了向间谍机构提供服务外,Mindtech还向零售、智能家居、医疗保健、交通运输和机器人技术行业提供产品和服务。 合成人工智能 2019年初创公司合成人工智能在四月份与iRobot(IRBT)进行了450万美元的种子轮融资,可能是为了推进其智能家居机器人吸尘器的发展。与Datagen一样,合成人工智能使用生成对抗网络(GAN)与计算机生成图像(CGI)技术,这种技术几乎应用于每一部现代电影中,用于构建合成人类。该公司的首款产品FaceAPI允许公司为智能助手、远程会议、驾驶员监控和智能手机面部验证创建更强大的人工智能面部模型。为了增强人工智能模型在代表各种面部类型方面的能力,合成人工智能在六月份发布了4万个原始高分辨率的3D面部模型。 Oneview OneView是一家以色列初创公司,成立于2019年,融资350万美元。该公司的主要目标是为从卫星和航空照片中生成地理情报的人工智能算法提供人工数据。这些视图经常涵盖地球上的大片区域,包括城市、机场、港口和其他建筑物。OneView使用开源数据映射服务OpenStreetMap的实际数据来创建合成数据集的基础模型。该公司只需将2D图像转换为多次渲染的3D图像,以模拟各种情况,包括对象、天气、光照等等。您可以在此处了解更多关于该过程的信息。…

Leave a Comment

谷歌DeepMind推出了NaViT:一种新的ViT模型,在训练过程中使用序列打包来处理任意分辨率和宽高比的输入

视觉变压器(ViT)因其简单性、灵活性和可扩展性而快速取代基于卷积的神经网络。图片被分割成补丁,并且每个补丁被线性投影到一个令牌上,构成了这个模型的基础。输入照片通常被划分为一组固定数量的补丁,然后再使用。 最近的研究发表了对这个模型的潜在改进:FlexiViT允许连续的序列长度范围,因此通过在单个设计中适应不同的补丁尺寸来计算成本。这是通过在每次训练迭代中随机选择补丁尺寸,并使用缩放技术来适应初始卷积嵌入中的多个补丁尺寸来实现的。Pix2Struct的替代补丁方法,保持了纵横比,对于图表和文档理解等任务非常有价值。 NaViT是谷歌研究人员开发的一种替代方法。Patch n’ Pack是一种技术,它允许在保持纵横比的同时改变分辨率,通过将来自不同图像的许多补丁打包到一个序列中。这个想法基于“示例打包”,这是一种在自然语言处理中使用的技术,通过将多个实例合并成一个序列来高效训练具有不同长度输入的模型。科学家们发现,随机采样分辨率可以显著减少训练时间。NaViT在广泛的解决方案范围内实现了出色的性能,便于在推理时平滑地权衡成本和性能,并且可以以较低的成本轻松适应新的任务。 从示例打包所实现的固定批次形状中出现了像保持纵横比的解析率采样、可变的令牌丢弃率和自适应计算等研究思路。 NaViT在预训练期间的计算效率尤为令人印象深刻,并在微调过程中持续存在。成功地将单个NaViT应用于不同的分辨率,可以在性能和推理成本之间实现平滑的权衡。 在训练和操作过程中将数据输入深度神经网络是常见的实践。因此,计算机视觉应用必须使用预定的批次大小和几何形状,以确保在现有硬件上获得最佳性能。由于这个原因和卷积神经网络固有的架构限制,将图像调整大小或填充到预定大小已经成为常见的做法。 虽然NaViT基于原始的ViT,但理论上可以使用任何可以处理补丁序列的ViT变种。研究人员对ViT进行了以下结构性改变以支持Patch n’ Pack。Patch n’ Pack是一种将序列打包应用于视觉变换器的简单方法,它显著提高了训练效率,这已经被研究界证明过。由此产生的NaViT模型具有灵活性,易于适应新的任务,而不会造成巨大的成本开销。自适应计算和提高训练和推理效率的新算法的研究只是Patch n’ Pack所带来的可能性的两个例子,而这些以前因需要固定的批次形式而受到限制。他们还认为NaViT对ViT来说是朝着正确方向迈出的一步,因为它代表了大多数计算机视觉模型的传统CNN设计输入和建模流程的改变。

Leave a Comment

超越一致性:这个AI模型教会了扩散模型对鲁棒的文本到3D生成具备3D意识

文本到图像模型最近发展迅速,其中大部分进展都集中在文本到图像模型上。这些模型可以使用给定的文本提示生成逼真的图像。 图像生成只是这个领域研究的一个组成部分。虽然它是一个重要方面,但还有其他文本到其他模型在不同应用中起着关键作用。例如,文本到视频模型旨在根据给定的文本提示生成逼真的视频。这些模型可以显著加快内容准备过程。 另一方面,文本到3D生成已经成为计算机视觉和图形领域的关键技术。虽然仍处于初级阶段,但从文本输入生成逼真的3D模型的能力引起了学术研究人员和行业专业人士的极大兴趣。这项技术在革新各个行业方面具有巨大潜力,多学科的专家们正在密切关注其持续发展。 神经辐射场(NeRF)是一种最近引入的方法,它允许从一组2D图像或稀疏的3D点集合中高质量地渲染复杂的3D场景。已经提出了几种方法将文本到3D模型与NeRF相结合,以获得更加逼真的3D场景。然而,它们经常出现扭曲和伪影,并对文本提示和随机种子敏感。 特别是3D不连贯问题是一个常见问题,渲染的3D场景在不同视点上多次产生属于正面视图的几何特征,导致3D场景产生严重扭曲。这种失败是由于2D扩散模型对3D信息的缺乏意识,特别是相机姿态造成的。 如果有一种方法可以将文本到3D模型与NeRF的进步相结合,以获得逼真的3D渲染,那会怎么样?是时候见识一下3DFuse了。 3DFuse管道概述。来源:https://ku-cvlab.github.io/3DFuse/ 3DFuse是一种中间方法,它将预训练的具有3D意识的2D扩散模型与3D一致的NeRF优化相结合,使其适用于3D一致性的渲染。它有效地将3D意识注入预训练的2D扩散模型中。 3DFuse从采样语义代码开始,以加快生成场景的语义识别。这个语义代码实际上是生成的图像和给定的文本提示,用于扩散模型。一旦完成了这一步骤,3DFuse的一致性注入模块会接收这个语义代码,并通过为给定视点投影粗糙的3D几何来获得特定于视点的深度图。他们使用现有模型来实现这个深度图。然后,深度图和语义代码被用来将3D信息注入扩散模型中。 3DFuse概述。来源:https://ku-cvlab.github.io/3DFuse/ 问题在于预测的3D几何容易出现错误,这可能会改变生成的3D模型的质量。因此,在进一步进行管道之前,应该解决这个问题。为了解决这个问题,3DFuse引入了一种稀疏深度注入器,它隐式地知道如何纠正有问题的深度信息。 通过提取生成3D一致图像的扩散模型的分数,3DFuse稳定地优化了NeRF以实现视图一致的文本到3D生成。该框架在生成质量和几何一致性方面取得了显著的改进。

Leave a Comment

“见面语义-SAM:基于用户输入,在任何所需的粒度上对图像进行分割并识别对象的通用图像分割模型”

人工智能近年来取得了巨大的进步。其中,大型语言模型的引入引起了广泛关注,因为它具有令人难以置信的模仿人类能力。这些模型不仅在语言处理方面取得了成功,还在计算机视觉领域取得了成就。尽管AI系统在自然语言处理和可控图像生成方面取得了显著成就,但包括通用图像分割在内的像素级图像理解领域仍存在一定的局限性。 图像分割是将图像分割为不同部分的技术,取得了很大的改进,但要创建一个能处理不同粒度的各种图像的通用图像分割模型仍在讨论中。在该领域取得进展的两个主要挑战是充足的训练数据的可用性和模型设计的灵活性限制。现有方法通常使用单输入、单输出的流水线,无法预测不同粒度的分割掩码并处理不同的细节级别。此外,扩展既具有语义知识又具有粒度知识的分割数据集是昂贵的。 为了解决这些限制,一个研究团队提出了Semantic-SAM,一种基于用户输入的通用图像分割模型,可以在任意所需的粒度上对对象进行分割和识别。该模型能够为对象和部分提供语义标签,并根据用户的点击预测不同粒度的掩码。Semantic-SAM的解码器架构采用了多选择学习策略,使模型具备处理多个粒度的能力。每个点击由多个查询表示,每个查询具有不同的嵌入级别。这些查询通过与不同粒度的真实掩码学习。 该团队分享了Semantic-SAM如何通过使用解耦的部件和对象分类策略来解决语义意识问题。该模型使用共享的文本编码器分别对对象和部件进行编码,从而实现不同的分割过程,并根据输入类型调整损失函数。这种策略确保了模型能够处理来自SAM数据集(该数据集缺少一些分类标签)以及来自通用分割数据的数据。 该团队结合了七个代表不同粒度的数据集,以增强语义和粒度,包括SA-1B数据集、部分分割数据集如PASCAL Part、PACO和PartImagenet,以及通用分割数据集如MSCOCO和Objects365。数据格式已重新调整以符合Semantic-SAM的训练目标。 经过评估和测试,Semantic-SAM表现出比现有模型更优异的性能。当与交互式分割技术(如SA-1B可提示分割和COCO全景分割)结合使用时,性能显著提高。该模型实现了惊人的2.3个框AP增益和1.2个掩码AP增益。在粒度完整性方面,它比SAM表现更好,超过3.4个1-IoU。 Semantic-SAM绝对是图像分割领域的创新进展。该模型通过融合通用表示、语义意识和粒度丰富性,为像素级图像分析创造了新的机会。

Leave a Comment

遇见DISCO:一种新颖的人类舞蹈生成的AI技术

生成式人工智能在计算机视觉领域引起了广泛的关注。最近在文本驱动的图像和视频合成方面取得的进展,例如文本到图像(T2I)和文本到视频(T2V),借助扩散模型的出现,展示了卓越的保真度和生成质量。这些进展展示了相当大的图像和视频合成、编辑和动画潜力。然而,合成的图像/视频与完美仍有很大差距,特别是对于人类中心的应用,如人类舞蹈合成。尽管人类舞蹈合成有着悠久的历史,但现有方法在合成内容与真实舞蹈场景之间存在很大的差距。 从生成对抗网络(GANs)时代开始,研究人员尝试扩展视频到视频的风格转移,将舞蹈动作从源视频转移到目标个体,这通常需要对目标人员进行人员特定的微调。 最近的一系列工作利用预先训练的基于扩散的T2I/T2V模型,根据文本提示生成舞蹈图像/视频。这种粗粒度的条件极大地限制了可控性的程度,使用户几乎不可能精确指定预期的主题,即人类外观,以及舞蹈动作,即人类姿势。 虽然引入了ControlNet部分缓解了这个问题,通过将几何人体关键点的姿势控制与之结合,但由于其依赖于文本提示,ControlNet如何确保参考图像中丰富的语义一致性,如人类外观,仍然不清楚。此外,几乎所有现有方法都是在有限的舞蹈视频数据集上进行训练,要么具有有限的主题属性,要么具有过于简单的场景和背景。这导致对未见过的人物主题、姿势和背景组合的零样本泛化能力较差。 为了支持用户特定的短视频内容生成等实际应用,人类舞蹈生成必须符合真实舞蹈场景。因此,期望生成模型能够根据以下属性合成人类舞蹈图像/视频:保真度、泛化能力和组合性。 生成的图像/视频应通过保留与参考图像一致的人类主题和背景外观,同时准确遵循提供的姿势来展现保真度。该模型还应展示泛化能力,即在不需要人员特定微调的情况下处理未见过的人类主题、背景和姿势。最后,生成的图像/视频应展示组合性,允许从不同的图像/视频中选择任意组合的人类主题、背景和姿势。 在这方面,提出了一种新颖的名为DISCO的方法,用于在真实场景中生成人类舞蹈。该方法的概述如下图所示。 https://arxiv.org/abs/2307.00040 DISCO采用两个关键设计:一种具有分离控制的新颖模型架构,用于提高保真度和组合性,以及一种名为人类属性预训练的预训练策略,用于提高泛化能力。DISCO的新颖模型架构确保生成的舞蹈图像/视频能够忠实地捕捉所需的人类主题、背景和姿势,同时允许这些元素的灵活组合。此外,分离控制增强了模型维持忠实表示和适应多样组合的能力。此外,DISCO采用人类属性预训练策略增强模型的泛化能力。这种预训练技术赋予模型处理未见过的人类属性的能力,使其能够生成超越训练数据限制的高质量舞蹈内容。总体而言,DISCO提供了一个综合的解决方案,将复杂的模型架构与创新的预训练策略结合起来,有效解决了真实场景中人类舞蹈生成的挑战。 以下展示了生成的图像/视频以及与人类舞蹈生成的最先进技术的比较。 https://arxiv.org/abs/2307.00040 这是关于DISCO的摘要,一种生成人类舞蹈的新型人工智能技术。如果您感兴趣并想了解更多关于这项工作的信息,可以通过下面的链接找到更多信息。

Leave a Comment

如何制作一份获胜的机器学习简历?

一份精心设计的简历可以成为您在机器学习领域解锁就业机会、获得梦想工作的敲门砖。本全面指南提供了战略优化您的机器学习简历以打动雇主的重要见解。学习如何撰写一份能够推动您职业成功和促进职业发展的机器学习简历。掌握有效的策略,突出您的技术专长,展示相关项目,并利用您的行业知识。 机器学习简历结构和格式 以正确的格式展示您的技能和经验对于确保您的机器学习简历脱颖而出至关重要。 结构 专业标题 简明的总结/目标陈述 技术技能 教育 工作经历 项目 认证和培训 出版物和演讲 奖项和荣誉 专业关系 参考人员 格式 考虑以下标准细节,以使您的人工智能和机器学习简历结构良好、整洁: 字体 字号 行距 对齐 文件类型 突出相关技能和知识 为了突出您在机器学习工程师简历中的相关技能和知识,包括以下关键词: 方面…

Leave a Comment

Kevin Baragona,DeepAI创始人兼首席执行官 – 访谈系列

DeepAI创始人Kevin Baragona是一位拥有十多年经验的专业软件工程师和产品开发人员他在设计和开发DeepAI时的目标是创建一个全面的平台,对于一般从业人员来说直观易用,对于开发人员来说可以将DeepAI集成到他们的项目中,并向初学者介绍人工智能的新 […]

Leave a Comment

Can't find what you're looking for? Try refining your search: