Press "Enter" to skip to content

四海吧 Posts

『如何处理稀疏数据集』的全面指南

介绍 你有没有见过一个几乎全是空值的数据集?如果有的话,你并不孤单。稀疏数据集是机器学习中最常见的问题之一。不充分的调查、缺少读数的传感器数据或缺少词汇的文本等因素都可能导致数据集的稀疏性。 当我们使用稀疏数据集进行训练时,我们的机器学习模型可能产生相对较低准确度的结果。这是因为机器学习算法基于所有数据可用的假设运行。当存在缺失值时,算法可能无法正确确定特征之间的相关性。如果在没有缺失值的大型数据集上进行训练,模型的准确度将会提高。因此,为了填充稀疏数据集的近似正确值而不是随机值,我们必须格外小心地处理它们。 在本指南中,我将介绍稀疏数据集的定义、原因以及处理稀疏数据集的技术。 学习目标 全面了解稀疏数据集及其在数据分析中的影响。 探索处理稀疏数据集中缺失值的各种技术,包括插补和高级方法。 了解探索性数据分析(EDA)在揭示稀疏数据集中隐藏洞见方面的重要性。 使用Python实现处理稀疏数据集的实际解决方案,包括真实世界的数据集和代码示例。 本文是Data Science Blogathon的一部分。 什么是稀疏数据集? 具有许多缺失值的数据集被称为稀疏数据集。没有特定的阈值或固定的百分比可以单独基于缺失值的百分比来定义数据集是否稀疏。然而,具有高百分比缺失值的数据集(通常超过50%或更多)可以被认为是相对稀疏的。如此大比例的缺失值可能会对数据分析和机器学习造成挑战。 示例 假设我们有一个关于在线零售商消费者购买的数据集。假设数据集有2000行(表示消费者)和十列(表示各种属性,如产品类别、购买金额和客户人口统计信息)。 为了这个示例,假设数据集条目的40%是缺失的,这意味着对于每个客户,大约有10个属性中的4个属性是缺失的。可能是因为客户没有输入这些值,或者在数据收集过程中出现了技术问题。 虽然没有明确的标准,但大量缺失值(40%)使我们能够将该数据集分类为高度稀疏。如此大量的缺失数据可能会影响分析和建模任务的可靠性和准确性。 稀疏数据集为何具有挑战性? 由于存在大量缺失值,稀疏数据集对数据分析和建模带来了几个困难。以下是一些使处理稀疏数据集具有挑战性的因素: 缺乏洞见:由于稀疏数据集中缺少很多数据,存在信息减少的问题,这导致丧失了有助于建模的有意义的洞见。 结果偏倚:如果我们的模型产生偏倚的结果,这将构成威胁。由于缺失数据,我们主要观察到稀疏数据集中出现偏倚的结果,这使得模型依赖特定的特征类别。 对模型准确度的巨大影响:稀疏数据集可能对机器学习模型的准确度产生负面影响。许多算法在未处理所有缺失值的情况下不会训练模型。缺失值可能导致模型学习错误的模式,从而产生不良结果。 处理稀疏数据集的注意事项 在处理稀疏数据集时,有几个注意事项需要记住。这些因素可以帮助指导您处理缺失值并提高模型的准确性的方法。让我们探讨一些关键的注意事项:…

Leave a Comment

“我们应该如何存储AI图像?谷歌研究人员提出了一种使用基于分数的生成模型的图像压缩方法”

一年前,用人工智能生成逼真的图像还只是一个梦想。尽管大部分生成的输出仍然有三只眼睛、两个鼻子等等,但我们对于看到与真实相似的生成的脸庆幸不已。然而,随着扩散模型的发布,情况发生了很大变化。如今,很难区分出人工智能生成的图像和真实的图像。 生成高质量图像的能力是方程式的一部分。如果我们要充分利用它们,高效地压缩它们在内容生成、数据存储、传输和带宽优化等任务中发挥着至关重要的作用。然而,图像压缩在很大程度上仍然依赖于传统的变换编码和量化技术,对生成模型的探索有限。 尽管扩散模型和基于评分的生成模型在图像生成方面取得了成功,但在图像压缩方面,它们尚未成为主导方法,落后于基于GAN的方法。它们在高分辨率图像上的表现往往比不上HiFiC等基于GAN的方法。即使尝试将文本到图像模型重新用于图像压缩,也会产生不令人满意的结果,生成的重建图像与原始输入有所偏差,或者包含不良伪影。 在图像生成任务中,基于评分的生成模型的性能与它们在图像压缩中的有限成功之间的差距引发了有趣的问题,并激发了进一步的研究。令人惊讶的是,能够生成高质量图像的模型在图像压缩这个特定任务中无法超越GAN。这种差异表明,在将基于评分的生成模型应用于压缩任务时,可能存在独特的挑战和考虑因素,需要专门的方法来充分发挥其潜力。 因此,我们知道在图像压缩中使用基于评分的生成模型存在潜力。问题是,如何实现呢?让我们来看答案。 谷歌研究人员提出了一种方法,将经过均方误差(MSE)优化的标准自编码器与扩散过程结合起来,以恢复并添加自编码器丢弃的细节。对于编码图像的比特率仅由自编码器确定,因为扩散过程不需要额外的比特。通过专门为图像压缩微调扩散模型,结果显示它们在图像质量方面可以胜过几种最近的生成方法。 所提出的方法能够更好地保留细节,与最先进的方法相比。来源:https://arxiv.org/pdf/2305.18231.pdf 该方法探索了两种紧密相关的方法:扩散模型表现出令人印象深刻的性能,但需要大量的采样步骤;而修正流模型在允许较少的采样步骤时表现更好。 这种两步方法首先使用MSE优化的自编码器对输入图像进行编码,然后应用扩散过程或修正流方法来增强重建图像的逼真度。扩散模型采用与文本到图像模型相反方向的噪声调度,优先考虑细节而不是全局结构。另一方面,修正流模型利用自编码器提供的配对关系,直接将自编码器输出映射到未压缩图像。 所提出的HFD模型概述。来源:https://arxiv.org/pdf/2305.18231.pdf 此外,该研究揭示了一些具体细节,这些细节对未来在该领域的研究具有实用价值。例如,研究表明,噪声计划和在图像生成过程中注入的噪声量显著影响结果。有趣的是,尽管文本到图像模型在高分辨率图像上训练时受益于增加的噪声水平,但发现在压缩方面减少扩散过程的整体噪声是有利的。这种调整使模型能够更多地关注细节,因为粗略的细节已经被自动编码器重建充分捕捉到了。

Leave a Comment

Codeium的Varun Mohan和Jeff Wang谈如何释放人工智能在软件开发中的力量

世界越来越依赖于代码。 加速那些创造代码的人的工作将会提高他们的生产力 – 这正是AI初创公司Codeium的目标,该公司是NVIDIA创业计划Inception的成员。 在NVIDIA的AI播客的最新一期中,主持人Noah Kravitz采访了Codeium创始人兼首席执行官Varun Mohan和该公司的业务负责人Jeff Wang,讨论了该公司的业务以及AI如何改变软件开发。 Codeium的AI驱动的代码加速工具包拥有三个核心功能:自动完成、聊天和搜索。 自动完成智能地建议代码段,通过减少编写样板代码或单元测试的需求,节省开发人员的时间。 同时,聊天功能使开发人员能够使用自然语言查询重新设计甚至创建代码,提高他们的编码效率,同时为整个代码库提供可搜索的上下文。 Noah与Mohan和Wang讨论了AI在软件开发中的未来,以及人类在这个过程中持续发挥的重要作用。 您可能还喜欢 Jules Anh Tuan Nguyen解释了AI如何让截肢者控制假肢和视频游戏 明尼苏达大学的一位博士后研究员讨论了他为截肢者提供了使用他们的思维控制假肢 – 包括指头动作。 Overjet的Ai Wardah Inam在将AI引入牙科领域 Overjet是NVIDIA Inception的成员,正在迅速将AI引入牙科诊所。该公司的首席执行官Wardah…

Leave a Comment

head()和tail()函数的解释及示例和代码

头部和尾部函数是数据分析和编程中的重要工具,特别是在Python流行的pandas包的背景下。本文深入探讨了头部和尾部函数,以Python、R和其他相关编程语言的示例代码为例,展示了它们在不同数据分析场景中的重要性。 什么是head()函数? head()函数主要用于查看数据集的前几行。它帮助用户快速了解数据及其结构。分析人员可以通过显示初始记录来检查列名、数据类型和数据本身。head()函数在许多编程语言中都可用,包括Python和R。 什么是tail()函数? tail()函数提供了数据集最后几行的快速查看,就像head()函数一样。当处理大型数据集时,它特别有帮助,因为它使用户能够检查数据是否完整,并在数据集的末尾发现任何趋势或异常值。 Python中head()和tail()的示例(使用Pandas) import pandas as pd # 创建一个示例DataFrame data = {‘Name’: [‘Ankit’, ‘Bhavya’, ‘Charvi’, ‘Diya’, ‘Eesha’],         ‘Age’: [25, 30, 22, 28,…

Leave a Comment

“见面短GPT:一个强大的人工智能框架,用于自动化内容创作和简化视频制作流程”

在快节奏的数字内容创作世界中,效率和创造力至关重要。请见识ShortGPT,一个强大的框架,旨在自动化内容创作并简化视频制作流程。利用大型语言模型(LLMs)和尖端技术的能力,ShortGPT以前所未有的方式简化视频创作、素材获取、语音合成和编辑任务。 自动化编辑框架 ShortGPT的核心是一种创新的面向LLM的视频编辑语言,它是自动化编辑框架的支撑。该语言将编辑过程分解为可管理和可定制的块,使其能够被大型语言模型理解。这使得ShortGPT能够高效地生成脚本和提示,用于各种自动化编辑过程,为创作者提供即用资源。 多语言语音合成和内容创作 ShortGPT旨在支持多种语言,确保内容创作者的全球覆盖。ShortGPT的语音合成功能使创作者能够以他们偏爱的语言传递内容,打破语言障碍,触及全球各地的不同受众,从英语、西班牙语到阿拉伯语、法语、波兰语、德语、意大利语和葡萄牙语。 自动生成字幕和素材获取 字幕是视频内容的重要组成部分,提升可访问性和参与度。通过ShortGPT的自动字幕生成功能,创作者可以轻松地为他们的视频添加字幕,节省时间和精力。此外,ShortGPT从互联网上获取图像和视频素材,连接网络并利用Pexels API访问庞大的高质量视觉库。这个功能简化了找到相关素材的过程,进一步加快了内容创作流程。 无缝编辑的记忆和持久性 通过使用轻量级数据库TinyDB,ShortGPT确保了自动化编辑变量的长期持久性。这个特性使得框架能够记住用户的偏好和设置,实现在多个会话中无缝和一致的编辑体验。 与Google Colab的轻松实现 ShortGPT为那些喜欢无需在本地系统上安装先决条件的人提供了Google Colab笔记本选项。这个基于网络的界面是免费且随时可用的,使用户可以在不需要任何安装要求的情况下运行ShortGPT。 安装步骤和API集成 ShortGPT的详细安装指南提供了设置ImageMagick、FFmpeg和克隆存储库的逐步说明。此外,该框架与OpenAI和ElevenLabs的API集成,需要用户输入他们的API密钥以实现任务的顺利自动化。 可定制和灵活 ShortGPT的灵活性通过其各种引擎展现出来 – ContentShortEngine、ContentVideoEngine和Automated EditingEngine。创作者可以选择最适合其项目的引擎,无论是创建短视频还是更长的内容,或者需要可定制的编辑选项。 开源和不断发展 作为一个开源项目,ShortGPT积极鼓励社区的贡献。开发者们重视新功能、改进基础设施和更好的文档,以使ShortGPT始终处于AI内容创建的前沿。 ShortGPT是内容创作的颠覆者,通过AI自动化改变视频制作。其强大的框架、多语言支持、自动字幕和素材获取功能使创作者能够高效地制作引人入胜、高质量的内容。凭借用户友好的界面和持续的发展,ShortGPT承诺推动AI驱动的内容创作的未来,激发创造力并简化全球创作者的视频制作流程。

Leave a Comment

这篇AI论文展示了一种利用LLM而不是人类创造大量具有不同复杂程度的指导数据的方法

在开放领域指令遵循数据上训练LLM的结果是惊人的。然而,手动开发这种类型的指令数据需要时间和精力。此外,人类可能需要帮助创建高度复杂的指令。最近,许多自然语言处理(NLP)社区的努力集中在教导大型语言模型更好地理解和遵循指令。最近的研究表明,LLM也可能从教学中受益。因此,这种数据现在常规用于在开放领域训练和微调LLM。 Evol-Instruct是一种革命性的方法,使用LLM创建不同复杂度的大量指令数据;这是由微软和北京大学的研究人员团队开发的。该团队的WizardLM模型生成的指令在人类评估中得分高于人类创建的指令数据集。 Evol-Instruct流程分为三个阶段: 指令的演化 基于新开发的教育的响应的演化 消除的演化 为了从简单的种子指令生成更复杂的指令,Evol-Instruct可以执行深度演化(涉及五种操作之一:添加约束、加深、具体化、增加推理步骤和复杂化输入)或广度演化(基于给定的指令创建新的指令)。最后一个阶段,消除演化,作为一个过滤器来消除不良指令。 研究人员使用Evol-Instruct生成不同复杂度的指令。然后,他们将所有生成的指令数据合并起来,通过实证研究来微调LLaMA LLM并开发他们的WizardLM模型。WizardLM与ChatGPT、Alpaca和Vicuna等行业标准工具进行了评估。 研究人员主要得出以下结论: Evol-Instruct的指令优于人类开发的ShareGPT。使用相同数量的Evol-Instruct数据(即70k)微调LLaMA 7B时,WizardLM的表现比Vicuna高出12.4%(41.3%对28.9%)。 在面临困难的测试指令时,标注者对WizardLM的结果比对ChatGPT的结果更满意。在测试集上,WizardLM相比ChatGPT输了12.8%,胜率为28.0%对40.8%。然而,在测试集的高难度部分(难度级别8)中,WizardLM相对于ChatGPT的胜率高出7.9个百分点,为42.9%对35.0%。这表明该技术极大地增强了大型语言模型处理复杂指令的能力。 研究的作者通过评估高复杂性组件的人类评估结果,显示WizardLM模型的输出优于OpenAI ChatGPT的输出。结果显示,使用AI演进的指令进行微调是增强大型语言模型的潜在途径,即使WizardLM在某些方面仍落后于ChatGPT。源代码和输出数据都可以在https://github.com/nlpxucan/WizardLM上查看。 研究人员使用以下三个LLM作为起点: OpenAI创建了AI聊天机器人ChatGPT,以使对话变得自然和有趣。它基于从互联网等大量文本数据训练的LLM,如GPT-3.5和GPT-4。在人类训练员的监督下,使用监督学习和强化学习方法对ChatGPT进行微调。 Alpaca是斯坦福大学的一个倡议,旨在创建和传播一种免费的、由社区驱动的遵循指令的范例。该模型使用通过查询OpenAI的text-davinci003模型创建的52K个遵循指令实例开发,并建立在LLaMA 7B上,这是一个经过训练的大型语言模型,使用了多个文本来源。 Vicuna是一个开源聊天机器人,可以为用户提供人性化和有趣的回复。它基于LLaMA 13B,使用了来自ShareGPT的70K个用户共享对话数据进行微调。 研究人员使用ChatGPT来评估每个指令的复杂性和困难度,从而使他们能够更深入地了解指令演化过程。根据LLaMA模型许可,研究人员以增量权重的形式发布[WizardLM]权重。可以通过将增量添加到初始LLaMA权重来获得WizardLM权重。 研究人员使用人工指导评估集将Wizard的输出与人类评估者生成的输出进行比较。在Wizard和控制组之间进行了盲目的成对比较。作者的评估数据收集涵盖了许多以用户为中心的任务,从复杂的代码生成和调试到数学推理,复杂格式的推理,学术写作和广泛的学科。 这些结果表明,Evol-Instruct的AI演化指令方法可以极大地提高LLM性能,并使模型具备处理具有挑战性和复杂指令的能力,例如涉及数学计算、程序开发和逻辑思考的指令。

Leave a Comment

变分自编码器概述

介绍 变分自编码器(VAEs)是显式设计用于捕捉给定数据集的潜在概率分布并生成新样本的生成模型。它们采用了一个由编码器-解码器结构组成的架构。编码器将输入数据转换为潜在形式,解码器旨在基于这个潜在表示重构原始数据。VAE被编程为最小化原始数据和重构数据之间的差异,使其能够理解底层数据分布并生成符合相同分布的新样本。 VAEs的一个显著优势是它们能够生成类似于训练数据的新数据样本。由于VAE的潜在空间是连续的,解码器可以生成在训练数据点之间平滑插值的新数据点。VAEs在密度估计和文本生成等各个领域都有应用。 本文是数据科学博文马拉松的一部分。 变分自编码器的架构 一个VAE通常由两个主要组件组成:一个编码器连接和一个解码器连接。编码器网络将输入数据转换为低维的“秘密空间”,通常被称为“秘密代码”。 可以研究使用各种神经网络拓扑结构(如全连接或卷积神经网络)来实现编码器网络。所选择的架构基于数据的特性。编码器网络生成必要的参数,如高斯分布的均值和方差,以用于采样和生成潜在代码。 同样,研究人员可以使用各种类型的神经网络构建解码器网络,其目标是从提供的潜在代码中重构原始数据。 变分自编码器的架构示例:fen VAE包括一个编码器网络,将输入数据映射到潜在代码,并且包括一个解码器网络,通过将潜在代码转换回重构数据来进行逆操作。通过进行这个训练过程,VAE学习到了一个优化的潜在表示,捕捉了数据的基本特征,从而实现精确的重构。 关于正则化的直觉 除了架构方面,研究人员还对潜在代码应用正则化,使其成为VAE的重要元素。这种正则化通过鼓励潜在代码的平滑分布而防止过拟合,而不仅仅是简单地记住训练数据。 正则化不仅有助于生成在训练数据点之间平滑插值的新数据样本,还有助于VAE生成类似于训练数据的新数据。此外,这种正则化还防止解码器网络完美地重构输入数据,促进学习更一般的数据表示,增强VAE生成多样化数据样本的能力。 在VAE中,研究人员通过将Kullback-Leibler(KL)散度项纳入损失函数来数学表达正则化。编码器网络生成高斯分布的参数(如均值和对数方差),用于对潜在代码进行采样。VAE的损失函数包括计算学习到的潜在变量的分布与先验分布(正态分布)之间的KL散度。研究人员将KL散度项纳入损失函数中,以鼓励潜在变量具有与先验分布类似的分布。 KL散度的公式如下: KL(q(z∣x)∣∣p(z)) = E[log q(z∣x) − log p(z)] 总之,VAE中的正则化起着增强模型生成新数据样本的能力并减轻过拟合训练数据风险的关键作用。 VAE的数学细节 概率框架和假设…

Leave a Comment

OpenAI的信任与安全负责人辞职:对ChatGPT有何影响?

OpenAI,这家开创性的人工智能公司,正在发生重大变革,该公司通过创新技术(如ChatGPT)向世界介绍了生成式人工智能。在LinkedIn上的最新公告中,OpenAI的信任与安全负责人戴夫·威尔纳(Dave Willner)透露,他已辞去他的职务,现在将担任咨询顾问。这一离职正值关于生成式人工智能的监管和影响问题引起关注的关键时刻。让我们深入探讨戴夫·威尔纳的离职以及OpenAI和整个人工智能行业在确保信任和安全方面面临的挑战。 同时阅读:谷歌推出SAIF框架以提高AI模型的安全性 领导层变革 在担任信任与安全负责人一年半后,戴夫·威尔纳决定离开OpenAI的职位。他表示,他的决定是出于与年幼家庭共度更多时间的愿望。OpenAI对他的贡献表示感激,并表示他们正在积极寻找替代人选。在过渡期间,OpenAI的首席技术官米拉·穆拉蒂(Mira Murati)将临时担任责任。 生成式人工智能的信任与安全 生成式人工智能平台的崛起引发了人们的兴奋和关注。这些平台可以根据简单的用户提示快速生成文本、图像、音乐等。然而,它们也引发了关于如何监管这种技术并减轻潜在有害影响的重要问题。信任和安全已成为围绕人工智能讨论的重要方面。 同时阅读:希望、担忧和人工智能:消费者对人工智能工具态度的最新调查结果 OpenAI对安全和透明度的承诺 鉴于这些问题,OpenAI的总裁格雷格·布洛克曼(Greg Brockman)计划与知名科技公司的高管一起出席白宫,共同支持自愿承诺共享安全和透明度目标。这种积极的做法是在一项正在制定中的人工智能行政命令之前采取的。OpenAI认识到共同解决这些问题的重要性。 同时阅读:OpenAI引入超级对齐:为安全和一致的人工智能铺平道路 ChatGPT发布后的高强度阶段 戴夫·威尔纳关于离职的LinkedIn帖子没有直接提及OpenAI即将推出的新举措。相反,他集中关注他在ChatGPT发布后工作进入的高强度阶段。作为人工智能领域的先驱之一,他为OpenAI团队在他任职期间取得的成就感到自豪。 同时阅读:ChatGPT制定规则以自我约束 丰富的信任与安全专业背景 戴夫·威尔纳在信任与安全领域拥有丰富的经验。在加入OpenAI之前,他曾在Facebook和Airbnb担任重要职务,领导信任与安全团队。在Facebook,他在确立公司的初步社区标准立场、塑造其内容审查和言论自由方面起到了至关重要的作用。 同时阅读:OpenAI和DeepMind与英国政府合作推进人工智能安全和研究 对人工智能监管的迫切性增加 尽管他在OpenAI的任期相对较短,但威尔纳的影响力却很大。他的专业知识被用来确保OpenAI的图像生成器DALL-E的负责任使用,并防止滥用,如生成式人工智能儿童色情制品的制作。然而,专家警告说,时间紧迫,行业需要迅速制定健全的政策和法规,以应对生成式人工智能的潜在滥用和有害应用。 同时阅读:欧盟的人工智能法案将在人工智能监管方面设定全球标准,亚洲国家保持谨慎态度 我们的观点 随着生成式人工智能的进步,强大的信任和安全措施变得越来越重要。就像Facebook早期的社区标准塑造了社交媒体的发展方向一样,OpenAI和更广泛的人工智能行业现在面临着确保人工智能的道德和负责任使用的责任。共同积极地应对这些挑战将对培养公众的信任以及负责任地引领人工智能的变革潜力至关重要。

Leave a Comment

基于Transformer的LLM如何从其参数中提取知识

近年来,基于Transformer的大型语言模型(LLMs)因其捕捉和存储事实知识的能力而变得非常流行。然而,这些模型在推理过程中如何提取事实关联的方式仍然相对未被充分探索。谷歌DeepMind、特拉维夫大学和谷歌研究的研究人员最近进行了一项研究,旨在研究Transformer-based LLMs存储和提取事实关联的内部机制。 该研究提出了一种信息流方法,以调查模型如何预测正确属性以及内部表示如何在层之间演化以生成输出。具体而言,研究人员关注了仅有解码器的LLMs,并确定了与关系和主题位置相关的关键计算点。他们通过使用“去除”策略,在特定层次阻止最后一个位置与其他位置进行关注,并观察推理过程中的影响。 为了进一步确定属性提取发生的位置,研究人员分析了在这些关键点和前面的表示构建过程中传播的信息。他们通过对词汇表、模型的多头自注意力(MHSA)和多层感知机(MLP)子层和投影进行额外干预来实现这一目标。 研究人员确定了一种基于主题丰富过程和属性提取操作的属性提取内部机制。具体而言,在模型的早期层中,关于主题的信息在最后一个主题令牌中得到丰富,而关系传递给最后一个令牌。最后,最后一个令牌使用关系通过注意力头参数从主题表示中提取相应的属性。 这些发现揭示了LLMs内部存储和提取事实关联的机制。研究人员认为,这些发现可能为知识定位和模型编辑开辟新的研究方向。例如,该研究的方法可以用于确定LLMs获取和存储有偏见信息的内部机制,并开发缓解此类偏见的方法。 总的来说,这项研究强调了研究Transformer-based LLMs存储和提取事实关联的内部机制的重要性。通过了解这些机制,研究人员可以开发更有效的方法来改善模型性能并减少偏见。此外,该研究的方法可以应用于自然语言处理的其他领域,如情感分析和语言翻译,以更好地了解这些模型的内部运作方式。

Leave a Comment

2023年尝试的20个中途替代方案

Shutterstock.AI Shutterstock.AI 是一个易于使用的、由人工智能生成的图片创作和编辑平台。它得到了 OpenAI 和 LG 的支持,并使用了来自 Shutterstock 的图片,这些图片是包容性和道德性地收集起来的。用户可以在图片搜索功能中使用简单的词语和动词,也可以使用更详细的描述。情感化的语言和视觉信号,如摄像机风格和视角,也是可以讨论的。用户可以利用 Shutterstock.AI 的 Creative Flow 平台快速创建 AI 图片,并进行修改。这为个人从他们的想象中生成原创、个性化的图形铺平了道路。 Artbreeder Artbreeder 是一款革命性的由人工智能驱动的艺术创作工具。这里有一个蓬勃发展的人工智能艺术社区,人们可以分享他们的拼贴和拼接照片的创作。用户可以使用 Collager 工具快速构建由形状和图片组成的拼贴,并在回答问题时描述它。然后,Artbreeder 将使其栩栩如生,打开了一个视觉探索的世界,有机会创作自己的绘画、肖像和风景。Splicer 是一种通过组合和编辑现有照片来创建新照片的工具。用户可以通过关注他们来分享自己的作品并跟进他们最喜欢的艺术家。Artbreeder 被用来制作概念艺术、历史重建和音乐视频。有多种付费等级,从“免费”到“冠军”,每个等级都有自己的优惠,如上传和下载高分辨率图像和动画帧的能力。 Stablecog…

Leave a Comment

如果您只使用适量的未标记图像来训练一个线性层,您能否将您的仅视觉模型转换为VLM?通过跨模型对齐,我们介绍文本到概念(和反向)的方法

深度视觉模型使用的表示空间中充满了语义结构。然而,由于涉及的统计数据量巨大,人类很难理解这些深度特征空间。与深度模型不同,人类已经发展了语言,用来简洁地表示周围的世界,将概念编码为高维空间中的向量。 马里兰大学和Meta AI提出了一种方法,使用无需文本监督训练的现成视觉编码器将文本映射到概念向量,以便直接比较单词和图像的表示。该方法调整了视觉模型的表示空间,使其与CLIP模型的表示空间一致。CLIP表示空间旨在同时训练视觉和文本编码器。因此,文本到概念的文本编码器已经包含在CLIP模型中。 该方法学习了表示空间之间的映射,以利用商用可用模型的这种能力。更确切地说,研究人员通过最大化一个函数来推断出图像在现成视觉模型中的表示的CLIP表示。在将预包装模型的表示映射到CLIP之后,对于目标文本的概念向量,对齐的特征将存在于同一空间中。然而,映射函数可能会严重改变输入的语义。为了避免这种情况,他们确保映射的假设空间只存在仿射变换。尽管看起来缺乏复杂性,但研究团队发现线性层在实现不同体系结构和训练方法的模型之间的特征空间对齐方面意外地有用。 使用商用可用的文本到概念零射击分类器为该方法提供了强有力的支持。与CLIP模型相比,这些模型在许多任务上表现出惊人的零射击准确性,尽管它们体积更大,使用更多样本进行更丰富的监督,并且最重要的是,明确地专门与文本编码器对齐。 文本到概念的可解释性好处不仅限于免费的零射击学习,还包括将视觉编码器转换为无需概念监督的概念瓶颈模型(CBMs)。例如,研究团队将这种方法应用于RIVAL10数据集,该数据集包含属性标签,以确保零射击概念预测的准确性。通过提出的零射击方法,他们能够以很高的准确度(93.8%)预测RIVAL10的属性,从而获得了具有预期可解释性好处的CBM。 他们的论文还通过分析一组文本到概念向量和数据的对齐表示之间的相似性,展示了文本到概念可以以人类术语解释庞大数据集的分布。通过比较对易理解概念的变化来诊断分布偏移。基于概念的图片检索是另一种文本到概念的方法,它方便与庞大数据集进行交互。研究人员使用概念逻辑来查询满足一组概念相似度阈值的图像表示,使人类能够更多地影响搜索中每个概念的相对权重,并在庞大语料库中定位特定照片时得到可接受的结果。 最后,团队还引入了概念到文本,以直接解码模型表示空间中的向量,完成人机通信循环。他们使用现有的CLIP空间解码器和嵌入来指导GPT-2的输出,在将模型空间与CLIP对齐后。然后,他们利用人类研究来检查解码的标题是否准确解释了与每个向量相关联的类别。研究结果显示,在92%的测试中,他们的简单方法都是成功的。

Leave a Comment