Press "Enter" to skip to content

四海吧 Posts

“可识别但不可见:一种保护隐私的人物再识别方案(论文摘要)”

人员再识别(Person Re-ID)是一种先进的计算机视觉方法,可以更容易地通过不同地点和时间的监控摄像头来识别人员。尽管个人图像具有改善安全和公共安全的巨大潜力,但其使用存在着重大的隐私问题。由于根据数据隐私法律法规,个人图像被视为私人信息,因此这些问题需要隐私保护的解决方案。 现有的隐私保护人员再识别方法存在一定的局限性。传统的加密方法可以提供较强的隐私保护,但无法对加密数据进行计算。同态加密(HE)直接支持对密文进行计算,但不允许云服务器访问计算结果。此外,现有的浮点特征向量加密机制存在解码和计算错误的问题。 最近,发表了一篇新文章,提出一种名为FREED的新的隐私保护人员再识别解决方案。该系统将隐私保护的人员再识别定义为加密特征向量的相似性度量,使得云服务器可以在不泄露任何个人图像隐私的情况下执行再识别操作。 具体而言,FREED利用新的编码机制和安全批处理计算协议来加密浮点特征向量并有效地执行再识别操作。 FREED引入了三个关键组件来保护特征向量的隐私: 编码机制(ECMO)将浮点特征向量转换为整数,确保准确性并避免解码错误。 安全批处理乘法(BatchSMUL)协议高效计算加密特征向量的相似性度量,减少计算成本。 安全批处理部分解密(BatchPDec)协议安全地对相似性度量进行排序,实现准确的人员再识别,同时不泄露个人隐私。 通过这些组件,可以提供一个强大的隐私保护解决方案,用于人员再识别任务。 提出使用ECMO将浮点特征向量转换为整数,具有两个关键优势。首先,它消除了其他编码方法常见的解码错误。ECMO确保在加密和解密后更准确地检索原始特征向量,保留其准确性,并提高人员再识别的准确性。其次,与传统方法相比,这种转换为整数显著降低了计算错误率和加密成本。ECMO的更高效和精确的过程提高了方案的整体准确性和实用性,适用于实际应用。 通过对计算和通信开销方面的效率进行评估,测试表明ECMO相对于其他编码技术具有较低的错误率。同时还确定了控制参数设置。FREED提供了一种安全可行的人员再识别方法,相比先前的协议在计算和通信方面性能更好。 总之,本文介绍了FREED,一种新颖有效的隐私保护人员再识别解决方案。通过利用编码机制(ECMO)将浮点特征向量转换为整数,FREED解决了传统编码方法的局限性,提高了准确性并减少了计算和计算错误。安全批处理乘法(BatchSMUL)和安全批处理部分解密(BatchPDec)协议提高了系统的效率。通过广泛的实验评估,FREED在计算和通信方面展示了其有效性和效率,相比于MGN等方法,FREED为解决人员再识别中的隐私挑战提供了一种有希望的方法,同时保持了高准确性和实用性,适用于实际应用。

Leave a Comment

顶级人工智能内容生成器(2023)

由于人工智能(AI)的出现,文字内容创作发生了根本性的变化。越来越多的人使用AI内容生成器,因为它们可以快速有效地产生高质量内容。以下是目前最好的几款人工智能内容生成器: Jasper Jasper 是一个生成型AI平台,可帮助生成特定品牌的内容。它包含50多个模板,涵盖各种内容类别,从社交网络账号到产品描述不等。用户只需通过三个简单的步骤来创建内容:选择一个模板,填写必要的数据,如标题、语气和描述,修改输出参数,然后点击生成。 Rytr Rytr 是一款热门的AI写作助手。用户只需选择使用场景并提供上下文信息,Rytr 就会神奇地为他们写作。它可以在几秒钟内自动生成吸引人、独特、高效的作品,适用于各种语气和语言的博客、电子邮件和广告文案。 Copysmith Copysmith 是一款适用于创建简短材料(如标语、产品描述和广告文案)的AI内容生成器。Copysmith 根据使用情况生成材料。用户可以自动编辑、改进或延长短语,甚至可以生成批量内容。 Frase 借助 Frase AI,用户可以快速进行深入的关键词研究,创建高质量的SEO内容并进行优化。为了帮助文章排名更高,其内置的优化功能会根据SEO提供关键词建议。AI 写作工具使用户可以撰写几个短语,然后将其扩展为段落,或者可以使用它自动生成基于模板的完整文本。 Copy.ai Copy.ai 是一款基于AI的内容生成器,可以用多种语言为电子邮件、广告、社交媒体帖子等生成内容。用户可以选择符合要求的模板,比如Instagram标题、列表式文章或冷邮件,它将生成内容。虽然专业版每月售价36美元,包括所有功能和无限字数,但在某些功能受限的情况下可以免费使用。 Articoolo Articoolo 是一款基于人工智能的内容生成器,可以在几分钟内生成任何主题的文章。如果问题可以用两到五个词充分表达,它的系统可以根据用户选择的主题生成一篇长达500字的文章。 Article Forge…

Leave a Comment

2023年机器学习模型的顶级合成数据工具/初创公司

有意创建的信息,而不是实际事件的结果,被称为合成数据。合成数据是通过算法生成的,并用于训练机器学习模型、验证数学模型,并作为测试生产或操作数据测试数据集的替代。 使用合成数据的优点包括在使用私有或受控数据时减轻限制,根据无法满足准确数据的特定情况调整数据要求,并为DevOps团队生成用于软件测试和质量保证的数据集。 尝试复制原始数据集复杂性时的限制可能会导致差异。完全替代准确数据是不可能的,因为仍然需要准确的数据来生成实际的合成信息示例。 合成数据有多重要? 开发人员需要大量细致注释的数据集来训练神经网络。当神经网络具有更多多样化的训练数据时,通常更准确。 问题在于编制和确定可能包含几千到数千万个项目的数据集需要大量的工作,并且经常是不可承受的。 现在出现了虚假数据。AI.Reverie的联合创始人保罗·瓦尔博斯基认为,从标注服务中获取的一张图片可能需要6美元,但可以以6美分的价格合成生成。 节省金钱只是个开始。瓦尔博斯基继续表示,通过确保您拥有数据的多样性以准确反映现实世界,合成数据对于处理隐私问题和减少偏见至关重要。 合成数据集有时优于现实世界的数据,因为它们可以自动进行标记,并且可以有意地包含罕见但关键的边角情况。 合成数据初创公司和企业名单 Datagen 成立于2018年的以色列公司Datagen获得了2200万美元的资金,其中包括去年2月的1850万美元A轮融资,这是该公司的正式亮相。由于它主要专注于逼真的视觉模拟和自然世界的重建,尤其擅长人体运动,Datagen将其特殊风格的合成数据称为“模拟数据”。Datagen使用生成对抗网络(GANs),这是一种越来越常见的人工智能方法,与许多处理合成数据的其他企业一样。它类似于计算机棋局中的两个系统之间的游戏,但一个系统生成虚假数据,而另一个系统评估结果的真实性。该公司将GANs与称为强化学习人形动作技术和超级渲染算法的东西相结合,在物理模拟器中进行研究开发。 Datagen的目标行业包括零售、机器人技术、增强和虚拟现实、物联网和自动驾驶汽车。以一个Amazon Go店铺为例,它的计算机视觉系统监视购物者,以确保没有人带走任何物品。 Parallel Domain 模拟自动驾驶车辆的环境可能是当今最常见的应用案例之一。这是Parallel Domain的主要业务领域,这是一家成立于2017年的硅谷初创公司,我们之前已经对其进行了介绍。自那时以来,该公司已经筹集了大约1390万美元的资金,其中包括去年年底的1100万美元A轮融资。丰田可能是其最重要的支持者和客户。该公司致力于教育自动驾驶汽车如何避免伤害人员,为其合成数据平台专注于一些最具挑战性的用例。最近,该公司与丰田研究院合作开发了一种使用合成数据教授自主系统对象永恒性的方法。尽管由于Parallel Domain的影响,现在AI可以在物体暂时消失时仍然追踪物体,但当前的感知系统仍然像孩子玩捉迷藏一样。此外,该公司还向公众提供了用于完全注释的合成相机和LiDAR数据集的数据可视化工具。该公司为自动无人机交付和自动驾驶提供人工训练数据。 Mindtech 成立于2017年的英国公司Mindtech筹集了约650万美元的资金。就在上个月,该公司完成了325万美元的种子轮融资。其中一位著名的投资者是In-Q-Tel,这是一家美国政府组织,为具有帮助像CIA这样的组织的潜力的创新提供资金。因此,这就是它。Mindtech开发的模块化工具Chameleon允许用户使用逼真的3D模型即时创建无限数量的场景和情境。根据该公司的说法,Chameleon专门设计为帮助其客户开发“理解和预测人类互动”的AI系统。除了向间谍机构提供服务外,Mindtech还向零售、智能家居、医疗保健、交通运输和机器人技术行业提供产品和服务。 合成人工智能 2019年初创公司合成人工智能在四月份与iRobot(IRBT)进行了450万美元的种子轮融资,可能是为了推进其智能家居机器人吸尘器的发展。与Datagen一样,合成人工智能使用生成对抗网络(GAN)与计算机生成图像(CGI)技术,这种技术几乎应用于每一部现代电影中,用于构建合成人类。该公司的首款产品FaceAPI允许公司为智能助手、远程会议、驾驶员监控和智能手机面部验证创建更强大的人工智能面部模型。为了增强人工智能模型在代表各种面部类型方面的能力,合成人工智能在六月份发布了4万个原始高分辨率的3D面部模型。 Oneview OneView是一家以色列初创公司,成立于2019年,融资350万美元。该公司的主要目标是为从卫星和航空照片中生成地理情报的人工智能算法提供人工数据。这些视图经常涵盖地球上的大片区域,包括城市、机场、港口和其他建筑物。OneView使用开源数据映射服务OpenStreetMap的实际数据来创建合成数据集的基础模型。该公司只需将2D图像转换为多次渲染的3D图像,以模拟各种情况,包括对象、天气、光照等等。您可以在此处了解更多关于该过程的信息。…

Leave a Comment

顶级人工智能AI驱动的Chrome扩展程序

机器为您撰写的想法已经从科幻小说变成了现实,这要归功于人工智能技术的进步。今天,有几个互联网工具和应用程序可以立即生成从电子邮件到整个博客文章的一切。 许多甚至作为您Google Chrome浏览器的扩展功能,让您在浏览和书写时随时随地访问它们。 Chrome浏览器已经有超过180,000个扩展可用,并且许多扩展正在积极开发,随着每一轮更新的循环。Chrome商店上最好的扩展都是使用人工智能的扩展。 来看看这些AI驱动的Chrome扩展的精选,它们可能在各种任务中对您有很大帮助! Criminal IP:基于AI的钓鱼链接检查器 这是一个免费扩展,它使用AI进行实时扫描和分类,分为五个类别:安全、低风险、中等风险、危险和严重,从而防止钓鱼、勒索软件、恶意软件和欺诈。它包括一个“诈骗屏蔽”功能,可立即阻止恶意链接,并提供“预检查此链接”选项以验证链接的安全性。此外,它还提供了一个高级模式,用于检测隐藏的钓鱼企图和评估安全漏洞。 Grammarly Grammarly利用自然语言处理技术,为您访问的每个平台或浏览器页面提供支持。您可以检查抄袭,修复内容的语气,并确保您的工作在语法上是正确的。 HyperWrite HyperWrite是一个个人写作助手,为写作思路创造材料,极大地简化了作家的工作。该插件根据文本的内容,在您的句子中建议合适的词汇和短语。HyperWrite还在其网站上创建了一个文本到图像的部分,除了写作辅助功能。 Otter.ai otter.ai是转录会议、聊天和视频对话的最佳扩展。它使用机器学习系统和人工智能,可以即时转录任何视频、电话会议或会议。该机器进一步编辑此转录,创建无瑕疵的句子,并为每个发言者分割材料。 AnyPicker AnyPicker是从网页上抓取数据的理想工具,因为它是专为从网站上提取数据而设计的。利用AI模式识别引擎,该插件分析页面内容并将其转化为可读的形式。这项技术对于监视竞争对手企业的网站,保持对其策略、SEO甚至数据挖掘的了解至关重要。 ContentBot ContentBot是另一个类似于Grammarly的AI写作辅助插件。该扩展是一个内容作者和SEO专家,可以为您扩大博客的读者群体提供优质材料。该程序可以生成博客文章、广告文案和社交媒体更新。 Seamless.ai 为了编制、组织和管理业务潜在客户的联系人,需要付出很多工作。Seamless.ai是一个免费应用程序,用于建立列表、营销和创建组织的数据库,非常适合从任何社交网络资料中提取电子邮件和其他联系信息。 Atomic AI Atomic AI是一个程序,可以为您的论文、社交媒体帖子和邮件提供改动和评论的绝佳建议,以将您的书面材料转变为独特的内容。用户只需开始输入简短的短语,扩展将建议构建它们的最佳方法。 Jasper…

Leave a Comment

来自苏黎世联邦理工学院和微软的研究人员提出了X-Avatar:一种可以捕捉人体姿势和面部表情的可动态变换的隐式人类化身模型

姿势、眼神、面部表情、手势等,统称为“肢体语言”,一直是许多学术研究的课题。准确记录、解读和创建非言语信号可以极大地增强遥感、增强现实(AR)和虚拟现实(VR)环境中人物形象的逼真程度。 现有的最先进的人物形象模型,如SMPL系列中的模型,可以正确地描绘出逼真姿势中不同的人体形态。然而,它们受到其使用的基于网格的表示和3D网格质量的限制。此外,这类模型通常只模拟裸体,不包含服装和头发,从而降低了结果的逼真度。 他们介绍了X-Avatar,这是一种创新模型,可以在数字化人物形象中捕捉到人类表情的完整范围,以创建逼真的遥感、增强现实和虚拟现实环境。X-Avatar是由瑞士苏黎世联邦理工学院(ETH Zurich)和微软(Microsoft)研究人员开发的一种富有表现力的隐式人类人物模型。它可以捕捉高保真度的人体和手部动作、面部情绪和其他外貌特征。该技术可以从完整的3D扫描或RGB-D数据中学习,生成身体、手部、面部情绪和外貌的综合模型。 研究人员提出了一种部位感知的学习前向蒙皮模块,可以通过SMPL-X参数空间控制,实现X-Avatar的富有表现力的动画。研究人员提出了独特的部位感知采样和初始化算法,以有效地训练神经形状和变形场。研究人员通过一个纹理网络,根据位置、面部表情、几何形状和变形表面的法线来增强几何和变形场,以捕捉具有高频细节的人物外貌。这样可以提高细小身体部位的保真度,同时在关节骨骼数量增加的情况下保持训练的有效性。研究人员凭经验证明,该方法在动画任务上相对于强基线模型在数据领域和质量方面取得了更优秀的定量和定性结果。 研究人员提出了一个名为X-Humans的新数据集,其中包含来自20个受试者的233个高质量纹理扫描序列,共计35,500个数据帧,以促进对表达人物形象的研究。X-Avatar提供了一种以关节神经隐式表面为特征的人体模型,适应着穿着衣物的个体的多样拓扑结构,并实现了更好的几何分辨率和整体外貌的保真度。研究的作者定义了三个不同的神经场:一个用于使用隐式占据网络建模几何形状,另一个用于使用学习的前向线性混合蒙皮(LBS)建模变形,具有连续的蒙皮权重,第三个用于使用RGB颜色值建模外貌。 X-Avatar模型可以接受3D姿势扫描或RGB-D图像进行处理。其设计的一部分包括一个用于在规范空间中建模几何形状的塑形网络,以及一个使用学习的线性混合蒙皮(LBS)建立规范和变形区域之间对应关系的变形网络。 研究人员从SMPL-X的参数空间开始,这是一种捕捉全身人物形状、外貌和变形的SMPL扩展,特别关注手部位置和面部情绪,以生成富有表现力和可控的人类人物形象。以关节神经隐式表面来描述人体模型,代表着穿着衣物的个体的各种拓扑结构。同时,一种独特的部位感知初始化方法通过提高对细小身体部位的采样率,极大地增强了结果的逼真度。 结果表明,X-Avatar可以准确记录人体和手部姿势,以及面部情绪和外貌,从而可以创造出更具表现力和逼真的人物形象。这个倡议的团队衷心希望他们的方法可以激发更多的研究,赋予人工智能更多的个性。 使用的数据集 高质量纹理扫描和SMPL[-X]注册;20个受试者;233个序列;35,427个帧;身体姿势+手势+面部表情;各种服装和发型选择;各个年龄段 特点 有几种方法可以教授X-Avatars。 训练中使用的3D扫描图像,右上方。底部:测试姿势驱动的人物形象。 教学目的使用的RGB-D信息,顶部。测试姿势的人物形象表现较差。 该方法在动画测试中恢复了更好的手部灵活性和面部表情,超过了其他基线模型。这导致使用PyMAF-X从单眼RGB影片中恢复的运动进行动画化的X-Avatars。 限制 X-Avatar在模拟露肩上衣或裤子(例如,裙子)时存在困难。然而,研究人员通常只对每个主题训练一个模型,因此他们在单个个体之外的泛化能力仍然需要扩展。 贡献 X-Avatar是第一个全面捕捉身体姿势、手势、面部情绪和外观的富有表现力的隐式人类化身模型。 考虑底层结构的初始化和采样过程提高了输出质量并保持了训练效率。 X-Humans是一个全新的数据集,包含20个人的233个序列,总共有35,500帧高质量纹理扫描,显示了各种身体、手势和面部情绪。 X-Avatar在捕捉身体姿势,手势,面部情绪和整体外观方面无与伦比。研究人员使用最近发布的X-Humans数据集展示了该方法的效果。

Leave a Comment

谷歌DeepMind推出了NaViT:一种新的ViT模型,在训练过程中使用序列打包来处理任意分辨率和宽高比的输入

视觉变压器(ViT)因其简单性、灵活性和可扩展性而快速取代基于卷积的神经网络。图片被分割成补丁,并且每个补丁被线性投影到一个令牌上,构成了这个模型的基础。输入照片通常被划分为一组固定数量的补丁,然后再使用。 最近的研究发表了对这个模型的潜在改进:FlexiViT允许连续的序列长度范围,因此通过在单个设计中适应不同的补丁尺寸来计算成本。这是通过在每次训练迭代中随机选择补丁尺寸,并使用缩放技术来适应初始卷积嵌入中的多个补丁尺寸来实现的。Pix2Struct的替代补丁方法,保持了纵横比,对于图表和文档理解等任务非常有价值。 NaViT是谷歌研究人员开发的一种替代方法。Patch n’ Pack是一种技术,它允许在保持纵横比的同时改变分辨率,通过将来自不同图像的许多补丁打包到一个序列中。这个想法基于“示例打包”,这是一种在自然语言处理中使用的技术,通过将多个实例合并成一个序列来高效训练具有不同长度输入的模型。科学家们发现,随机采样分辨率可以显著减少训练时间。NaViT在广泛的解决方案范围内实现了出色的性能,便于在推理时平滑地权衡成本和性能,并且可以以较低的成本轻松适应新的任务。 从示例打包所实现的固定批次形状中出现了像保持纵横比的解析率采样、可变的令牌丢弃率和自适应计算等研究思路。 NaViT在预训练期间的计算效率尤为令人印象深刻,并在微调过程中持续存在。成功地将单个NaViT应用于不同的分辨率,可以在性能和推理成本之间实现平滑的权衡。 在训练和操作过程中将数据输入深度神经网络是常见的实践。因此,计算机视觉应用必须使用预定的批次大小和几何形状,以确保在现有硬件上获得最佳性能。由于这个原因和卷积神经网络固有的架构限制,将图像调整大小或填充到预定大小已经成为常见的做法。 虽然NaViT基于原始的ViT,但理论上可以使用任何可以处理补丁序列的ViT变种。研究人员对ViT进行了以下结构性改变以支持Patch n’ Pack。Patch n’ Pack是一种将序列打包应用于视觉变换器的简单方法,它显著提高了训练效率,这已经被研究界证明过。由此产生的NaViT模型具有灵活性,易于适应新的任务,而不会造成巨大的成本开销。自适应计算和提高训练和推理效率的新算法的研究只是Patch n’ Pack所带来的可能性的两个例子,而这些以前因需要固定的批次形式而受到限制。他们还认为NaViT对ViT来说是朝着正确方向迈出的一步,因为它代表了大多数计算机视觉模型的传统CNN设计输入和建模流程的改变。

Leave a Comment

DeepMind的一项新的人工智能研究提出了两种针对有向图的方向和结构感知的位置编码

Transformer模型最近越来越受欢迎。这些神经网络模型遵循顺序输入中的关系,比如句子中的单词,以学习上下文和含义。随着OpenAI提出的GPT 3.5和GPT 4等模型的引入,人工智能领域,特别是深度学习领域取得了巨大的进步,成为了热门话题。竞技编程、对话式问题回答、组合优化问题和图学习任务都将Transformer作为关键组件。 Transformer模型在竞技编程中用于根据文本描述生成解决方案。ChatGPT是一个著名的基于GPT的聊天机器人模型,也是一个备受喜爱的对话式问答模型,是Transformer模型的最佳例子。Transformer模型还被用于解决组合优化问题,如旅行推销员问题,并且在图学习任务中取得了成功,特别是在预测分子特性方面。 Transformer模型在图像、音频、视频和无向图等多种形式的模态中表现出了极高的灵活性,但是对于有向图的Transformer仍然缺乏关注。为了填补这一空白,一组研究人员提出了两种专门针对有向图设计的方向和结构感知的位置编码。磁性拉普拉斯是组合拉普拉斯的方向感知扩展,为第一个提出的位置编码提供了基础。所提供的特征向量捕捉了关键的结构信息,同时考虑了图中边的方向性。通过在位置编码方法中包含这些特征向量,Transformer模型更加关注图的方向性,从而成功地表示了有向图中的语义和依赖关系。 方向随机游走编码是第二种提出的位置编码技术。随机游走是一种探索和分析图的流行方法,模型通过在图中进行随机游走,并将游走信息融入到位置编码中,更多地了解有向图的方向结构。由于它有助于模型理解图内链接和信息流动,这种知识在多种下游任务中被使用。 研究团队表示,经验分析表明,方向和结构感知的位置编码在许多下游任务中表现良好。其中之一是排序网络的正确性测试,即确定一组操作是否真正构成排序网络。所提出的模型在排序网络的图表示中利用图的方向性信息,相对于Open Graph Benchmark Code2的先前最先进方法提高了14.7%。 研究团队总结了以下贡献: 建立了常用于Transformer的正弦位置编码与拉普拉斯特征向量之间的明确联系。 研究团队提出了扩展到有向图的谱位置编码,为位置编码中加入方向性信息提供了一种方式。 将随机游走位置编码扩展到有向图,使得模型能够捕捉到图的方向结构。 研究团队评估了结构感知位置编码在各种图距离预测中的预测能力,展示了其有效性。他们引入了预测排序网络正确性的任务,展示了方向性在该应用中的重要性。 研究团队量化了将程序语句序列表示为有向图的好处,并提出了一种新的源代码图构建方法,提高了预测性能和鲁棒性。 在OGB Code2数据集上取得了新的最先进性能,特别是在函数名预测方面,F1分数提高了2.85%,相对改进率为14.7%。

Leave a Comment

超越一致性:这个AI模型教会了扩散模型对鲁棒的文本到3D生成具备3D意识

文本到图像模型最近发展迅速,其中大部分进展都集中在文本到图像模型上。这些模型可以使用给定的文本提示生成逼真的图像。 图像生成只是这个领域研究的一个组成部分。虽然它是一个重要方面,但还有其他文本到其他模型在不同应用中起着关键作用。例如,文本到视频模型旨在根据给定的文本提示生成逼真的视频。这些模型可以显著加快内容准备过程。 另一方面,文本到3D生成已经成为计算机视觉和图形领域的关键技术。虽然仍处于初级阶段,但从文本输入生成逼真的3D模型的能力引起了学术研究人员和行业专业人士的极大兴趣。这项技术在革新各个行业方面具有巨大潜力,多学科的专家们正在密切关注其持续发展。 神经辐射场(NeRF)是一种最近引入的方法,它允许从一组2D图像或稀疏的3D点集合中高质量地渲染复杂的3D场景。已经提出了几种方法将文本到3D模型与NeRF相结合,以获得更加逼真的3D场景。然而,它们经常出现扭曲和伪影,并对文本提示和随机种子敏感。 特别是3D不连贯问题是一个常见问题,渲染的3D场景在不同视点上多次产生属于正面视图的几何特征,导致3D场景产生严重扭曲。这种失败是由于2D扩散模型对3D信息的缺乏意识,特别是相机姿态造成的。 如果有一种方法可以将文本到3D模型与NeRF的进步相结合,以获得逼真的3D渲染,那会怎么样?是时候见识一下3DFuse了。 3DFuse管道概述。来源:https://ku-cvlab.github.io/3DFuse/ 3DFuse是一种中间方法,它将预训练的具有3D意识的2D扩散模型与3D一致的NeRF优化相结合,使其适用于3D一致性的渲染。它有效地将3D意识注入预训练的2D扩散模型中。 3DFuse从采样语义代码开始,以加快生成场景的语义识别。这个语义代码实际上是生成的图像和给定的文本提示,用于扩散模型。一旦完成了这一步骤,3DFuse的一致性注入模块会接收这个语义代码,并通过为给定视点投影粗糙的3D几何来获得特定于视点的深度图。他们使用现有模型来实现这个深度图。然后,深度图和语义代码被用来将3D信息注入扩散模型中。 3DFuse概述。来源:https://ku-cvlab.github.io/3DFuse/ 问题在于预测的3D几何容易出现错误,这可能会改变生成的3D模型的质量。因此,在进一步进行管道之前,应该解决这个问题。为了解决这个问题,3DFuse引入了一种稀疏深度注入器,它隐式地知道如何纠正有问题的深度信息。 通过提取生成3D一致图像的扩散模型的分数,3DFuse稳定地优化了NeRF以实现视图一致的文本到3D生成。该框架在生成质量和几何一致性方面取得了显著的改进。

Leave a Comment

认识LMQL:一个用于大型语言模型(LLM)交互的开源编程语言和平台

大型语言模型风靡了人工智能社区。它们最近的影响帮助了医疗、金融、教育、娱乐等多个行业的发展。众所周知的大型语言模型,例如GPT、DALLE和BERT,执行了非凡的任务,改善了生活。DALLE 2可以根据简单的文本描述创建图像,GPT-3可以写出优秀的文章,完成代码,总结长篇文本段落,像人类一样回答问题,并仅凭一个简短的自然语言提示生成内容。这些模型正在帮助人工智能和机器学习迅速进行范式转变。 最近,一支研究团队推出了LMQL,一种开源的编程语言和语言模型交互平台。LMQL是Language Model Query Language的缩写,通过结合提示、约束和脚本,改进了大型语言模型(LLM)的能力。作为一种基于Python的声明性SQL语言,LMQL通过控制流、约束引导解码和工具增强,扩展了静态文本提示的功能。借助这种类型的脚本,LMQL可以用很少的代码简化多部分提示流程。 研究人员使用LMQL实现了LMP(Language Model Programming),将语言模型提示从纯文本提示扩展到文本提示和脚本的组合。LMQL从LMP提示中提取约束和控制流,生成高效的推理过程。这些超逻辑和高级约束通过一些评估语义转换为令牌掩码,并在生成过程中严格执行。 团队推出了LMQL,以避免重新查询和验证生成的文本所带来的高成本。这可以帮助LMQL在第一次尝试时生成更接近所需输出的文本,而无需后续迭代。此外,LMQL约束允许用户根据其期望的规范引导或控制文本生成过程,例如确保生成的文本遵循某些语法规则,或避免使用特定的单词或短语。 研究人员提到了LMQL如何捕捉一系列先进的提示方法,如交互式流程,这些方法在现有API中很难实现。评估结果显示,LMQL在许多下游任务上保持或提高了准确性,同时显著降低了计算或使用付费API的成本,节省了13-85%的费用。 LMQL可以简洁明了地表达各种常见和高级提示技术。它与Hugging Face的Transformers、OpenAI API和Langchain集成。相关的开发资源可在lmql.ai上获得,并提供基于浏览器的Playground IDE供实验使用。 总之,LMQL似乎是一个有前途的发展,因为评估表明,LMQL是一个强大的工具,可以提高语言模型编程的效率和准确性。它可以让用户在更少的资源下实现他们期望的结果。

Leave a Comment

“见面语义-SAM:基于用户输入,在任何所需的粒度上对图像进行分割并识别对象的通用图像分割模型”

人工智能近年来取得了巨大的进步。其中,大型语言模型的引入引起了广泛关注,因为它具有令人难以置信的模仿人类能力。这些模型不仅在语言处理方面取得了成功,还在计算机视觉领域取得了成就。尽管AI系统在自然语言处理和可控图像生成方面取得了显著成就,但包括通用图像分割在内的像素级图像理解领域仍存在一定的局限性。 图像分割是将图像分割为不同部分的技术,取得了很大的改进,但要创建一个能处理不同粒度的各种图像的通用图像分割模型仍在讨论中。在该领域取得进展的两个主要挑战是充足的训练数据的可用性和模型设计的灵活性限制。现有方法通常使用单输入、单输出的流水线,无法预测不同粒度的分割掩码并处理不同的细节级别。此外,扩展既具有语义知识又具有粒度知识的分割数据集是昂贵的。 为了解决这些限制,一个研究团队提出了Semantic-SAM,一种基于用户输入的通用图像分割模型,可以在任意所需的粒度上对对象进行分割和识别。该模型能够为对象和部分提供语义标签,并根据用户的点击预测不同粒度的掩码。Semantic-SAM的解码器架构采用了多选择学习策略,使模型具备处理多个粒度的能力。每个点击由多个查询表示,每个查询具有不同的嵌入级别。这些查询通过与不同粒度的真实掩码学习。 该团队分享了Semantic-SAM如何通过使用解耦的部件和对象分类策略来解决语义意识问题。该模型使用共享的文本编码器分别对对象和部件进行编码,从而实现不同的分割过程,并根据输入类型调整损失函数。这种策略确保了模型能够处理来自SAM数据集(该数据集缺少一些分类标签)以及来自通用分割数据的数据。 该团队结合了七个代表不同粒度的数据集,以增强语义和粒度,包括SA-1B数据集、部分分割数据集如PASCAL Part、PACO和PartImagenet,以及通用分割数据集如MSCOCO和Objects365。数据格式已重新调整以符合Semantic-SAM的训练目标。 经过评估和测试,Semantic-SAM表现出比现有模型更优异的性能。当与交互式分割技术(如SA-1B可提示分割和COCO全景分割)结合使用时,性能显著提高。该模型实现了惊人的2.3个框AP增益和1.2个掩码AP增益。在粒度完整性方面,它比SAM表现更好,超过3.4个1-IoU。 Semantic-SAM绝对是图像分割领域的创新进展。该模型通过融合通用表示、语义意识和粒度丰富性,为像素级图像分析创造了新的机会。

Leave a Comment

数据分析的前10个SQL项目

介绍 SQL(结构化查询语言)是一种强大的数据分析和处理工具,在数据科学中发挥着至关重要的作用,可以从大型数据集中提取有价值的见解。为了提高SQL技能并获得实践经验,真实世界的项目是必不可少的。本文介绍2023年数据分析的前十个SQL项目,为您提供在各个领域中锻炼SQL能力和有效解决实际问题的多样化机会。 前十个SQL项目 无论您是初学者还是经验丰富的数据专业人士,这些项目都将使您能够完善SQL专业知识,并对数据分析做出有意义的贡献。 销售分析 客户细分 欺诈检测 库存管理 网站分析 社交媒体分析 电影推荐 医疗保健分析 情感分析 图书馆管理系统 销售分析 目标 这个数据挖掘项目的主要目标是对销售数据进行深入分析,获取有价值的销售业绩见解,识别出现的趋势,并制定基于数据的业务策略,以改善决策能力。 数据集概述和数据预处理 数据集包含交易信息、产品详细信息和客户人口统计学数据,对于销售分析至关重要。在进行分析之前,需要进行数据预处理以确保数据质量。这包括处理缺失值、去除重复项和格式化数据以保持一致性。 用于分析的SQL查询 使用各种SQL查询可以有效进行销售分析。这些查询涉及销售数据的聚合、计算关键绩效指标(如收入、利润和销售增长)以及根据时间、地区或产品类别对数据进行分组。这些查询进一步促进了对销售模式、客户细分以及识别最佳销售产品或地区的探索。 关键见解和发现 销售分析为决策提供了有价值的可操作见解。它揭示了随时间变化的销售业绩趋势,找出了畅销产品或类别,并突出了表现不佳的地区。分析客户人口统计学数据有助于识别个性化营销策略的目标细分。此外,分析可能揭示季节性效应、销售与外部因素之间的相关性以及交叉销售和提升销售的机会。凭借这些见解,企业可以做出明智的决策,优化运营,推动增长和成功。 点击此处查看源代码。 客户细分…

Leave a Comment

遇见DISCO:一种新颖的人类舞蹈生成的AI技术

生成式人工智能在计算机视觉领域引起了广泛的关注。最近在文本驱动的图像和视频合成方面取得的进展,例如文本到图像(T2I)和文本到视频(T2V),借助扩散模型的出现,展示了卓越的保真度和生成质量。这些进展展示了相当大的图像和视频合成、编辑和动画潜力。然而,合成的图像/视频与完美仍有很大差距,特别是对于人类中心的应用,如人类舞蹈合成。尽管人类舞蹈合成有着悠久的历史,但现有方法在合成内容与真实舞蹈场景之间存在很大的差距。 从生成对抗网络(GANs)时代开始,研究人员尝试扩展视频到视频的风格转移,将舞蹈动作从源视频转移到目标个体,这通常需要对目标人员进行人员特定的微调。 最近的一系列工作利用预先训练的基于扩散的T2I/T2V模型,根据文本提示生成舞蹈图像/视频。这种粗粒度的条件极大地限制了可控性的程度,使用户几乎不可能精确指定预期的主题,即人类外观,以及舞蹈动作,即人类姿势。 虽然引入了ControlNet部分缓解了这个问题,通过将几何人体关键点的姿势控制与之结合,但由于其依赖于文本提示,ControlNet如何确保参考图像中丰富的语义一致性,如人类外观,仍然不清楚。此外,几乎所有现有方法都是在有限的舞蹈视频数据集上进行训练,要么具有有限的主题属性,要么具有过于简单的场景和背景。这导致对未见过的人物主题、姿势和背景组合的零样本泛化能力较差。 为了支持用户特定的短视频内容生成等实际应用,人类舞蹈生成必须符合真实舞蹈场景。因此,期望生成模型能够根据以下属性合成人类舞蹈图像/视频:保真度、泛化能力和组合性。 生成的图像/视频应通过保留与参考图像一致的人类主题和背景外观,同时准确遵循提供的姿势来展现保真度。该模型还应展示泛化能力,即在不需要人员特定微调的情况下处理未见过的人类主题、背景和姿势。最后,生成的图像/视频应展示组合性,允许从不同的图像/视频中选择任意组合的人类主题、背景和姿势。 在这方面,提出了一种新颖的名为DISCO的方法,用于在真实场景中生成人类舞蹈。该方法的概述如下图所示。 https://arxiv.org/abs/2307.00040 DISCO采用两个关键设计:一种具有分离控制的新颖模型架构,用于提高保真度和组合性,以及一种名为人类属性预训练的预训练策略,用于提高泛化能力。DISCO的新颖模型架构确保生成的舞蹈图像/视频能够忠实地捕捉所需的人类主题、背景和姿势,同时允许这些元素的灵活组合。此外,分离控制增强了模型维持忠实表示和适应多样组合的能力。此外,DISCO采用人类属性预训练策略增强模型的泛化能力。这种预训练技术赋予模型处理未见过的人类属性的能力,使其能够生成超越训练数据限制的高质量舞蹈内容。总体而言,DISCO提供了一个综合的解决方案,将复杂的模型架构与创新的预训练策略结合起来,有效解决了真实场景中人类舞蹈生成的挑战。 以下展示了生成的图像/视频以及与人类舞蹈生成的最先进技术的比较。 https://arxiv.org/abs/2307.00040 这是关于DISCO的摘要,一种生成人类舞蹈的新型人工智能技术。如果您感兴趣并想了解更多关于这项工作的信息,可以通过下面的链接找到更多信息。

Leave a Comment

40+ 你应该查看的酷炫人工智能工具(2023年7月)

DeepSwap DeepSwap是一个基于人工智能的工具,适用于任何想要创建令人信服的深度伪造视频和图像的人。通过重新面向视频、图片、表情包、旧电影、GIF等方式,创建您的内容非常简单。该应用程序没有内容限制,因此用户可以上传任何内容的材料。此外,您还可以首次成为产品的订阅用户,享受50%的折扣。 Docktopus AI Docktopus是一种由AI驱动的演示工具,通过100多个可自定义的模板简化在线内容的创建,让用户能够在几秒钟内创建专业演示文稿。 Promptpal AI Promptpal AI帮助用户发现获取AI模型(如ChatGPT)最大利益的最佳提示。 Quinvio AI Quinvio是一种AI视频制作工具,可以通过直观的编辑器、AI辅助写作和选择AI发言人的选项快速制作视频演示。 Ask your PDF AskYourPdf是一种AI聊天机器人,可帮助用户轻松与PDF文档进行交互并提取洞见。 Supernormal AI Supernormal是一种AI工具,可以自动创建会议记录,每次会议可节省5-10分钟。 Suggesty Suggesty由GPT-3驱动,为Google搜索提供类似人类的答案。 ChatGPT Sidebar ChatGPT Sidebar是一款ChatGPT…

Leave a Comment

“Skoltech和AIRI的研究人员开发了一种新的算法,利用神经网络在不同领域之间进行最优数据传输”

自从大规模的OT和Wasserstein GANs出现以来,机器学习越来越倾向于使用神经网络来解决最优传输(OT)问题。最近,OT计划被证明可作为具有可比实际任务性能的生成模型使用。OT成本通常被计算并用作生成模型中生成器更新的损失函数。 人工智能研究所(AIRI)和斯科尔科技学院合作开发了一种利用神经网络优化跨学科信息共享的新算法。该算法的理论基础使其输出更易于理解,而不像竞争方法那样需要耦合训练数据集,如输入-输出示例,这种新方法可以在输入和输出领域的不同数据集上进行训练。 大规模训练数据集很难获得,但对于面部或语音识别以及医学图像分析等应用构建的现代机器学习模型来说是必要的。这就是为什么科学家和工程师经常通过人工手段模拟真实世界数据集的原因。生成模型的最新进展大大提高了生成文本和图像的质量,因此这项工作变得更加容易。 神经网络被教导从配对的训练样本和输入-输出图像集泛化和扩展到新的输入图像;这对于需要处理许多质量不同的相同照片的工作非常有用。换句话说,生成模型通过合成来自不同数据的数据,促进了从一个领域到另一个领域的过渡。例如,神经网络可以将手绘图转换为数字图像,或者改善卫星照片的清晰度。 将概率分布与确定性和随机传输映射对齐是该技术的独特应用,它是一种通用工具。该方法将增强非配对翻译(图像恢复,域适应性等)以外的现有模型。与基于GAN或扩散模型的常见方法相比,该方法允许更好地控制生成样本的多样性水平,并提高了学习映射的可解释性。研究人员可能需要修改所获得的OT映射以适应非配对活动。研究人员强调了某些任务的运输成本设计作为一个潜在的研究领域。 最优传输和生成学习的交集是所选择方法的核心。娱乐、设计、计算机图形学、渲染等领域广泛使用生成模型和高效的传输。上述领域中的几个问题可能适用于该方法。可能的缺点是,一些图形业务中的职业可能会受到先前工具的使用的影响,这些工具使图像处理技术公开可用。 由于成本过高或获取困难,研究人员通常不得不使用不相关的数据集,而不是理想的匹配数据集。团队回顾了苏联数学家和经济学家列昂尼德·坎托罗维奇的著作,借鉴了他关于有效货物运输(最优传输理论)的思想,以开发一种在领域之间规划最优数据传输的新方法。神经最优传输是一种使用深度神经网络和分开的数据集的新方法。 在非配对领域转换评估中,该算法在图片风格化和其他任务上实现了比现有方法更好的结果。此外,它需要较少的超参数,通常很难调整,具有更可解释的结果,并且基于坚实的数学基础而不是竞争方法。

Leave a Comment

使用Polars数据操作库入门

介绍 众所周知,Pandas是Python的polars数据操作库。然而,它也有一些缺点。在本文中,我们将学习另一个用Rust编写的强大的Python数据操作库。虽然它是用Rust编写的,但它为我们提供了一个额外的Python程序包。这是使用Python开始使用Polars的最简单的方法,类似于Pandas。 学习目标 在本教程中,您将学习以下内容: Polars数据操作库的介绍 使用Polars进行数据探索 比较Pandas与Polars的速度 数据操作函数 使用Polars进行惰性评估 本文是作为数据科学博文马拉松的一部分发表的。 Polars的特点 它比Pandas库更快。 它具有强大的表达式语法。 它支持惰性评估。 它还具有内存效率。 它甚至可以处理大于可用RAM的大型数据集。 Polars有两个不同的API,即急切API和惰性API。急切执行类似于pandas,代码在遇到时立即运行,并立即返回结果。另一方面,惰性执行直到您需要开发为止才运行。惰性执行可以更高效,因为它避免运行不必要的代码。惰性执行可以更高效,因为它避免运行不必要的代码,这可以提高性能。 应用/用例 让我们来看一些该库的应用,如下所示: 数据可视化:该库与Rust可视化库(如Plotters等)集成,可以用于创建交互式仪表板和美观的可视化,以传达数据的见解。 数据处理:由于其支持并行处理和惰性评估,Polars可以有效处理大型数据集。还可以执行各种数据预处理任务,如数据清洗、转换和操作。 数据分析:借助Polars,您可以轻松分析大型数据集以获取有意义的见解并进行交付。它为我们提供了各种计算和统计计算的函数。还可以使用Polars进行时间序列分析。 除此之外,还有许多其他应用,例如数据连接和合并、使用强大的表达式语法过滤和查询数据、分析统计数据和总结等。由于其强大的应用,它可以在业务、电子商务、金融、医疗保健、教育、政府等各个领域使用。一个例子是从医院收集实时数据,分析患者的健康状况,并生成可视化,例如患某种疾病的患者的百分比等。 安装 在使用任何库之前,您必须先安装它。可以使用pip命令安装Polars库,如下所示:…

Leave a Comment

如何制作一份获胜的机器学习简历?

一份精心设计的简历可以成为您在机器学习领域解锁就业机会、获得梦想工作的敲门砖。本全面指南提供了战略优化您的机器学习简历以打动雇主的重要见解。学习如何撰写一份能够推动您职业成功和促进职业发展的机器学习简历。掌握有效的策略,突出您的技术专长,展示相关项目,并利用您的行业知识。 机器学习简历结构和格式 以正确的格式展示您的技能和经验对于确保您的机器学习简历脱颖而出至关重要。 结构 专业标题 简明的总结/目标陈述 技术技能 教育 工作经历 项目 认证和培训 出版物和演讲 奖项和荣誉 专业关系 参考人员 格式 考虑以下标准细节,以使您的人工智能和机器学习简历结构良好、整洁: 字体 字号 行距 对齐 文件类型 突出相关技能和知识 为了突出您在机器学习工程师简历中的相关技能和知识,包括以下关键词: 方面…

Leave a Comment

认识ImpressionGPT:基于ChatGPT的放射学报告摘要的迭代优化框架

随着数字文本信息在一般和医疗领域中的数量急剧增加,对有效和准确的文本摘要模型的需求也在增加。文本摘要涉及将一篇冗长的写作压缩成简明的概述,同时保留材料的意义和价值。这已经成为自然语言处理(NLP)研究的重点已经很长时间了。 引入神经网络和深度学习技术,特别是使用编码器-解码器结构的序列到序列模型进行摘要生成,已经传达出积极的结果。与基于规则和统计的方法相比,这些方法生成的摘要更加自然和上下文适用。由于需要保留这些结果的上下文和关联特征以及在治疗环境中精确度的要求,这一努力变得更加困难。 研究人员使用ChatGPT来总结放射学报告,并对其进行了改进。为了充分利用ChatGPT的上下文学习能力,并通过交互不断改进它,研究人员开发并实施了一种新颖的迭代优化方法,使用快速工程学。更准确地说,我们采用相似性搜索算法来构建一个动态提示,其中包含语义上和临床上可比较的现有报告。ChatGPT通过这些并行报告进行训练,以理解类似成像表现的文本描述和摘要。 主要贡献 相似性搜索使得能够使用稀疏数据对语言模型(LLM)进行上下文学习。通过识别语料库中最可比较的案例,开发了一个包含LLM最相关数据的动态提示。 我们为迭代优化技术创建了一个动态提示系统。迭代提示首先评估LLM生成的回复,然后在后续迭代中提供更多指导。 一种利用领域特定信息的新方法来调整LLM。建议的方法可以在需要快速和有效地从现有LLM开发领域特定模型时使用。 方法 变量提示 动态样本使用语义搜索来获取与输入放射学报告相似的报告语料库中的示例;最终查询由相同的预定义查询与测试报告的“发现”部分组成,任务描述描述了角色。 迭代优化 通过迭代优化组件可以完成一些很酷的事情。这种方法的目标是通过使用迭代提示使ChatGPT逐步改进其答案。对于放射学报告摘要等重要应用来说,这也需要一种响应审查过程来检查回复的质量。 通过基于少量训练样本和迭代方法改进输入提示来研究使用大型语言模型(LLMs)进行放射学报告摘要的可行性。通过挖掘语料库中的合适实例,以在上下文中学习LLMs,然后用于提供交互提示。为了进一步提高输出,使用了一种迭代优化技术。该过程包括根据自动评估反馈教授LLM什么是好的和负面的回复。与使用大量医学文本数据进行预训练的其他方法相比,我们的策略已经证明更优越。在现代通用人工智能中,这项工作也为构建更多领域特定语言模型奠定了基础。 在研究ImpressionGPT的迭代框架时,我们意识到评估模型输出回复的质量是一项重要但困难的任务。研究人员假设,用于训练LLMs的领域特定和通用领域文本之间的巨大差异导致了观察到的评分差异。因此,通过使用细粒度的评估指标来检查获得的结果的具体细节。 为了更好地包含来自公共和本地数据源的领域特定数据,我们将在未来继续优化快速设计,同时解决数据隐私和安全问题,尤其是在处理许多组织时。我们还考虑使用知识图谱来使提示设计适应当前的领域知识。最后,我们计划将医学专家(如放射科医生)纳入到优化提示和对系统提供的结果提供客观反馈的迭代过程中。通过结合人类专家在开发LLMs过程中的判断和观点,我们可以得到更精确的结果。

Leave a Comment

牛津研究人员提出Farm3D:一种能够通过提炼2D扩散来学习关节3D动物的AI框架,用于实时应用如视频游戏

生成式人工智能的惊人增长引发了图片生成方面的令人着迷的进展,利用DALL-E、Imagen和Stable Diffusion等技术,可以根据文本提示创建出色的图像。这一成就可能不仅局限于2D数据。最近DreamFusion展示了文本到图像生成器可以用于创建高质量的3D模型,尽管生成器缺乏3D训练,但有足够的数据来重建3D形状。本文阐述了如何通过文本到图像生成器获得更多,并获得多个3D物体类型的关节模型。 也就是说,他们不是试图创建单个3D资产(DreamFusion),而是希望创建整个类别的关节3D物体的统计模型(如牛、羊和马),该模型可以用于从单个图像(无论是真实的还是数字化的)创建可用于增强现实/虚拟现实、游戏和内容创作的动画化的3D资产。他们通过训练一个可以根据物体的单张照片预测关节3D模型的网络来解决这个问题。为了引入这样的重建网络,先前的工作一直依赖于真实数据。然而,他们提出使用使用2D扩散模型(如Stable Diffusion)生成的合成数据。 牛津大学视觉几何组的研究人员提出了Farm3D,它是DreamFusion、RealFusion和Make-a-video-3D等3D生成器的一个补充,这些生成器可以通过测试时间优化从文本或图像开始创建单个的3D静态或动态资产,需要数小时。这提供了几个优点。首先,2D图像生成器倾向于生成准确和完好的物体类别示例,从而隐式地筛选训练数据并简化学习过程。其次,通过2D生成器隐含地提供了每个给定物体实例的虚拟视图,进一步提供了对理解的澄清。第三,它通过消除收集(可能还需要审查)真实数据的要求,增加了方法的适应性。 在测试时,他们的网络以前馈方式从单张图像中进行重建,仅需几秒钟即可生成可操作的关节3D模型(例如,可以进行动画化、重新照明),而不是固定的3D或4D工件。他们的方法适用于合成和分析,因为重建网络仅在虚拟输入上进行训练,但能够推广到实际照片。可以将该方法应用于动物行为的研究和保护。Farm3D基于两个重要的技术创新。首先,他们展示了如何通过快速工程使Stable Diffusion产生大量通常干净的物体类别图片,以学习关节3D模型。其次,他们展示了如何将得分蒸馏采样(SDS)损失扩展到合成多视图监督,以训练照片几何自编码器,即MagicPony。为了创建同一物体的新人工视图,照片几何自编码器将物体分成多个方面,这些方面有助于图像形成(例如物体的关节形状、外观、相机视点和照明)。 这些合成视图被输入到SDS损失中,以获得渐变更新和反向传播到自编码器的可学习参数。他们对Farm3D进行了基于3D生成和修复能力的定性评估。由于Farm3D能够进行重建和创建,因此可以在语义关键点传输等分析任务上进行定量评估。尽管该模型不使用任何真实图像进行训练,从而节省了耗时的数据收集和筛选过程,但他们展示了与各种基准相当甚至更好的性能。

Leave a Comment

释放创造力:探索生成式AI艺术应用

介绍 生成式人工智能(Generative AI)是人工智能的一个分支,为艺术创作开辟了新的可能性。通过利用机器学习算法,生成式人工智能可以生成独特而引人入胜的艺术作品,从而革新了创作过程。我们将深入探讨生成式人工智能在各种艺术领域的应用,展示它如何改变传统方法并释放出无与伦比的创造力。 本文是作为“数据科学博文马拉松”(Data Science Blogathon)的一部分发表的。 音乐创作 生成式人工智能在音乐创作方面取得了重要的进展,能够生成原创的旋律、和声和节奏。使用循环神经网络(RNNs)或变换器模型,生成式人工智能算法从现有的音乐作品中分析模式和风格,创作出全新的音乐作品。这种创新的方法使音乐家可以探索新的音乐领域,尝试独特的声音,并创作出超越传统流派的作品。 下面的代码片段演示了使用Python库“magenta”进行音乐生成算法的简化示例。 import magenta # 载入预训练的音乐生成模型 model = magenta.models.melody_rnn.MelodyRnnModel() # 生成新的旋律 generated_melody = model.generate() # 播放或保存生成的旋律 generated_melody.play() generated_melody.save(‘generated_melody.mid’)…

Leave a Comment