Press "Enter" to skip to content

四海吧 Posts

认识一下Cheetor:一种基于Transformer的多模态大型语言模型(MLLMs),它能够有效处理各种交织的视觉语言指令,并实现最先进的零样本性能

通过以教学风格对语言任务组进行指导调优,大型语言模型(LLMs)最近展示了出色的多样化活动通用模型的能力。指导调优通过在单一指导-回应格式中微调各种任务,为LLMs在新任务指令上实现了大量的零-shot泛化能力。由于在众多实际应用中具有长期的目标,这一结果引发了对将纯文本指令跟随模型扩展到多模态模型的新一轮研究热潮。为了实现这个目的,Flamingo和BLIP-2为LLMs提供了冻结的视觉编码器以理解视觉输入。通过对多模态指导跟随数据集进行微调,LLaVA、MiniGPT-4和InstructBLIP进一步增强了模型的指令跟随能力。 由于多模态大型语言模型(MLLMs)主要集中在仅包含单张图片作为视觉背景并且指令多样性有限的视觉-语言指令上,这些指令跟随助手的可用性受到了限制。相比之下,人们在现实生活中通常通过一系列相关的信息和视觉元素来表达他们的需求。例如,人们可能需要模型参考多个来源的多模态知识(如视觉吸引人的网站、教科书和课堂幻灯片)来回答开放领域的问题。这些多个参考和查询所代表的是交错的视觉-语言指令,其中包含了多个语义相关的图片和文本。 来自浙江大学、新加坡国立大学和南洋理工大学的研究人员开发了I4(语义互连、交错的图像-文本指令跟随),这是一个包含31个任务的大规模基准测试,涵盖了20个不同场景,以帮助研究交错的视觉-语言指令跟随。I4具有三个关键特点:(1)指令由相互关联的图片和文字序列组成,例如带有脚本的故事板和带有图表的教科书。这被称为交错的视觉语言上下文。(2)有很多复杂的指令,任务范围从对话式的实体活动到识别监控照片中的差异到预测漫画的对话。(3)该基准测试涵盖了各种指令跟随场景,包括卡通、商业图像、驾驶镜头、食谱指令等。他们利用建议的基准测试系统地评估了现有的MLLMs,并发现它们需要帮助来执行如此复杂的多模态指令。他们认为视觉提示生成器(VPG)对于MLLMs理解复杂指令至关重要,尽管现有的MLLMs主要集中在构建更多样化和高质量的指导调优数据的复杂方法上。现有方法提出了几种VPGs(如线性投影、重采样器和Q-former),以从包含在视觉骨干(如ViT)中的丰富图片信息中提取相关的视觉线索,以调整LLMs以理解视觉输入。 通过挑战冻结的LLM,在视觉线索的条件下生成标题,他们训练了VPG与数百万个图像-标题配对。尽管高效,网络爬取的标题通常只描述图像的一小部分前景。因此,由于只教授提取典型标题的显而易见信息,VPG可能无法提取某些活动所需的精确信息。此外,在I4中,由于任务要求VPG关注上下文中其他图像的特定视觉细节(例如传达两张照片之间的微小差异),这个问题变得更加严重。 他们提出了一个轻量级的可控知识再注入(CLORI)模块,利用LLMs的复杂推理能力来控制VPG(即Q-former),以重新提取与指令特定语义有关的缺失视觉信息,以解决现有MLLMs中VPG的关键问题。更具体地说,他们使用Q-former提供与任务无关的视觉线索,为LLM提供关于图片的重要信息。他们首先从语言模型中构建指令特定条件来控制Q-former,并有条件地从图片中提取特定的信息。然后将这些条件带入LLM中。通过使用内部交叉注意力图,他们首先确定Q-former在图片中主要忽略的区域。然后,他们使用ChatGPT和SAM来识别编辑目标并生成正确的编辑描述。接下来,根据编辑指令对原始图像进行局部调整,使用混合扩散生成对抗性图像。然后,开发了一个图像间的区别判别预训练任务,描述了创建的对抗性图像与原始图像之间的微小差异。由于修改的位被选自最被忽视的位置,CLORI模块必须基于对抗性图像和任务指令提取缺失的视觉信息。 他们建议使用Cheetor,这是一个基于Transformer的多模态语言理解模型,通过可调的知识重新注入,能够成功地从各种复杂的视觉语言指令中创建整体语义。轻量级的CLORI模块可以使用少于100万个图像-文本配对的CAGIT技术进行高效调优。在单个A100 GPU上,只需几个小时即可完成,无需庞大的多模态指令调优数据。与以往的多模态语言理解模型相比,他们的模型在具有挑战性的I4基准测试中表现更好,并且计算和数据效率更高。此外,他们还使用MME基准测试评估了Cheetor,模型表现出色。 他们的贡献总结如下:(1) 他们构建了I4,一个包含31个挑战的全面的交叉视觉-语言指令基准测试,涵盖了各种真实世界的场景。(2) 他们提供了一个最小控制的知识重新注入(CLORI)模块,针对LLM生成的情况,将指令特定的视觉信息补充重新注入到LLM中。(3) 仅使用30k张图片,他们成功地教会了CLORI模块,使用了交叉注意力引导的反事实图像训练技术。(4) 他们的Cheetor在具有挑战性的I4测试中取得了最先进的性能,只需7个A100 GPU小时,即使没有高质量的多模态指令调优数据。

Leave a Comment

Meta AI的鲸鱼!通过指导反向翻译实现LLMs的自对齐,引起轰动!

大型语言模型(LLMs)展现出出色的泛化能力,如上下文学习和思维链推理。为了使LLMs能够遵循自然语言指令并完成现实世界的任务,研究人员一直在探索LLMs的指令调整方法。这是通过对模型进行微调,在各种函数上使用人工注释的提示和反馈或使用公共基准和数据集进行监督微调,以及手动或自动生成的指令进行数据增强。最近的研究强调了人工注释数据质量的重要性。然而,发现注释遵循此类质量数据集的指令很难扩展。 这个解决方案涉及到与LLM的自我对齐,即利用模型来改进自身,并使其响应与期望的行为(如模型编写的反馈、批评、解释等)保持一致。Meta AI的研究人员引入了自我对齐与指令反向翻译。基本思想是通过大型语言模型自动为Web文本标注相应的指令。 自训练方法假设可以访问基础语言模型、一组未标记的示例(例如Web语料库)和少量种子数据。这种方法的第一个关键假设是,这些大量人工编写的文本中的某些部分将对某些用户指令进行黄金生成。第二个假设是我们可以预测这些响应的指令,这可以用来使用高质量的示例对训练一个遵循指令的模型。 整个指令反向翻译可以分为以下步骤: 自我增强:为未标记的数据(即Web语料库)生成“好的指令”,以产生(指令,输出)对的训练数据,用于使用大型语言模型Meta AI(LLaMA)进行指令调整 自我创建:对使用LLaMA生成的数据进行评估 然后,使用改进的模型对LLaMA进行微调,并迭代该过程。结果训练的基于Llama的指令反向翻译模型被称为“Humpback”(因为鲸鱼相对于骆驼具有大规模的特性)。与Claude、Guanaco、Falcon-Instruct、LIMA等现有的非蒸馏模型相比,“Humpback”在Alpaca排行榜上表现出色。 当前方法的缺点是增强数据是从Web语料库中获取的,因此微调的模型可能会强调Web数据的偏见。总之,这种方法保证我们永远不会用尽训练数据,进一步为对大型语言模型进行指令跟随的微调提供了可靠的可扩展方法。未来的工作将通过考虑更大的未标记语料库来进一步扩展这种方法,这可能会带来进一步的收益。

Leave a Comment

IBM的’类脑’人工智能芯片承诺绿色高效的未来

在一项令人兴奋的进展中,科技巨头IBM推出了一款“类脑”芯片的原型,这可能彻底改变人工智能(AI)领域。随着对高能耗AI系统环境影响的担忧日益增长,这一创新可能是朝着更节能和可持续的AI技术迈出的重要一步。这款开创性芯片从人脑复杂的连接中汲取灵感,有望重新塑造各种平台上的AI系统。 还阅读:IBM和NASA联手创建地球科学GPT:解码地球的奥秘 更环保的AI即将到来 IBM的原型芯片承诺大幅提高AI的能源效率。随着对高能耗AI基础设施所产生的碳排放的担忧不断升级,这款创新芯片带来了一线希望。该芯片的设计灵感来自人脑在实现高性能时消耗最小功率的卓越效率。这一突破可能为不仅先进而且环保意识到的AI技术铺平道路。 还阅读:人工智能技术如何改变回收行业? 模拟人类连接 这个原型芯片的核心是一种革命性的方法:使用被称为记忆电阻器的组件,其工作原理类似于人脑内部的连接。与依赖二进制数据存储(0和1)的传统数字芯片不同,基于记忆电阻器的芯片可以存储一系列值,就像我们的大脑处理信息的复杂方式一样。这种“模拟”方法可能导致更好地模拟人类认知的AI系统。 还阅读:人工智能与人类智能:7个主要差异 利用自然启发的计算 来自萨里大学的Ferrante Neri教授解释说,基于记忆电阻器的方法属于自然启发的计算范畴。这个领域旨在模拟人脑的功能。记忆电阻器“记住”电历史的能力类似于生物系统中突触的行为。相互连接的记忆电阻器可能产生与人脑运作方式非常相似的网络。 面临的挑战和机遇 虽然类脑芯片的前景具有巨大潜力,但专家们敦促谨慎行事。Neri教授指出,实现基于记忆电阻器的计算机是复杂的,其中包括材料成本和制造复杂性等挑战。尽管存在困难,他仍持谨慎乐观态度,暗示类脑芯片的出现可能在不久的将来。 还阅读:Nvidia发布了一款改变游戏规则的AI芯片,以提升生成AI应用程序的速度 AI生态系统的绿色化 IBM的芯片提供了高能效和与现有AI系统的兼容性。这种创新可以延长电池寿命,并为智能手机到汽车等新应用提供支持。此外,如果大规模集成,这些芯片可以显著降低数据中心的能耗和冷却所需的水量。 还阅读:NVIDIA的AI将拯救地球免受气候变化的影响 我们的观点 在全球努力迈向更可持续未来的过程中,IBM的原型芯片的潜力闪耀着光芒。尽管在广泛应用之路上仍面临挑战,但这一创新为可持续和更高效的AI技术奠定了基础。随着持续的研究和发展,可能性令人心动,展示了一个AI和可持续发展和谐共存的未来。

Leave a Comment

2023年最佳音乐制作AI工具

从创作新音乐到设计专辑(或杂志)封面,人工智能已经开始对艺术家作品的发展和推广产生深远影响。新的人工智能制作工具的出现可以极大地帮助独立音乐家,开拓新的探索途径并减少制作时间。人工智能音乐技术可以通过元分析生成新的音乐,并通过多个神经网络揭示曲目组合的模式。当给予足够的数据时,这些技术可以学习模仿音乐中的个体实践,并帮助创作者创作原创作品。 以下是一些用于音乐制作的最佳基于人工智能的工具: MAGENTA STUDIO(V1.0) 谷歌发布了一个名为Magenta Studio的免费人工智能音乐创作工具。它是一套音乐制作工具,适用于Windows和Mac电脑,并可作为Ableton Live的插件使用。借助这个工具包,您可以使用Magenta的神经网络将简单的旋律或小节转变为您喜欢的任何风格的完整乐曲。该网站的布局美观简洁,与竞争设计相比更加直观。下载后,您可以选择五个程序:Continue是一个音乐变换工具,可以为现有的MIDI文件添加新的声音。Drumify通过假设旋律或低音线生成鼓填充。Generate类似于音乐的随机数生成器,因为它经过了对数百万首歌曲的训练。Groove使用Magenta检查鼓录音,并调整节奏,创造出更加自然、人性化的声音。最后,还有Interpolate,这是一种组合,可以创造出连接两个MIDI旋律轨道的声音。 WavTool WavTool是一款由人工智能驱动的程序,为音乐制作人提供了一个免费的基于Web的环境。该工具旨在提供具有高质量的音乐制作功能,包括侧链压缩、复杂的合成和可适应的信号路由。WavTool还有一个名为Conductor的功能,为新手提供简单的英文指令,并提供和弦建议、节拍创建和旋律生成等帮助。由于人工智能可以理解概念并提供建议,创作音乐现在变得轻而易举。WavTool与用户一起发展,添加插件修改和信号路由等功能,为音乐创作提供了全套工具。WavTool是一个综合性的程序,允许用户在不下载、安装或更新任何额外软件的情况下录制、创作、制作、混音、母带处理和导出音频。它提供了简单直观的界面,无需设置或等待,并包含了用户开始制作音乐所需的一切。每个人都可以免费无限制地使用这个工具,并且有社交媒体选项可获取帮助和分享创意。 BOOMY Boomy是一个由人工智能驱动的生成式音乐平台,用户可以通过流媒体服务制作并分享自己的音乐。该服务“通过为用户提供一个平台来获得知识、教授他人,并有机会从世界分享的音乐作品中获利”。该服务利用复杂的人工智能算法以各种格式生成和修改音乐。预设的流派包括电子舞曲、说唱节拍、Lo-Fi和全球花园供用户选择。数字音频工作站可以根据用户的口味提供独特的声音。与流行的流媒体平台实现“无缝集成”,这意味着即使是业余音乐家也可以吸引全球观众,并通过分发选项从中获利。Boomy的人工智能通过“自下而上”的方法来训练系统从零开始生成有机的作品,在避免教授受版权保护的音乐方面表现出色。 AIVA AIVA是一款由人工智能驱动的音乐创作软件,可以从头开始创建定制的乐谱。它适用于喜欢超越传统的思维方式的人,无论是经验丰富的音乐家还是刚刚进入游戏行业的人。通过利用人工智能生成的音乐的力量,AIVA缩短了作曲家为项目开发引人入胜的主题所需的时间。该程序为作曲家提供了各种音乐可能性,包括现代电影、电子音乐、流行音乐、环境音乐、摇滚乐、幻想音乐、爵士乐、海上民谣、20世纪电影音乐、探戈和受中国影响的作曲。AIVA提供三种不同的定价方案,让用户根据个人、学校或企业的需求选择最佳方案。专业版用户每月可以下载300首歌曲,并且可以收听长达5分钟的曲目。通过专业订阅,作者可以无限制地分发和从作品中获利。总之,AIVA为内容创作者和作曲家提供了一个聪明且省时的解决方案,解决了原创、个性化作曲的问题。 Orb Producer 3 制作高质量的音乐模式和循环从未如此简单,Orb Producer 3 是由人工智能驱动的插件套装。Orb Melody、Orb Bass、Orb Arpeggio 和 Orb…

Leave a Comment

接受挑战:GeForce NOW以终极挑战和首个贝塞斯达游戏点燃云端之火

早上好,是时候醒来了——GeForce NOW Ultimate KovaaK’s挑战赛今天在QuakeCon游戏节上开始了,让玩家有机会以每秒240帧的超高流媒体进行游戏,发挥他们的最大潜力。除了获得荣誉外,最高分者还有机会赢得一些甜蜜的奖品,包括一台240Hz的游戏显示器。 Bethesda屡获殊荣的游戏《毁灭战士:永恒》、《雷神之锤》、《德军总部:新秩序》、《德军总部2:新巨像》和《德军总部:幼年之血》本周加入GeForce NOW游戏库,共有21款新游戏加入。 此外,Baldur’s Gate 3也受到会员们的喜爱。今天升级至Ultimate和Priority会员,可以跳过免费会员的等待排队,更快地开始游戏。 极致的力量,极致的胜利 警告:GeForce NOW Ultimate会员的效果如此出色,玩家再也不能将失败归咎于硬件。 为了庆祝Ultimate升级的完成,GeForce NOW给了每个人体验Ultimate会员的全部力量和240帧云游戏的机会,通过Ultimate KovaaK’s挑战赛。看看从GeForce RTX 4080游戏设备上进行的流媒体如何彻底改变游戏。 来吧,试试看! GeForce NOW与受欢迎的瞄准训练器KovaaK’s合作,在PC和macOS的GeForce NOW应用中创建了一个定制的演示。免费会员和Priority会员可以流式传输演示,然后免费升级到240帧的GeForce NOW Ultimate,立即体验到显著的性能提升。会员们会收到一封邮件,告知他们的免费一天升级已经可用,并确保他们的设备设置为挑战做好了优化。 在一天的升级期间,玩家可以无限次地重播演示,并在挑战排行榜上与其他GeForce…

Leave a Comment

这项AI研究提出了Strip-Cutmix:一种更适用于人员再识别的数据增强方法

在计算机视觉中,人物再识别是当今互联世界中的一项重要追求。它涉及在不理想条件下跨不同摄像机视图识别个体的挑战性任务。然而,要实现准确的再识别模型,需要大量多样化且标记完整的数据。这就是数据增强的重要性所在。数据增强技术可以提高可用数据的质量和数量,使模型能够学习到强大的特征并适应各种场景。 在文献中,人物再识别采用了各种数据增强方法。包括随机擦除、随机水平翻转、遮挡样本生成、具有不同光照条件的虚拟图像创建,甚至涉及生成对抗网络(GANs)的方法。然而,像Cutmix和mixup这样可以生成高质量图像的方法,由于难以将它们适应人物再识别的三元组损失框架,很少被使用。 最近,中国的一个研究团队发表了一篇新论文,介绍了一种将Cutmix数据增强方法应用于人物再识别的解决方案。作者将常用的三元组损失扩展为处理十进制相似性标签,优化图像相似性。他们还提出了Strip-Cutmix,一种适用于人物再识别的增强技术,并提供了在该领域中有效应用该技术的策略。 具体而言,该论文调整了三元组损失和cutmix以解决这个挑战。Cutmix涉及将一幅图像的部分粘贴到另一幅图像上以创建一个新的图像。尽管常用,但由于cutmix生成的十进制相似性标签与其不兼容,它在人物再识别中很少被使用。 为了解决这个问题,作者修改了三元组损失以适应十进制相似性标签,并允许cutmix与三元组损失同时使用。修改后的三元组损失根据目标相似性动态调整优化方向。此外,三元组损失的决策条件被重写以与目标相似性标签对齐。 具体而言,作者扩展了三元组损失以处理十进制相似性标签,在再识别背景下使用cutmix。Cutmix通常将图像的一部分裁剪并粘贴到另一幅图像上,以创建一幅新的组合图像。然而,原始的三元组损失在人物再识别的度量学习中起着重要作用,但它在cutmix生成的十进制相似性标签上存在困难。 为了克服这个挑战,作者动态修改了三元组损失的优化方向以处理十进制标签,使其与cutmix和原始三元组损失兼容。他们还引入了Strip-Cutmix,将图像分成水平块,利用个体的相似特征通常在图像之间的对应位置上找到的事实。这种方法提高了生成图像的质量,并为三元组损失提供了更好的边界条件。Strip-Cutmix与标准cutmix不同之处在于强调基于位置的混合和图像块,使其可以获取组合图像之间的相似性标签。 在实践中,该解决方案涉及: 修改三元组损失以处理十进制标签。 引入Strip-Cutmix技术。 确定在训练过程中应用Strip-Cutmix的最佳方案。 进行了实验研究,以评估所提出方法的有效性。实验在Market-1501、DukeMTMC-ReID和MSMT17数据集上进行。使用平均平均精度(mAP)和累积匹配特性(CMC)进行评估。 研究人员选择了ResNet-50作为骨干网络。结果显示,该方法优于其他方法,在ResNet-50和RegNetY-1.6GF骨干网络上取得了最佳结果。此外,该技术表现出对过拟合的抵抗力,达到了最先进的性能。总体而言,该方法在数据集上提升了人物再识别任务的一致优势。 总之,本文介绍了一种将cutmix数据增强技术应用于人物再识别的方法。人物再识别中使用的现有三元组损失被扩展以适应十进制相似性标签,确保在处理这种新形式时的兼容性。此外,还引入了一种名为strip-cutmix的新概念,专门为人物再识别任务量身定制。通过研究strip-cutmix的最佳利用方案,作者确定了最有效的方法。该提出的方法超越了其他基于卷积神经网络的人物再识别模型,在纯卷积网络框架中实现了最佳性能。

Leave a Comment

揭示Deepfakes 利用头部姿势估计模式提高检测准确性

能够生成“伪造”视频的能力的出现引发了人们对视觉内容可信度的重大担忧。在解决这个问题时,区分真实和伪造信息至关重要。利用深度学习和面部标记的各种算法在应对这一挑战时展示了令人着迷的结果。检测伪造视频的主要挑战在于令人信服的深度伪造技术可能造成的潜在危害,这些技术可以用于欺骗、证据篡改、侵犯隐私和散布错误信息。检测这些视频需要结合分析面部动作、纹理和时间一致性等技术,通常利用卷积神经网络(CNN)等机器学习方法。 最近的研究集中在使用各种方法检测深度伪造。有些方法将深度伪造视为异常情况,并寻找深度、背景和局部-全局信息的不一致性。还有些方法将深度伪造视为一种独特的模式,利用深度学习技术分析面部特征和颜色空间。这些努力为区分真实内容和深度伪造视频做出了贡献。 在这个背景下,最近发表了一篇新论文,提出了一种新的解决方案,即利用头部姿势估计(HPE)作为区分真实视频和深度伪造视频的独特标识符。作者建议通过分析视频中个人的头部姿势来帮助区分真实和深度伪造内容。这种方法关注头部定向角度,以发现在视频处理过程中引入的不一致性。该研究旨在使用各种方法和数据集评估这种技术的有效性,为改进深度伪造检测策略做出贡献。 所提出的方法的主要思想是将头部姿势估计作为检测深度伪造视频的特征。 HPE涉及确定图像或视频中人物的头部位置和方向。这些信息可以用于识别深度伪造处理引入的差异,因为即使是头部对齐的微小变化也可能很难准确复制。该研究分析了三种HPE方法,并在热门的FF++深度伪造数据集上进行了水平和垂直分析。目标是确定最有效的深度伪造检测方法。 作者进行了实验,使用头部姿势模式来检测深度伪造视频。他们使用了包含真实和篡改视频的“FaceForensics++”数据集。他们采用KNN与动态时间规整(DTW)来对齐序列,并使用深度学习模型(1D卷积和GRU)来捕捉时间模式。这些方法旨在根据头部姿势将视频分类为真实或伪造。最好的结果来自基于HPE的方法,使用了KNN-DTW的FSA-Net。该方法优于几种最先进的方法,表现出对数据集不同子集的稳定性和可迁移性。该研究表明,头部姿势模式对于深度伪造检测是有效的,特别是对于像FaceSwap这样不太逼真的攻击。 总之,在这篇文章中,我们介绍了一种最近针对深度伪造视频威胁的新方法。这种方法利用HPE分析视频中的头部定向来识别深度伪造。这个研究团队评估了三种HPE方法,使用了FF++深度伪造数据集并进行了涉及KNN与动态时间规整(DTW)的实验以及深度学习模型。基于HPE的方法,使用了FSA-Net与KNN-DTW,展示了优于最先进方法的性能。这凸显了使用头部姿势模式有效地检测深度伪造的潜力,特别是在像FaceSwap这样不太逼真的操作中。

Leave a Comment

关于Stability AI的StableCode:AI代码生成器需要了解的内容

在当今快速发展的科技领域中,以人工智能为动力的解决方案在改变各行各业中起着至关重要的作用稳定AI开发的稳定代码(StableCode)就是其中一个改变游戏规则的工具这个革命性的工具不仅仅是一个代码生成器,而是一种复杂的技术融合,旨在使编码更加易用、高效和创新让我们深入了解[…]

Leave a Comment

在Amazon SageMaker上使用LLMs实现智能视频和音频问答,并提供多语言支持

在日益数字化的世界中,数字资产是企业产品、服务、文化和品牌身份的重要视觉表现数字资产与记录的用户行为一起,可以通过提供互动和个性化体验来促进客户参与,使公司能够与目标受众更深入地连接高效地发现和搜索特定的数字资产[…]

Leave a Comment

这篇AI论文表明,量子机器学习模型可能更好地抵御由经典计算机生成的对抗性攻击

机器学习(ML)确实正在快速扩展和整合到许多领域,革新了我们解决问题的方式,并增强了我们从数据中提取有价值洞见的能力。这种变革性技术在现代科学、技术和工业中越来越普遍,推动创新并重塑各个行业。 然而,尽管它们的用途、准确性和复杂性,这些机器学习和神经网络却很容易被对抗性攻击欺骗,这些攻击恶意篡改其数据,导致它们出乎意料地失败。这对神经网络的有效性和准确性构成了重大问题。对这种攻击的持续易受性也引发了关于在可能危及生命的情况下实施机器学习神经网络安全性的重大关切。这包括自动驾驶车辆等使用案例,其中系统可能因对停止标志进行表面上无害的改变而被引导进入一个交叉路口,突显了对严格保护措施和对策的必要性。 因此,人们已经做出了重大努力,以加强神经网络对这些对抗性攻击的防御。已经研究和提出了各种量子机器学习算法,包括量子化的标准经典方法来应对对抗性攻击。量子机器学习理论表明,量子模型可以比任何现有的经典计算模型更快地获取特定类型的数据。 而经典计算机使用二进制位处理数据,二进制位有两种可能状态(“零”或“一”),而量子计算机则利用“量子比特”。这些量子比特表示两级量子系统中的状态,并且它们具有可以被利用来更有效地解决特定问题的特殊额外属性。 澳大利亚的研究人员调查了QAML(量子对抗性机器学习)在包括MNIST、FMNIST、CIFAR和Celeb-A图像在内的各种著名图像数据集上的应用。此外,研究人员对这些不同数据集实施了三种不同类型的对抗性攻击:PGD、FGSM和AutoAttack。这些图像分类模型可以很容易地被篡改和操纵其输入图像。 研究人员进行了涵盖各种图像数据集的全面系列量子和经典模拟,并制定了一系列多样化的对抗性攻击,以对结果进行严格评估。研究结果包括对比量子(经典)网络与经典(量子)对抗性攻击。对抗性攻击通过识别和利用机器学习模型使用的特征来发挥作用。 这种方法的基础是,在正常情况下,两个网络(量子和经典)将做出相同的预测。但当条件发生改变时,结果将有所不同,因此可以进行调查。 经典和量子系统之间防御机制的明显差异源于量子变分分类器(QVCs)获得了独特且显著有意义的特征谱,使其与经典网络有所区别。这种差异源于经典网络对信息量更大但相对不太强大的数据特征的依赖。 然而,普通量子机器学习模型利用的属性仍然超出了经典计算机的能力,因此对于仅配备经典计算资源的对手来说是不可察觉的。 这项研究的观察结果暗示了量子在机器学习任务领域具有潜在优势。这是由于量子计算机相对于经典计算机更有效地学习更广泛的模型的独特能力。然而,需要注意的是,这些新模型在许多现实世界的机器学习任务(如医学分类问题或生成式人工智能系统)中的实际效用尚不确定。

Leave a Comment