Press "Enter" to skip to content

四海吧 Posts

机器学习模型在有限的训练数据下能产生可靠的结果吗?这项来自剑桥大学和康奈尔大学的新的人工智能研究找到了答案…

深度学习已经发展成为人工智能中一种强大且开创性的技术,其应用范围从语音识别到自主系统,再到计算机视觉和自然语言处理。然而,深度学习模型需要大量的训练数据。为了训练模型,人们经常需要对大量数据进行标注,比如一系列的照片。这个过程非常耗时且劳动密集。 因此,人们一直在研究如何在少量数据上训练模型,从而使模型训练变得容易。研究人员试图找出如何创建可信赖的机器学习模型,这些模型可以在实际情况下理解复杂方程,并利用远少于通常预期的训练数据。 因此,康奈尔大学和剑桥大学的研究人员发现,即使给出很少的数据,机器学习模型对偏微分方程可以产生准确的结果。偏微分方程是一类描述自然界中事物在空间和时间上演化的物理方程。 根据英国剑桥大学的Nicolas Boullé博士所说,使用人类来训练机器学习模型效率很高,但耗时又昂贵。他们很好奇想知道训练这些算法所需的数据量有多少,同时能够产生准确的结果。 研究人员利用随机数值线性代数和偏微分方程理论创建了一个算法,该算法可以从输入输出数据中恢复出三维均匀椭圆型偏微分方程的解算子,并以极高的成功概率实现误差相对于训练数据集大小的指数收敛。 作为英国剑桥大学的INI-Simons基金会博士后研究员,Boullé表示,偏微分方程就像物理学的基本要素:它们可以帮助解释自然界的物理规律,比如如何在一个融化的冰块中维持稳态。研究人员认为这些人工智能模型是基础的,但它们可能仍然有助于理解为什么人工智能在物理学中如此有效。 研究人员使用了一个包含各种随机输入数据量和计算机生成的匹配答案的训练数据集。然后,他们在一批新的输入数据上测试了人工智能的预测解的准确性。 根据Boullé的说法,这取决于领域,但在物理学中,他们发现你可以用很少的数据取得很大的成果。令人惊讶的是,产生一个可靠的模型所需的信息量非常少。他们说,这些方程的数学特性使我们能够利用它们的结构并改进模型。 研究人员表示,确保模型学习到适当的内容非常重要,但机器学习在物理学中是一个有吸引力的课题。根据Boullé的说法,人工智能可以帮助解决许多有趣的数学和物理难题。

Leave a Comment

认识MAmmoTH:一系列专门针对一般数学问题解决而设计的开源大型语言模型(LLM)

现代大型语言模型(LLM)在很大程度上依赖于数学推理,这是本文的主要焦点。尽管在这个领域取得了一些进展,但封闭源模型(如GPT-4、PaLM-2和Claude 2)在GSM8K和MATH等流行的数学推理基准中占据主导地位,而开源模型(如Llama、Falcon和OPT)则远远落后。 解决这个差距的两种主要方法是: 持续的预训练,例如Galactica和MINERVA,现在它正在使用链接到数学的超过1000亿个网页数据上训练LLM。虽然计算代价高昂,但这种方法可以提高模型在科学推理方面的能力。 使用每个数据集独特的训练数据,使用拒绝采样微调(RFT)和WizardMath等微调方法来完善LLM。虽然这些方法在其领域内是有效的,但在需要推理的其他数学领域中无法转移。 滑铁卢大学、俄亥俄州立大学、香港科技大学、爱丁堡大学和IN.AI最近的研究探索了一种轻量级但具有普适性的数学指令调整技术,以提高LLM在数学推理能力上的表现(即不仅仅是微调任务)。 目前的方法在很大程度上依赖于思维链(CoT)方法,描述了它们如何以自然语言步骤解决数学问题。但是,当涉及到计算精度和复杂的数学或算法推理方法时,这种方法表现不佳。基于代码的技术,如PoT和PAL,使用第三方资源来简化数学求解过程。 该方法建议将计算密集型任务(例如使用sympy解二次方程或使用numpy计算矩阵特征值)委托给一个独立的Python解释器。另一方面,PoT在处理更抽象的推理场景(如常识推理、形式逻辑和抽象代数)时具有一些局限性,特别是在缺乏现有API的情况下。 为了充分利用CoT和PoT的优势,该团队提出了一个名为MathInstruct的数学混合指令调整数据集。它的主要特点包括: 全面覆盖各种数学领域和复杂程度 混合CoT和PoT的解释。 六个全新选择的和七个现有的数据集为MathInstruct的数学解释提供了基础。从建模的角度来看,研究人员训练和评估了约50个独特模型,基线范围从7B到70B,以了解各种输入输出格式和数据源的影响。 结果表明,这些模型在数学通用性方面表现出色。 研究人员在各种数据集上对MAmmoTH进行了广泛测试,从领域内(IND)到领域外(OOD),例如GSM8K、MATH、AQuA-RAT和NumGLUE。这些模型显著提高了开源LLM在数学推理上的效率,并且在OOD数据集上比最先进的方法具有更好的泛化能力。在流行的竞赛级别MATH数据集上,7B模型的结果超过了WizardMath(开源MATH SoTA)的3.5倍(35.2%对10.7%),而34B MAmmoTH-Coder(在Code Llama上进行了微调)的结果超过了GPT-4(使用CoT)。这些模型中的MAmmoTH和MAmmoTH-Coder都显著提高了以前可用的开源模型的准确性。

Leave a Comment

UCI和浙江大学的研究人员通过使用草稿和验证阶段的自我推测解码引入了无损大型语言模型加速技术

基于Transformer的大型语言模型(LLMs),如GPT、PaLM和LLaMA,已广泛用于各种实际应用中。这些模型已应用于各种任务,包括文本生成、翻译和自然语言解释。然而,这些模型的高推理成本,特别是在对低延迟要求很高的情况下,是一个主要关注点。这些模型使用的自回归解码方法是高推理成本的主要原因。由于自回归解码过程中每个输出令牌是顺序生成的,因此存在大量的Transformer调用。每个Transformer调用的内存带宽受限,导致计算效率低下和执行时间长。 为了加速大型语言模型(LLMs)的推理过程,最近的一项研究引入了一种称为自我推测解码的独特方法,该方法不需要辅助模型。这种方法解决了快速生成推理结果并保持输出质量的问题。它的特点是一个由起草和验证组成的两阶段过程。 起草阶段 – 起草阶段的目标是更快地生成起草令牌,即使它们的质量略低于使用传统自回归方法生成的令牌。为了实现这一目标,该方法在起草过程中绕过了一些中间层。LLMs中的这些中间层通常会改进输出,但它们在推理过程中也会占用大量时间和资源。 验证阶段 – 该技术在起草阶段生成起草输出令牌,然后使用原始未经修改的LLM在单个前向传递中验证它们。使用传统的自回归解码技术,LLM会产生相同的最终结果,这由验证步骤确保。因此,即使起草阶段更快地生成了令牌,最终产品的质量也得到了保证。 自我推测解码不需要进一步的神经网络训练,这是它的主要优点之一。为了实现更快的推理,现有方法常常需要训练辅助模型或对LLM的架构进行重大改变,这可能具有挑战性且资源密集。而自我推测解码是一种“即插即用”的方法,可以在现有LLMs上添加而无需额外的训练或模型修改。 研究为自我推测解码的有效性提供了实证支持。基于LLaMA-2及其改进模型的基准结果显示,自我推测解码方法比传统的自回归方法可以更快地解码数据高达1.73倍。这具有重要的优势,使推理过程大约快两倍,同时保持输出质量,在延迟是一个问题的情况下非常重要。 总之,自我推测解码是一种革命性的方法,改善了大型语言模型推理信息的方式。它通过建立起草和验证的两步过程,选择在起草阶段跳过哪些层以更快地生成令牌,并在验证阶段验证输出质量来实现这一目标。该方法加速了LLM的推理过程,而不会增加任何额外的内存负担或神经网络的训练要求。

Leave a Comment

麻省理工学院的最新机器学习研究提出了用于分层规划的组合基础模型(HiP):将语言、视觉和行动整合到长周期任务解决方案中

想象一下在陌生的家中准备一杯茶的挑战。完成这个任务的一个高效策略是在几个层次上进行层次化推理,包括一个抽象层次(例如,加热茶所需的高层步骤),一个具体的几何层次(例如,他们应该如何在厨房中移动)和一个控制层次(例如,他们应该如何移动关节来举起杯子)。搜索茶壶的抽象计划在几何层面上也必须是可行的,并且在他们能够执行的行动给定的情况下是可执行的。这就是为什么每个层次上的推理相互一致是至关重要的。在这项研究中,他们调查了能够使用层次化推理的独特长期任务解决机器人的发展。 现在,大型”基础模型”已经在数学推理、计算机视觉和自然语言处理等问题上取得了领先地位。在这种范式下,创建一个能够解决独特的长期决策问题的”基础模型”是一个备受关注的问题。在之前的几项研究中,收集了匹配的视觉、语言和动作数据,并训练了一个单一的神经网络来处理长期任务。然而,扩展耦合的视觉、语言和动作数据收集是昂贵且具有挑战性的。另一方面,较早的研究线路使用特定任务的机器人演示来改进大型语言模型(LLM)在视觉和语言输入上的性能。这是一个问题,因为与互联网上丰富的材料相比,耦合视觉和语言的机器人的示例很难找到,而且编制也很昂贵。 此外,由于模型权重没有开源,目前很难对高性能的语言模型(如GPT3.5/4和PaLM)进行微调。基础模型的主要特点是,相较于从头学习工作或领域,它需要较少的数据来解决新的问题或适应新的环境。在这项工作中,他们寻求一种可扩展的替代方法,用于收集三种模态的配对数据,以构建用于长期规划的基础模型。在解决新的规划任务时,他们能否在仍然相对有效的前提下做到这一点呢? 来自Improbable AI Lab、MIT-IBM Watson AI Lab和麻省理工学院的研究人员建议使用组合式基础模型进行层次化规划(HiP),这是一个由许多在语言、视觉和动作数据上独立训练的专家模型组成的基础模型。由于这些模型是分别引入的,构建基础模型所需的数据量显著减少(图1)。HiP使用一个大型语言模型从抽象语言指令中发现一系列子任务(即规划)。然后,HiP使用一个大型视频扩散模型来收集有关环境的几何和物理信息,以形成一个更复杂的以观察为基础的轨迹规划。最后,HiP使用一个已经训练过的大型逆模型将一系列自我中心的图片转化为动作。 图1:如上所示,组合式基础模型用于层次化规划。HiP使用三个模型:一个任务模型(由LLM表示)生成一个抽象计划,一个视觉模型(由视频模型表示)生成一个图像轨迹规划;以及一个自我中心的动作模型,从图像轨迹中推断出动作。 不需要收集昂贵的跨模态配对决策数据,组合式设计选择使得不同层次的模型可以在层次结构的不同级别上进行推理,并共同做出专业的结论。三个分别训练的模型可能会产生冲突的结果,这可能导致整个规划过程失败。例如,在每个阶段选择具有最高可能性的输出是建立模型的一种简单方法。计划中的一步,例如在柜子里找茶壶,可能在一个模型下有很高的几率,但在另一个模型下可能有零几率,例如如果房子里没有柜子的话。因此,重要的是采样一种策略,该策略能够在所有专家模型中共同最大化可能性。 他们提供了一种迭代改进技术,以确保一致性,利用下游模型的反馈来开发跨多个模型的一致计划。语言模型的生成过程的输出分布包含了每个阶段的当前状态的表示所条件化的似然估计器的中间反馈。同样,动作模型的中间输入改善了开发过程中每个阶段的视频创作。这种迭代改进过程促进了多模型间的共识,创建了既符合目标又在现有状态和代理的基础上可执行的分层一致计划。他们提出的迭代改进方法不需要进行大量模型微调,从而使训练具有计算效率。 此外,他们不需要知道模型的权重,他们的策略适用于所有提供输入和输出API访问的模型。总之,他们提供了一个基于在各种互联网和自我中心机器人数据模态上独立获取的基础模型的组合来创建长程规划的层次规划的基础模型。在三个长程桌面操作情况下,他们展示了有希望的结果。

Leave a Comment

“《ABBYY智能自动化报告》揭示:人工智能预算飙升超过80%”

尽管经济条件对企业支出构成了挑战,但ABBYY最新发布的《智能自动化状况报告》显示,人工智能投资的激增已经改变了游戏规则,82%的IT高管承认了这种影响该报告关注的是人工智能优先事项对经济的影响该研究收集了美国、英国等国家IT决策者的见解

Leave a Comment

15个适用于Twitter的最佳ChatGPT提示 (X)

在快速发展的社交媒体领域中,Twitter(X)作为一个以简洁和有影响力的内容为主导的平台脱颖而出从品牌到影响者,每个人都在竞争互动和可见性,这就需要一种独特的内容创作方法ChatGPT凭借其多功能能力,可以帮助制作高质量和引人入胜的Twitter内容这[…]

Leave a Comment

“现金流入:‘PAYDAY 3’ 在GeForce NOW上直播”

是时候让团队重新聚在一起了 – PAYDAY 3本周在GeForce NOW上直播。 本周将有11款游戏加入云游戏库,包括《派对动物》。 完美的抢劫 未出现在图片中的:一个戴着绒毛兔子面具的团队成员。他待在家里。 PAYDAY 3是备受期待的续作,是世界上最受欢迎的合作射击游戏之一。走出退休生活,再次踏入犯罪的生活,化身为PAYDAY团队的一员 – 无论他们走到哪里,都引起同行的嫉妒和执法部门的噩梦。故事设定在团队在华盛顿特区恐怖统治结束几年后,游戏重新组合了这个团队,以应对激发他们提前退休的威胁。 升级到GeForce NOW终极会员,以最高画质完成每一次抢劫。终极会员可以在支持高达4K、每秒120帧的Gameplay的GeForce RTX 4080设备上进行流媒体播放,为您提供无缝的游戏体验,如果使用其他设备进行流媒体播放,简直就是犯罪。 游戏开始 与朋友一起在几乎任何设备上玩乐。 GFN Thursday总是有更多的动作。以下是本周GeForce NOW图书馆的全部新游戏: HumanitZ(Steam上的新游戏,9月18日发布) 派对动物(Steam上的新游戏,9月20日发布) PAYDAY 3(Steam、Epic…

Leave a Comment

《进入全宇宙:Blender 4.0 Alpha版发布开启了全新时代的OpenUSD艺术之旅》

编辑注:本文是《进入全宇宙》系列的一部分,重点介绍艺术家、开发者和企业如何利用OpenUSD和NVIDIA Omniverse的最新进展来改变工作流程。 对于经验丰富的3D艺术家和新手数字创作爱好者来说,流行的3D软件Blender的Alpha版本正在提升创作之旅。 通过更新的特性,包括精细着色器网络创建和增强的资产导出能力,使用Blender和通用场景描述框架OpenUSD的开发社区正在推动3D领域的发展。 NVIDIA工程师在增强Blender的OpenUSD功能方面发挥着关键作用,这也为与NVIDIA Omniverse一起使用带来了增强功能,Omniverse是用于连接和构建基于OpenUSD的工具和应用的开发平台。 Blender工作流程的通用升级 通过Blender 4.0 Alpha,各行各业的3D创作者和企业能够访问针对不同用例优化的OpenUSD工作流程。 例如,慕尼黑宝马集团技术办公室的设计实习生Emily Boehmer正在使用Omniverse、Blender和Adobe Substance 3D Painter的综合能力创建基于OpenUSD的逼真资产,以训练计算机视觉AI模型。 Boehmer与团队合作创建了用于SORDI.ai的资产,SORDI.ai是宝马集团发布的一个包含80多万张逼真图像的AI数据集。 一个工业货箱的剪辑虚拟“老化”过程。 USD帮助优化了Boehmer的工作流程。她说:“看到Blender和Substance 3D Painter都支持USD真是太好了。当我使用USD创建3D资产时,我可以确信它们在场景中的表现和行为与我的期望一致,因为我可以为它们添加物理属性。” 澳大利亚动画师Marko Matosevic也在他的3D工作流程中充分发挥了Blender、Omniverse和USD的综合能力。 Matosevic开始为他的YouTube频道Markom3D创建教程,以帮助各个层次的艺术家。他现在与超过77,000名订阅者分享他丰富的3D知识。 最近,Matosevic在Blender中创建了一个3D太空船,然后通过虚拟现实在Omniverse中进行了增强。 个人创作者不是唯一通过Blender和USD取得成功的人。多媒体娱乐工作室Moment…

Leave a Comment

在你的个人电脑上运行人工智能?GeForce用户领先于潮流

曾经,人工智能只存在于庞大的数据中心或精英研究人员的领域。 对于GeForce RTX用户来说,现在人工智能已经在您的个人电脑上运行。它是个人化的,增强了每一个按键、每一帧和每一刻。 游戏玩家已经在300多款RTX游戏中享受到人工智能的益处。与此同时,内容创作者可以访问100多个RTX创意和设计应用程序,人工智能可以提升从视频和照片编辑到资产生成的一切。 对于GeForce爱好者来说,这只是个开始。RTX是今天的平台,也是未来推动人工智能的加速器。 人工智能和游戏是如何融合的? NVIDIA通过DLSS开创了人工智能和游戏的融合,这是一种使用人工智能自动生成视频游戏像素的技术,可以将帧率提高多达4倍。 而且,随着最近推出的DLSS 3.5,NVIDIA提高了一些世界顶级游戏的视觉质量,为游戏带来更丰富、更沉浸式的体验,树立了新的标准。 NVIDIA的人工智能整合并不止于此。像RTX Remix这样的工具使游戏修改者可以使用由人工智能生成的高质量纹理和材料对经典内容进行重新制作。 通过NVIDIA ACE for Games,基于人工智能的角色在个人电脑上栩栩如生,标志着沉浸式游戏的新时代的到来。 RTX和人工智能如何助力创作者? 创作者使用人工智能来构思新的概念,自动化繁琐的任务,并创作出令人惊叹的艺术作品。他们依赖RTX,因为它加速了包括全球最受欢迎的照片编辑、视频编辑、广播和3D应用在内的顶级创作者应用程序。 现在有100多个支持人工智能的RTX应用程序,创作者可以更高效地完成工作,交付出令人难以置信的结果。 性能指标令人瞩目。 与竞争处理器相比,RTX GPU在Stable Diffusion等工具中的AI图像生成速度提高了4.5倍。同时,在3D渲染中,Blender的速度提高了5.4倍。 借助AI技术,DaVinci Resolve中的视频编辑速度翻倍,Adobe Photoshop的照片编辑任务速度提高了3倍。…

Leave a Comment

NVIDIA Studio系列增加了搭载RTX显卡的Microsoft Surface Laptop Studio 2

编辑注:本文是我们每周的NVIDIA Studio系列文章的一部分,该系列文章致力于展示特色艺术家、提供创意技巧,并展示NVIDIA Studio技术如何改进创意工作流程。 NVIDIA Studio笔记本电脑系列迎来了新的微软Surface Laptop Studio 2,搭载GeForce RTX 4060、GeForce RTX 4050或NVIDIA RTX 2000 Ada Generation笔记本GPU,为创作者提供强大的性能和多功能性。 微软Surface Laptop Studio 2。 由NVIDIA Studio平台支持,今天宣布的Surface Laptop Studio 2提供了预装的Studio驱动程序,以及加速专业和创意工作流程的独家工具,确保最大的稳定性。…

Leave a Comment

Python中的质数程序

几十年来,数学家们一直被质数所吸引 – 那些只能被1和自身整除的神秘整数。除了它们的理论重要性,质数对于当代技术、密码学和算法优化至关重要。在本文中,我们探讨了Python中质数程序的基本思想,它们的识别,开发有效的质数检查例程,提高质数生成能力,并深入实际应用。 确定质数 大于1的质数具有仅有两个不同约数的特殊特征:自身和1。 您必须确保一个数除了这两个正整数之外不能被任何其他正整数整除,以确定它是否是质数。在这个关键过程中,大于2的偶数不被视为质数,并且可除性规则简化了识别过程。 还阅读:Python在现实世界中的十大应用示例 检查质数的基本原理 质数的基本概念 – 一个大于1的正整数,恰好有两个不同的正约数1和自身,为检查质数的基本方法奠定了基础。 必须考虑一个数的可除性来确定它是否是质数。这意味着确定一个数除了1和自身之外的任何正整数之外,是否可以等量地被其他正整数整除。 质数的可除性规则 以下表总结了鉴别质数和合数的关键标准和方法: 标准 描述 示例 可被2或3整除 检查数字是否可被2或3整除。如果是,则不是质数。 6(可被2和3整除) 以5或0结尾的数字 任何以5或0结尾的数字(除了5本身)都不是质数。这些数字可被5整除。 25不是质数,因为它可以被5整除(25 ÷ 5…

Leave a Comment

将LLaMa放入您的口袋的诀窍:结识OmniQuant,一种将LLM的效率和性能完美结合的人工智能方法

大型语言模型(LLMs),如臭名昭著的ChatGPT,在各种自然语言处理任务中取得了令人印象深刻的表现,如机器翻译、文本摘要和问答。它们改变了我们与计算机的交流方式和任务处理方式。 LLMs已经成为具有变革性的实体,推动了自然语言理解和生成的界限。其中,ChatGPT是一个显著的例子,代表了一类设计用于在对话环境中与用户进行交互的LLM。这些模型是在极大的文本数据集上进行了广泛训练的结果。这使它们具备了理解和生成类似人类文本的能力。 然而,这些模型在计算和内存方面非常消耗资源,限制了它们的实际应用。顾名思义,这些模型是庞大的;当我们说庞大时,我们是指真的很大。最近的开源LLM,来自Meta的LLaMa2,包含大约700亿个参数。 减少这些要求是使它们更实用的重要一步。量化是减少LLMs计算和内存开销的一种有希望的技术。有两种主要的量化方式——训练后量化(PTQ)和量化感知训练(QAT)。虽然QAT在准确性方面具有竞争力,但在计算和时间方面代价太高。因此,对于许多量化工作来说,PTQ已经成为首选方法。 现有的PTQ技术,如仅权重和权重-激活量化,已经在内存消耗和计算开销方面取得了显著的降低。然而,它们在低位量化方面往往存在困难,而这对于高效部署至关重要。低位量化中的性能下降主要是由于依赖手工量化参数,导致结果不够优化。 让我们见识一下OmniQuant。它是一种用于LLMs的新型量化技术,在各种量化场景中实现了最先进的性能,特别是在低位设置中,同时保留了PTQ的时间和数据效率。 OmniQuant在LLaMa系列上的特性。来源:https://arxiv.org/pdf/2308.13137.pdf OmniQuant采用了一种独特的方法,冻结原始的全精度权重,并结合一组有限的可学习量化参数。与繁琐的权重优化相比,OmniQuant侧重于逐层量化过程中的每个单独层。这使得可以使用简单的算法进行高效的优化。 OmniQuant由两个关键组件组成——可学习权重剪裁(LWC)和可学习等效变换(LET)。LWC优化剪裁阈值,调节极端权重值,而LET通过学习变换来处理激活的离群值。这些组件使得全精度的权重和激活更适合量化。 OmniQuant的灵活性体现在其适用于仅权重和权重-激活量化的多样性。最好的部分是,OmniQuant对于量化模型没有额外的计算负担或参数,因为量化参数可以融合到量化权重中。 OmniQuant概览。来源:https://arxiv.org/pdf/2308.13137.pdf 与LLM中的所有参数进行联合优化不同,OmniQuant在移动到下一层之前依次量化一层的参数。这使得OmniQuant能够使用简单的随机梯度下降(SGD)算法高效地进行优化。 它是一个实用的模型,因为即使在单个GPU上也很容易实现。您可以在16小时内训练自己的LLM,这使得它们在各种实际应用中非常易于使用。此外,OmniQuant在性能上优于先前的基于PTQ的方法。 然而,尽管它是一种相对较新的方法,但它的性能还是有一些限制的。例如,它有时可能会产生比全精度模型稍差的结果。然而,这只是OmniQuant的一个小不便,因为它仍然是一种用于高效部署LLM的有前途的技术。

Leave a Comment

农业中的视觉变压器 | 收获创新

介绍 农业一直是人类文明的基石,为全球数十亿人提供食物和生计。随着科技的进步,我们发现了增强农业实践的新颖方法。其中一项进展是使用视觉转换器(ViTs)来对作物的叶病进行分类。在本博客中,我们将探讨视觉转换器在农业中的革命性,通过提供一种高效准确的解决方案来识别和缓解作物病害。 木薯,又称木薯或椰菜,是一种多用途的作物,可用于提供日常主食和工业应用。它的耐寒能力和抗逆性使其成为在环境条件艰苦的地区必不可少的作物。然而,木薯植株容易受到各种病害的侵袭,其中CMD和CBSD是最具破坏性的病害之一。 CMD是由白蝗传播的病毒复合体引起的,导致木薯叶片出现严重的驳斑症状。而CBSD则是由两种相关病毒引起的,主要影响储存根,使其无法食用。及早识别这些病害对于防止作物大面积损害和确保粮食安全至关重要。视觉转换器是转换器架构的进化版本,最初设计用于自然语言处理(NLP),在处理视觉数据方面表现出高度有效性。这些模型将图像作为补丁的序列进行处理,使用自注意机制来捕捉数据中的复杂模式和关系。在木薯叶病分类的背景下,ViTs通过分析感染木薯叶子的图像来训练以识别CMD和CBSD。 学习成果 了解视觉转换器及其在农业中的应用,特别是叶病分类方面。 了解转换器架构的基本概念,包括自注意机制,以及如何将其适应于视觉数据处理。 了解视觉转换器(ViTs)在农业中的创新应用,特别是对木薯叶病早期检测的应用。 深入了解视觉转换器的优势,如可扩展性和全局上下文,以及它们面临的挑战,包括计算要求和数据效率。 本文是作为“数据科学博文马拉松”的一部分发表的。 视觉转换器的崛起 近年来,由于卷积神经网络(CNNs)的发展,计算机视觉取得了巨大的进步。CNNs一直是各种与图像相关的任务的首选架构,从图像分类到目标检测。然而,视觉转换器作为一种强大的替代方案崭露头角,提供了一种新颖的处理视觉信息的方法。Google Research的研究人员在2020年发布了一篇具有开创性的论文,题为“图像价值16×16个单词:大规模图像识别的转换器”。他们将最初设计用于自然语言处理(NLP)的转换器架构应用于计算机视觉领域。这种适应为该领域带来了新的可能性和挑战。 使用ViTs相对于传统方法具有几个优势,包括: 高准确性:ViTs在准确性方面表现出色,可以可靠地检测和区分叶病。 高效性:经过训练后,ViTs可以快速处理图像,适用于实时病害检测。 可扩展性:ViTs可以处理不同大小的数据集,适应不同的农业环境。 泛化能力:ViTs可以泛化到不同的木薯品种和病害类型,减少针对每种情况的特定模型的需求。 转换器架构简介 在深入了解视觉转换器之前,了解转换器架构的核心概念是至关重要的。转换器最初为NLP而设计,革新了语言处理任务。转换器的关键特点是自注意机制和并行化,可以更全面地理解上下文并加快训练速度。 转换器的核心是自注意机制,它使模型在进行预测时可以权衡不同输入元素的重要性。这种机制与多头注意力层结合使用,可以捕捉数据中的复杂关系。 那么,视觉转换器如何将转换器架构应用于计算机视觉领域呢?视觉转换器的基本思想是将图像视为补丁的序列,就像NLP任务将文本视为单词的序列一样。然后,转换器层通过将图像中的每个补丁嵌入向量来处理它。 Vision Transformer的关键组件 图像切片嵌入:将图像分为固定大小的非重叠切片,通常为16×16像素。然后将每个切片线性嵌入到较低维度的向量中。…

Leave a Comment