Press "Enter" to skip to content

Tag: Technology

机器学习模型在有限的训练数据下能产生可靠的结果吗?这项来自剑桥大学和康奈尔大学的新的人工智能研究找到了答案…

深度学习已经发展成为人工智能中一种强大且开创性的技术,其应用范围从语音识别到自主系统,再到计算机视觉和自然语言处理。然而,深度学习模型需要大量的训练数据。为了训练模型,人们经常需要对大量数据进行标注,比如一系列的照片。这个过程非常耗时且劳动密集。 因此,人们一直在研究如何在少量数据上训练模型,从而使模型训练变得容易。研究人员试图找出如何创建可信赖的机器学习模型,这些模型可以在实际情况下理解复杂方程,并利用远少于通常预期的训练数据。 因此,康奈尔大学和剑桥大学的研究人员发现,即使给出很少的数据,机器学习模型对偏微分方程可以产生准确的结果。偏微分方程是一类描述自然界中事物在空间和时间上演化的物理方程。 根据英国剑桥大学的Nicolas Boullé博士所说,使用人类来训练机器学习模型效率很高,但耗时又昂贵。他们很好奇想知道训练这些算法所需的数据量有多少,同时能够产生准确的结果。 研究人员利用随机数值线性代数和偏微分方程理论创建了一个算法,该算法可以从输入输出数据中恢复出三维均匀椭圆型偏微分方程的解算子,并以极高的成功概率实现误差相对于训练数据集大小的指数收敛。 作为英国剑桥大学的INI-Simons基金会博士后研究员,Boullé表示,偏微分方程就像物理学的基本要素:它们可以帮助解释自然界的物理规律,比如如何在一个融化的冰块中维持稳态。研究人员认为这些人工智能模型是基础的,但它们可能仍然有助于理解为什么人工智能在物理学中如此有效。 研究人员使用了一个包含各种随机输入数据量和计算机生成的匹配答案的训练数据集。然后,他们在一批新的输入数据上测试了人工智能的预测解的准确性。 根据Boullé的说法,这取决于领域,但在物理学中,他们发现你可以用很少的数据取得很大的成果。令人惊讶的是,产生一个可靠的模型所需的信息量非常少。他们说,这些方程的数学特性使我们能够利用它们的结构并改进模型。 研究人员表示,确保模型学习到适当的内容非常重要,但机器学习在物理学中是一个有吸引力的课题。根据Boullé的说法,人工智能可以帮助解决许多有趣的数学和物理难题。

Leave a Comment

认识MAmmoTH:一系列专门针对一般数学问题解决而设计的开源大型语言模型(LLM)

现代大型语言模型(LLM)在很大程度上依赖于数学推理,这是本文的主要焦点。尽管在这个领域取得了一些进展,但封闭源模型(如GPT-4、PaLM-2和Claude 2)在GSM8K和MATH等流行的数学推理基准中占据主导地位,而开源模型(如Llama、Falcon和OPT)则远远落后。 解决这个差距的两种主要方法是: 持续的预训练,例如Galactica和MINERVA,现在它正在使用链接到数学的超过1000亿个网页数据上训练LLM。虽然计算代价高昂,但这种方法可以提高模型在科学推理方面的能力。 使用每个数据集独特的训练数据,使用拒绝采样微调(RFT)和WizardMath等微调方法来完善LLM。虽然这些方法在其领域内是有效的,但在需要推理的其他数学领域中无法转移。 滑铁卢大学、俄亥俄州立大学、香港科技大学、爱丁堡大学和IN.AI最近的研究探索了一种轻量级但具有普适性的数学指令调整技术,以提高LLM在数学推理能力上的表现(即不仅仅是微调任务)。 目前的方法在很大程度上依赖于思维链(CoT)方法,描述了它们如何以自然语言步骤解决数学问题。但是,当涉及到计算精度和复杂的数学或算法推理方法时,这种方法表现不佳。基于代码的技术,如PoT和PAL,使用第三方资源来简化数学求解过程。 该方法建议将计算密集型任务(例如使用sympy解二次方程或使用numpy计算矩阵特征值)委托给一个独立的Python解释器。另一方面,PoT在处理更抽象的推理场景(如常识推理、形式逻辑和抽象代数)时具有一些局限性,特别是在缺乏现有API的情况下。 为了充分利用CoT和PoT的优势,该团队提出了一个名为MathInstruct的数学混合指令调整数据集。它的主要特点包括: 全面覆盖各种数学领域和复杂程度 混合CoT和PoT的解释。 六个全新选择的和七个现有的数据集为MathInstruct的数学解释提供了基础。从建模的角度来看,研究人员训练和评估了约50个独特模型,基线范围从7B到70B,以了解各种输入输出格式和数据源的影响。 结果表明,这些模型在数学通用性方面表现出色。 研究人员在各种数据集上对MAmmoTH进行了广泛测试,从领域内(IND)到领域外(OOD),例如GSM8K、MATH、AQuA-RAT和NumGLUE。这些模型显著提高了开源LLM在数学推理上的效率,并且在OOD数据集上比最先进的方法具有更好的泛化能力。在流行的竞赛级别MATH数据集上,7B模型的结果超过了WizardMath(开源MATH SoTA)的3.5倍(35.2%对10.7%),而34B MAmmoTH-Coder(在Code Llama上进行了微调)的结果超过了GPT-4(使用CoT)。这些模型中的MAmmoTH和MAmmoTH-Coder都显著提高了以前可用的开源模型的准确性。

Leave a Comment

UCI和浙江大学的研究人员通过使用草稿和验证阶段的自我推测解码引入了无损大型语言模型加速技术

基于Transformer的大型语言模型(LLMs),如GPT、PaLM和LLaMA,已广泛用于各种实际应用中。这些模型已应用于各种任务,包括文本生成、翻译和自然语言解释。然而,这些模型的高推理成本,特别是在对低延迟要求很高的情况下,是一个主要关注点。这些模型使用的自回归解码方法是高推理成本的主要原因。由于自回归解码过程中每个输出令牌是顺序生成的,因此存在大量的Transformer调用。每个Transformer调用的内存带宽受限,导致计算效率低下和执行时间长。 为了加速大型语言模型(LLMs)的推理过程,最近的一项研究引入了一种称为自我推测解码的独特方法,该方法不需要辅助模型。这种方法解决了快速生成推理结果并保持输出质量的问题。它的特点是一个由起草和验证组成的两阶段过程。 起草阶段 – 起草阶段的目标是更快地生成起草令牌,即使它们的质量略低于使用传统自回归方法生成的令牌。为了实现这一目标,该方法在起草过程中绕过了一些中间层。LLMs中的这些中间层通常会改进输出,但它们在推理过程中也会占用大量时间和资源。 验证阶段 – 该技术在起草阶段生成起草输出令牌,然后使用原始未经修改的LLM在单个前向传递中验证它们。使用传统的自回归解码技术,LLM会产生相同的最终结果,这由验证步骤确保。因此,即使起草阶段更快地生成了令牌,最终产品的质量也得到了保证。 自我推测解码不需要进一步的神经网络训练,这是它的主要优点之一。为了实现更快的推理,现有方法常常需要训练辅助模型或对LLM的架构进行重大改变,这可能具有挑战性且资源密集。而自我推测解码是一种“即插即用”的方法,可以在现有LLMs上添加而无需额外的训练或模型修改。 研究为自我推测解码的有效性提供了实证支持。基于LLaMA-2及其改进模型的基准结果显示,自我推测解码方法比传统的自回归方法可以更快地解码数据高达1.73倍。这具有重要的优势,使推理过程大约快两倍,同时保持输出质量,在延迟是一个问题的情况下非常重要。 总之,自我推测解码是一种革命性的方法,改善了大型语言模型推理信息的方式。它通过建立起草和验证的两步过程,选择在起草阶段跳过哪些层以更快地生成令牌,并在验证阶段验证输出质量来实现这一目标。该方法加速了LLM的推理过程,而不会增加任何额外的内存负担或神经网络的训练要求。

Leave a Comment

麻省理工学院的最新机器学习研究提出了用于分层规划的组合基础模型(HiP):将语言、视觉和行动整合到长周期任务解决方案中

想象一下在陌生的家中准备一杯茶的挑战。完成这个任务的一个高效策略是在几个层次上进行层次化推理,包括一个抽象层次(例如,加热茶所需的高层步骤),一个具体的几何层次(例如,他们应该如何在厨房中移动)和一个控制层次(例如,他们应该如何移动关节来举起杯子)。搜索茶壶的抽象计划在几何层面上也必须是可行的,并且在他们能够执行的行动给定的情况下是可执行的。这就是为什么每个层次上的推理相互一致是至关重要的。在这项研究中,他们调查了能够使用层次化推理的独特长期任务解决机器人的发展。 现在,大型”基础模型”已经在数学推理、计算机视觉和自然语言处理等问题上取得了领先地位。在这种范式下,创建一个能够解决独特的长期决策问题的”基础模型”是一个备受关注的问题。在之前的几项研究中,收集了匹配的视觉、语言和动作数据,并训练了一个单一的神经网络来处理长期任务。然而,扩展耦合的视觉、语言和动作数据收集是昂贵且具有挑战性的。另一方面,较早的研究线路使用特定任务的机器人演示来改进大型语言模型(LLM)在视觉和语言输入上的性能。这是一个问题,因为与互联网上丰富的材料相比,耦合视觉和语言的机器人的示例很难找到,而且编制也很昂贵。 此外,由于模型权重没有开源,目前很难对高性能的语言模型(如GPT3.5/4和PaLM)进行微调。基础模型的主要特点是,相较于从头学习工作或领域,它需要较少的数据来解决新的问题或适应新的环境。在这项工作中,他们寻求一种可扩展的替代方法,用于收集三种模态的配对数据,以构建用于长期规划的基础模型。在解决新的规划任务时,他们能否在仍然相对有效的前提下做到这一点呢? 来自Improbable AI Lab、MIT-IBM Watson AI Lab和麻省理工学院的研究人员建议使用组合式基础模型进行层次化规划(HiP),这是一个由许多在语言、视觉和动作数据上独立训练的专家模型组成的基础模型。由于这些模型是分别引入的,构建基础模型所需的数据量显著减少(图1)。HiP使用一个大型语言模型从抽象语言指令中发现一系列子任务(即规划)。然后,HiP使用一个大型视频扩散模型来收集有关环境的几何和物理信息,以形成一个更复杂的以观察为基础的轨迹规划。最后,HiP使用一个已经训练过的大型逆模型将一系列自我中心的图片转化为动作。 图1:如上所示,组合式基础模型用于层次化规划。HiP使用三个模型:一个任务模型(由LLM表示)生成一个抽象计划,一个视觉模型(由视频模型表示)生成一个图像轨迹规划;以及一个自我中心的动作模型,从图像轨迹中推断出动作。 不需要收集昂贵的跨模态配对决策数据,组合式设计选择使得不同层次的模型可以在层次结构的不同级别上进行推理,并共同做出专业的结论。三个分别训练的模型可能会产生冲突的结果,这可能导致整个规划过程失败。例如,在每个阶段选择具有最高可能性的输出是建立模型的一种简单方法。计划中的一步,例如在柜子里找茶壶,可能在一个模型下有很高的几率,但在另一个模型下可能有零几率,例如如果房子里没有柜子的话。因此,重要的是采样一种策略,该策略能够在所有专家模型中共同最大化可能性。 他们提供了一种迭代改进技术,以确保一致性,利用下游模型的反馈来开发跨多个模型的一致计划。语言模型的生成过程的输出分布包含了每个阶段的当前状态的表示所条件化的似然估计器的中间反馈。同样,动作模型的中间输入改善了开发过程中每个阶段的视频创作。这种迭代改进过程促进了多模型间的共识,创建了既符合目标又在现有状态和代理的基础上可执行的分层一致计划。他们提出的迭代改进方法不需要进行大量模型微调,从而使训练具有计算效率。 此外,他们不需要知道模型的权重,他们的策略适用于所有提供输入和输出API访问的模型。总之,他们提供了一个基于在各种互联网和自我中心机器人数据模态上独立获取的基础模型的组合来创建长程规划的层次规划的基础模型。在三个长程桌面操作情况下,他们展示了有希望的结果。

Leave a Comment

将LLaMa放入您的口袋的诀窍:结识OmniQuant,一种将LLM的效率和性能完美结合的人工智能方法

大型语言模型(LLMs),如臭名昭著的ChatGPT,在各种自然语言处理任务中取得了令人印象深刻的表现,如机器翻译、文本摘要和问答。它们改变了我们与计算机的交流方式和任务处理方式。 LLMs已经成为具有变革性的实体,推动了自然语言理解和生成的界限。其中,ChatGPT是一个显著的例子,代表了一类设计用于在对话环境中与用户进行交互的LLM。这些模型是在极大的文本数据集上进行了广泛训练的结果。这使它们具备了理解和生成类似人类文本的能力。 然而,这些模型在计算和内存方面非常消耗资源,限制了它们的实际应用。顾名思义,这些模型是庞大的;当我们说庞大时,我们是指真的很大。最近的开源LLM,来自Meta的LLaMa2,包含大约700亿个参数。 减少这些要求是使它们更实用的重要一步。量化是减少LLMs计算和内存开销的一种有希望的技术。有两种主要的量化方式——训练后量化(PTQ)和量化感知训练(QAT)。虽然QAT在准确性方面具有竞争力,但在计算和时间方面代价太高。因此,对于许多量化工作来说,PTQ已经成为首选方法。 现有的PTQ技术,如仅权重和权重-激活量化,已经在内存消耗和计算开销方面取得了显著的降低。然而,它们在低位量化方面往往存在困难,而这对于高效部署至关重要。低位量化中的性能下降主要是由于依赖手工量化参数,导致结果不够优化。 让我们见识一下OmniQuant。它是一种用于LLMs的新型量化技术,在各种量化场景中实现了最先进的性能,特别是在低位设置中,同时保留了PTQ的时间和数据效率。 OmniQuant在LLaMa系列上的特性。来源:https://arxiv.org/pdf/2308.13137.pdf OmniQuant采用了一种独特的方法,冻结原始的全精度权重,并结合一组有限的可学习量化参数。与繁琐的权重优化相比,OmniQuant侧重于逐层量化过程中的每个单独层。这使得可以使用简单的算法进行高效的优化。 OmniQuant由两个关键组件组成——可学习权重剪裁(LWC)和可学习等效变换(LET)。LWC优化剪裁阈值,调节极端权重值,而LET通过学习变换来处理激活的离群值。这些组件使得全精度的权重和激活更适合量化。 OmniQuant的灵活性体现在其适用于仅权重和权重-激活量化的多样性。最好的部分是,OmniQuant对于量化模型没有额外的计算负担或参数,因为量化参数可以融合到量化权重中。 OmniQuant概览。来源:https://arxiv.org/pdf/2308.13137.pdf 与LLM中的所有参数进行联合优化不同,OmniQuant在移动到下一层之前依次量化一层的参数。这使得OmniQuant能够使用简单的随机梯度下降(SGD)算法高效地进行优化。 它是一个实用的模型,因为即使在单个GPU上也很容易实现。您可以在16小时内训练自己的LLM,这使得它们在各种实际应用中非常易于使用。此外,OmniQuant在性能上优于先前的基于PTQ的方法。 然而,尽管它是一种相对较新的方法,但它的性能还是有一些限制的。例如,它有时可能会产生比全精度模型稍差的结果。然而,这只是OmniQuant的一个小不便,因为它仍然是一种用于高效部署LLM的有前途的技术。

Leave a Comment

这篇AI研究介绍了Owl:一种新的用于IT运营的大型语言模型

在自然语言处理(NLP)和人工智能(AI)不断发展的领域中,大型语言模型(LLMs)已经成为强大的工具,在各种NLP任务中展示出了卓越的能力。然而,当前模型中存在一个重要的差距,即缺乏专门为IT运营设计的大型语言模型(LLMs)。由于IT运营领域具有独特的术语、程序和语境复杂性,这个差距带来了挑战。因此,迫切需要创建专门的LLMs,以有效地应对IT运营中的复杂性。 在IT领域内,NLP和LLM技术的重要性日益增长。与信息安全、系统架构和其他IT运营相关的任务需要领域特定的知识和术语。传统的NLP模型往往难以解读IT运营的复杂细微差别,从而需要专门的语言模型。 为了解决这一挑战,一个研究团队推出了一个名为“Owl”的大型语言模型,专门针对IT运营进行了定制。这个专门的LLM是在一个被称为“Owl-Instruct”的精心策划的数据集上进行训练的,该数据集涵盖了广泛的IT相关领域,包括信息安全、系统架构等等。目标是为Owl提供在IT相关任务中取得优异表现所需的领域特定知识。 研究人员采用自我教导策略,在Owl-Instruct数据集上训练了Owl。这种方法可以使模型生成多样的指令,涵盖单轮和多轮场景。为了评估模型的性能,团队引入了“Owl-Bench”基准数据集,其中包括九个不同的IT运营领域。 他们提出了一种“适配器混合”策略,允许针对不同输入的任务特定和领域特定表示,通过促进有监督微调来进一步提高模型的性能。TopK(·)是用来计算所有LoRA适配器的选择概率并选择服从概率分布的前k个LoRA专家的选择函数。适配器混合策略是通过激活前k个专家来学习不同输入句子的语言敏感表示。 尽管Owl缺乏训练数据,但在RandIndex指标和最佳F1得分(0.894)上取得了可比较的性能(0.886)。在RandIndex比较中,与在域内日志上进行了广泛训练的LogStamp相比,Owl仅表现出微小的性能下降。在细粒度F1比较领域中,Owl明显优于其他基线,能够准确识别以前未见的日志中的变量。值得一提的是,logPrompt的基础模型是ChatGPT。与在相同基本设置下的ChatGPT相比,Owl在这个任务中表现出更优异的性能,突显了我们的大型模型在运营和维护方面的强大泛化能力。 总之,Owl代表了IT运营领域的一项突破性进展。它是一个精心训练并在IT相关基准上进行严格评估的专门的大型语言模型。这个专门的LLM革新了IT运营的管理和理解方式。研究人员的工作不仅解决了领域特定LLMs的需求,还为高效的IT数据管理和分析开辟了新的途径,最终推动了IT运营管理领域的发展。

Leave a Comment

推进图像修复:通过这种新颖的AI修复神经辐射场,弥合了2D和3D操作之间的差距

对于图像的处理一直存在持久的兴趣,因为它在内容创作中有着广泛的应用。其中最广泛研究的处理之一是对象的移除和插入,通常被称为图像修复任务。虽然当前的修复模型能够生成与周围图像无缝融合的视觉上令人信服的内容,但它们的适用性传统上仅限于单个2D图像输入。然而,一些研究人员正在尝试将这些模型的应用推进到对完整3D场景的处理。 神经辐射场(NeRFs)的出现使将真实的2D照片转换为逼真的3D表示更加容易。随着算法的不断改进和计算需求的降低,这些3D表示可能会变得普遍。因此,该研究旨在实现对3D NeRF的类似处理,如同对2D图像的处理一样,并特别关注修复功能。 修复3D对象存在独特的挑战,包括3D数据的稀缺性以及必须同时考虑3D几何和外观。使用NeRF作为场景表示引入了额外的复杂性。神经表示的隐式性质使得基于几何理解直接修改底层数据结构变得不切实际。此外,由于NeRF是从图像训练的,对多个视角的一致性的保持带来了挑战。对各个组成图像的独立修复可能导致视角不一致和视觉上不真实的输出。 已经尝试了各种方法来解决这些挑战。例如,一些方法旨在事后解决不一致性,如NeRF-In,通过像素损失结合视角,或者SPIn-NeRF,利用感知损失。然而,当修复的视角存在显著的感知差异或涉及复杂外观时,这些方法可能会遇到困难。 另外,还探索了单参考修复方法,通过仅使用一个修复的视角避免视角不一致。然而,这种方法引入了一些挑战,包括非参考视角的视觉质量降低、缺乏视角相关效果以及不连续问题。 考虑到上述限制,已经开发了一种新方法,实现了对3D对象的修复。 系统的输入是N个来自不同视角的图像,以及它们的相应摄像机变换矩阵和蒙版,用于标记不需要的区域。此外,还需要一个与输入图像相关的修复参考视角,该视角提供了用户期望从3D场景的修复中获取的信息。这个参考视角可以是一个简单的替代蒙版的对象的文本描述。 https://ashmrz.github.io/reference-guided-3d/paper_lq.pdf 在上述示例中,可以通过使用单图像文本条件修复器来获得“橡皮鸭”或“花盆”参考。这样,任何用户都可以控制和驱动生成具有所需编辑的3D场景。 通过专注于视角相关效果(VDEs)的模块,作者试图考虑场景中的视角相关变化(例如镜面反射和非朗伯效应)。出于这个原因,他们通过将VDEs添加到非参考视角的蒙版区域,通过校正参考颜色以匹配其他视角的周围环境,来修复蒙版区域。 此外,他们引入了单目深度估计器,根据参考图像的深度来引导修复区域的几何形状。由于不是所有蒙版目标像素在参考图像中都是可见的,因此设计了一种方法来通过额外的修复来监督这些未遮挡的像素。 下面是所提出方法的新视角渲染与最先进的SPIn-NeRF-Lama的视觉比较。 https://ashmrz.github.io/reference-guided-3d/paper_lq.pdf 这是一个关于参考引导可控补全神经辐射场的新型AI框架的摘要。如果您对此感兴趣并且想要了解更多信息,请随时参考下面引用的链接。

Leave a Comment

马里兰大学和Meta AI的研究人员提出了OmnimatteRF:一种将动态二维前景层和三维背景模型相结合的新型视频抠图方法

将视频分成许多层,每个层都有自己的阿尔法混合,并将这些层重新组合成原始视频,这就是被称为“视频抠图”的挑战。由于可以在合成之前交换或单独处理层,因此在视频编辑行业中具有许多用途,并且已经研究了几十年。需要仅关注兴趣物体的掩膜的应用包括视频制作中的描边和在线会议中的背景模糊。然而,通常希望能够生成包含不仅兴趣物体而且其相关效果(包括阴影和反射)的视频抠图。这可以提高最终剪辑影片的逼真度,同时减少对繁琐的手动分割次要效果的需求。 在对象去除等应用中,重建干净的背景是首选,而能够消除前景对象的相关影响有助于实现这一目标。尽管具有这些优势,但是由于该问题的不适定性,与标准抠图问题相比,研究较少。 Omnimatte是迄今为止解决此问题最有希望的努力。 Omnimattes是记录前景移动物体及其产生效果的RGBA层。 Omnimatte使用同伦来建模背景,这意味着它只能在背景是平面的视频或仅存在旋转运动的视频中有效。 D2NeRF通过分别使用两个辐射场对场景的动态和静态组件进行建模,努力解决这个问题。所有处理都在三个维度中进行,该系统可以处理具有大量摄像机运动的复杂场景。此外,不需要输入掩膜,使其完全是自主的。如何将定义在视频上的2D指导(如粗糙的掩膜)与之结合尚不清楚,但它确实可以有效地将所有移动物体分割出静态背景。 马里兰大学和Meta的最新研究提出了一种方法,通过使用三维背景模型和二维前景层结合了两者的优点。 难以在三维中创建的物体,动作和效果都可以通过轻量级的二维前景层来表示。同时,三维背景建模允许处理具有复杂几何形状和非旋转摄像机运动的背景,这为处理比2D方法更多样的电影铺平了道路。研究人员将这种技术称为OmnimatteRF。 实验结果表明,它在广泛的视频范围内表现出强大的性能,而无需为每个视频进行个别参数修改。 D2NeRF已经生成了一个使用Kubrics渲染的由5个视频组成的数据集,以客观分析3D环境中的背景分离。这些数据集是相对简单的内部设置,其中一些移动物体创建了实心阴影。此外,该团队还根据开源的Blender电影生成了五个视频,这些电影具有复杂的动画和照明条件,以获得更困难和逼真的场景。与过去的研究相比,两个数据集都展示了更好的性能。 如果某个部分始终位于阴影中,则背景模型将无法准确恢复该部分的颜色。由于动画层具有阿尔法通道,因此应该可以仅记录附加阴影而保留背景的原始颜色。不幸的是,目前的上下文中对此问题的边界不清晰,使得很难找到可行的解决方案。

Leave a Comment

宾夕法尼亚大学的研究人员介绍了Kani:一种轻量级、灵活且与模型无关的开源AI框架,用于构建语言模型应用程序

大型语言模型应用程序受到了广泛关注。凭借其惊人的能力,它们变得越来越复杂。通过结合工具使用跟踪和检索增强等功能,这些模型在人工智能社区中引起了很多关注。现有的构建此类应用程序的框架采用了一种自以为是的方法,指导开发人员如何格式化其提示,并对自定义和可重复性施加了一定的限制。 为了解决这些问题,宾夕法尼亚大学的研究团队最近推出了Kani,一种轻量级、可扩展且与模型无关的开源框架,专门用于构建语言模型应用程序。通过支持聊天交互的核心元素,Kani旨在使开发人员能够添加各种复杂的功能。模型交互、聊天管理和强大的函数调用是其中一些关键要素。 开发人员可以利用Kani的构建模块创建语言模型应用程序,而不受预定义结构或限制的限制,因为Kani以其适应性和可定制性而脱颖而出。所有Kani的基本功能都被设计为易于修改,并且研究团队还提供了广泛的文档。这使得开发人员可以根据自己的独特需求和要求修改框架的功能。 Kani是一种对学者、业余爱好者和商业人士都有用的工具。为了提高他们工作的可重复性,Kani帮助研究人员创建语言模型应用程序,同时提供了精细的控制。即使使用GPT-4或其他复杂模型,用户也可以使用Kani仅几行代码快速开始设计应用程序。Kani的灵活性和耐用性对于行业工作者尤其有利,特别是在聊天管理和函数管理等领域。 Kani需要Python 3.10+,简化了语言模型的安装和查询。通过pip安装,它提供了核心依赖项和可选的附加功能,如OpenAI引擎。Kani框架中的基本处理单元称为“Kani”。在使用Kani构建应用程序时,用户将使用和操作各种Kani对象,包括三个基本组件:推理引擎、聊天历史和函数上下文。 通过推理引擎,Kani对象与语言模型进行通信。在不更改应用程序代码的情况下,这种交互使开发人员能够轻松地在不同模型之间切换。Kani跟踪令牌总数和主题切换。它确保对话的上下文保持在模型的范围内,避免过度。最后,语言模型可以通过Kani访问可调用的函数。它验证函数调用,运行适当的代码,然后将结果发送回推理引擎。 总之,Kani被提出作为语言模型应用程序开发者所面临问题的解决方案。它允许定制、灵活性和使用开源方法创建令人难以置信的应用程序,使开发人员能够构建功能丰富的应用程序,并通过提供聊天交互的基本构建模块来保持控制和互操作性。

Leave a Comment

语言模型能够改变放射学吗?认识一下放射学Llama2:一个通过指令调整过程专门为放射学定制的大型语言模型

基于Transformer构建的大型语言模型(LLM),包括ChatGPT和GPT-4,展示了惊人的自然语言处理能力。Transformer-based NLP模型的创建引发了在计算机视觉和其他模态中设计和使用基于Transformer的模型的进展。自2022年11月以来,受到ChatGPT多样化特性和广泛赞誉的启发,LLM已经在临床研究、药学、放射学、阿尔茨海默病、农业和脑科学研究中得到应用,然而,它们在专业领域如医疗保健中的应用尚未广泛采用。首先,由于隐私法律的限制,医院无法将数据交换或上传到商业模型如ChatGPT或GPT-4,因此,本地化的大型语言模型对于现实世界的医疗保健至关重要。 需要在临床上有意义的领域数据上得到充分训练的模型,因为在特定领域如放射学这样的领域中,经过ChatGPT、GPT-4和PaLM 2等广域领域训练的LLM需要更多的医学专业知识。此外,虽然像ChatGPT这样的模型的Radiology-Llama2能够准确模仿放射学家的语言模式,但它们提供的回复更像维基百科,而不是实际放射学家使用的清晰简明的语言,这加快了信息传递的速度。最后,他们的研究为根据每位医生的偏好定制放射学助手铺平了道路。 通过指令调整来为放射学提供放射学印象的Radiology-Llama2 LLM填补了文献中的这一空白。研究表明,它在生成的印象的连贯性、简洁性和临床实用性方面优于标准LLM。 • 最先进的性能:在MIMIC-CXR和OpenI数据集上,超过所有其他语言模型以生成临床印象,创立了新的标准。 • 灵活性和动态性:与基于BERT的竞争对手不同,放射学-Llama2不受特定输入结构的限制,可以适应更广泛的输入和各种放射学任务,包括复杂的推理。 • 具有对话能力的临床可用性:生成式LLM具有内置的对话能力,可以回应查询并提供类似人类的上下文信息。这提高了诊断和报告的能力,使Radiology-Llama2对医学从业者在临床背景下非常有帮助。 图1显示了Radiology-Llama2的整体结构 当适当构建时,本地化的LLM可以革命性地改变放射学,就像Radiology-Llama2所展示的那样。 如果受到适当的监管,它对于临床决策辅助和其他用途具有很大的潜力。这项研究的结果为其他医学专业领域中的专门LLM打开了大门。总之,Radiology-Llama2是在医学中使用LLM的重要进展。这样的专门LLM可以通过对模型构建和评估的持续研究促进医疗人工智能的进步。

Leave a Comment

Wayve推出LINGO-1:一种新的AI模型,可以对驾驶场景进行评论并能回答问题

检测和诊断对于提高车辆的操作效率、安全性和稳定性至关重要。近年来,许多研究都探讨了使用可用车辆数据改进车辆诊断过程的数据驱动方法,同时采用了各种数据驱动方法来增强客户服务代理的交互。 自然语言在自动驾驶系统中扮演着重要角色,用于人车交互和车辆与行人及其他道路使用者的通信。它对于确保安全、用户体验和人类与自动系统之间的有效交互至关重要。设计应当清晰、具有上下文意识和用户友好性,以增强自动驾驶体验。 自动驾驶技术公司Wayve使用机器学习来解决自动驾驶挑战,消除了需要昂贵和复杂的机器人堆栈以及需要高度详细的地图和编程规则的需求。他们推出了一个开环驾驶评论员LINGO – 1。该技术通过从经验中学习,在任何环境和新地点进行驾驶而无需显式编程。 LINGO-1允许用户参与有意义的对话,使他们能够询问选择并了解场景理解和决策制定。它可以回答有关各种驾驶场景的问题,并澄清影响其驾驶决策的因素。乘客与自动驾驶车辆之间的这种独特对话可以增加透明度,使人们更容易理解和信任这些系统。 LINGO -1可以将来自摄像机和雷达的数据输入转换为转动方向盘或减速等驾驶输出。神经网络决策经过了全面的性能测试并进行了可靠的集成,以确保用户的安全。LINGO-1是在一个可扩展和多样化的数据集上进行训练的,该数据集包括了来自专家驾驶员在英国行驶时的图像、语言和行动数据。 LINGO -1可以执行各种活动,例如在红绿灯前减速、换道、通过注意到其他车辆的行动在交叉口停车等等。与人类水平的性能相比,LINGO-1的准确率达到了60%。这些结果是基于对其推理能力、对各种感知的问答和驾驶技能的评测。 LINGO-1还具有反馈机制,可以增强模型的适应能力并从人类反馈中学习。就像驾驶教练指导学员驾驶一样,纠正指导和用户反馈可以随时间改进模型的理解和决策过程。最后,可以得出结论,使用自然语言来增强基础驾驶模型的学习和可解释性是一个重要的第一步。

Leave a Comment

CMU研究人员提出了一种带有槽位主导模型(Slot-TTA)的测试时间自适应方法:一种半监督模型,配备有槽位主导的瓶颈,可以同时对场景进行分割和重构

计算机视觉中最具挑战和关键性的任务之一是实例分割。在图像或三维点云中精确描绘和分类对象的能力对于各种应用至关重要,从自动驾驶到医学图像分析。多年来,在开发最先进的实例分割模型方面取得了巨大进展。然而,这些模型通常需要应对与其训练分布不同的各种真实场景和数据集。将分割模型调整以处理这些分布范围之外(OOD)的情况的挑战推动了创新研究。一种引起重大关注的开创性方法是Slot-TTA(测试时间调整)。 在快速发展的计算机视觉领域中,实例分割模型取得了显著进展,使机器能够识别和精确分割图像和三维点云中的对象。这些模型已成为许多应用的基础,从医学图像分析到无人驾驶汽车。然而,它们面临着一个常见而严峻的对手-适应各种真实世界的场景和超出其训练数据范围的数据集。无法无缝地从一个领域过渡到另一个领域在有效部署这些模型方面构成了重大障碍。 卡内基梅隆大学、Google Deepmind和Google Research的研究人员推出了一种突破性解决方案,称为Slot-TTA,以解决这一挑战。这种创新方法旨在实现实例分割的测试时间调整(TTA)。Slot-TTA将基于槽位的图像和点云渲染组件的能力与最先进的分割技术相结合。Slot-TTA的核心思想是使实例分割模型能够动态适应OOD场景,从而显著提高其准确性和多功能性。 Slot-TTA基于调整的兰德指数(ARI)作为其主要分割评估指标。它在一系列数据集上进行了严格的训练和评估,包括多视图姿势的RGB图像、单视图的RGB图像和复杂的三维点云。Slot-TTA的区别特征在于其能够利用重建反馈进行测试时间调整。这一创新涉及对以前未见过的视点和数据集的分割和渲染质量进行迭代改进。 在多视图姿势的RGB图像中,Slot-TTA显示出强大的竞争力。通过对MultiShapeNetHard(MSN)数据集进行全面评估,证明了其适应性。该数据集包含超过51,000个ShapeNet对象,精心渲染在真实世界的HDR背景下。MSN数据集中的每个场景都有九个姿势RGB渲染图像,被策略性地分为Slot-TTA的训练和测试的输入和目标视图。研究人员特别注意确保训练集和测试集之间的对象实例之间没有重叠,并且场景中存在的对象数量没有重叠。这种严格的数据集构建对于评估Slot-TTA的鲁棒性至关重要。 在评估中,Slot-TTA与几个基准进行了比较,包括Mask2Former、Mask2Former-BYOL、Mask2Former-Recon和Semantic-NeRF。这些基准是用于比较Slot-TTA在训练分布内外的性能的基准。结果令人瞩目。 首先,Slot-TTA在OOD场景中使用TTA超过了Mask2Former,这是一种最先进的2D图像分割器。这表明Slot-TTA在适应各种真实场景方面的优势。 其次,在Mask2Former-BYOL中添加来自Bartler等人(2022年)的自监督损失未能带来改进,突显出并非所有TTA方法都同样有效。 第三,Slot-TTA没有分割监督,仅用于类似于OSRT(Sajjadi等人,2022a)的跨视图图像合成的变体,与像Mask2Former这样的有监督分割器相比效果显著下降。这一观察结果强调了在训练过程中进行分割监督对于有效的TTA的必要性。 Slot-TTA的强大之处还包括合成和分解新颖的未见RGB图像视图。使用与之前相同的数据集和训练-测试划分,研究人员评估了Slot-TTA的像素精确重构质量和分割ARI准确性,用于五个新颖的未见视点。此评估包括在TTA训练期间未见过的视图。结果令人震惊。 Slot-TTA在这些未知视点上的渲染质量显著提高,展示了它在新颖场景中增强分割和渲染质量的能力。相比之下,强大的竞争对手Semantic-NeRF在这些未知视点上很难推广,突出了Slot-TTA的适应性和潜力。 总之,Slot-TTA在计算机视觉领域代表了一次重大飞跃,解决了将分割模型适应多样的现实场景的挑战。通过结合以槽为中心的渲染技术、先进的分割方法和测试时适应性,Slot-TTA在分割准确性和多功能性方面取得了显著的改进。这项研究不仅揭示了模型的局限性,还为计算机视觉领域的未来创新铺平了道路。Slot-TTA承诺在不断变化的计算机视觉领域提升实例分割模型的适应性。

Leave a Comment

蛋白质设计的下一步是什么?微软的研究人员引入了EvoDiff:一种革命性的AI框架,用于基于序列的蛋白质工程

深度生成模型在原位创造新型蛋白质方面越来越强大。扩散模型是一类最近被证明能够产生与自然界中任何实际蛋白质都不同的生理学合理蛋白质的生成模型,它们在全新蛋白质设计中提供了无与伦比的能力和控制。然而,当前最先进的模型只能构建蛋白质结构,这严重限制了它们的训练数据范围,并将生成限制在蛋白质设计空间的一个微小且有偏见的部分。微软研究员开发了EvoDiff,这是一个通用的扩散框架,它通过结合进化规模的数据和扩散模型的独特调节能力,允许在序列空间中进行可调节的蛋白质创造。EvoDiff可以使结构合理的蛋白质变化多样,涵盖了所有可能的序列和功能范围。序列为基础的公式的普适性通过EvoDiff可以构建结构为基础的模型无法访问的蛋白质,例如那些具有无序部分的蛋白质,同时能够为有用的结构基序设计支架。他们希望EvoDiff能为蛋白质工程中的可编程序列优先设计铺平道路,使他们能够超越结构-功能范式。 EvoDiff是一个新颖的生成建模系统,仅基于序列数据进行可编程蛋白质创造,通过结合进化规模的数据和扩散模型开发而成。他们使用离散扩散框架,其中正向过程通过改变氨基酸的身份,迭代地破坏蛋白质序列,而学习到的反向过程则由神经网络参数化,预测每次迭代所做的更改,利用蛋白质作为离散令牌序列的自然特征。 蛋白质序列可以使用反向方法从头开始创建。与传统用于蛋白质结构设计的连续扩散公式相比,EvoDiff所使用的离散扩散公式在数学上具有显著的改进。多重序列比对(MSAs)突出显示了相关蛋白质群体的氨基酸序列的保守性模式和变异,从而捕捉到了超出单个蛋白质序列进化规模数据集的进化联系。为了利用这种额外的进化信息深度,他们构建了在MSAs上训练的离散扩散模型,以产生新的单一序列。 为了说明他们在可调节蛋白质设计方面的有效性,研究人员对一系列生成活动进行了序列和MSA模型(EvoDiff-Seq和EvoDiff-MSA)的检验。他们首先展示了EvoDiff-Seq可靠地产生高质量、多样化的蛋白质,准确反映了自然界中蛋白质的组成和功能。通过将具有类似但独特进化历史的蛋白质与对齐,EvoDiff-MSA允许引导开发新的序列。最后,他们展示了EvoDiff可以可靠地生成具有无序区域的蛋白质,直接克服了基于结构的生成模型的一个关键限制,并且可以生成没有任何显式结构信息的功能结构基序的支架,通过利用扩散模型框架的调节能力和其在通用设计空间中的基础。 为了生成具有序列限制的多样且新颖的蛋白质,研究人员提出了EvoDiff,这是一个扩散建模框架。通过挑战基于结构的蛋白质设计范式,EvoDiff可以通过从序列数据中生成内在无序区域和支撑结构基序,无条件地采样结构合理的蛋白质多样性。在蛋白质序列进化中,EvoDiff是第一个展示扩散生成建模效果的深度学习框架。 通过引导的调节,可以在未来的研究中添加这些能力。EvoDiff-D3PM框架对于通过引导进行调节工作是自然的,因为可以在每个解码步骤中编辑序列中的每个残基的身份。然而,研究人员观察到OADM在无条件生成方面通常优于D3PM,这可能是因为OADM的去噪任务比D3PM更容易学习。不幸的是,OADM和其他现有的条件LRAR模型(如ProGen)降低了引导的效果。预计通过将EvoDiff-D3PM与序列功能分类器所描述的功能目标进行调节,可以生成新颖的蛋白质序列。 EvoDiff的数据要求很低,这意味着它可以很容易地适应未来的用途,这是结构为基础方法所无法实现的。研究人员已经证明,EvoDiff可以通过填充而无需微调来创建IDR,避免了基于结构的预测和生成模型的一个经典陷阱。获取大规模测序数据集的结构的高成本可能会阻止研究人员使用新的生物、医学或科学设计选项,这些选项可以通过在应用特定数据集上微调EvoDiff来实现,例如来自展示库或大规模筛选的数据集。尽管AlphaFold和相关算法可以预测许多序列的结构,但在指示虚假蛋白质的结构时,它们在点突变方面存在困难,并且可能过于自信。 研究人员展示了几种粗粒度的通过支架和修复来调节产物的方式;然而,EvoDiff可以根据文本、化学信息或其他形式的模态来提供对蛋白质功能的更精细调控。在未来,可调节的蛋白质序列设计的概念将以多种方式使用。例如,有条件设计的转录因子或内切酶可用于程序化调节核酸;生物制剂可优化用于体内传递和运输;而酶底物特异性的零样本调节可以打开全新的催化途径。 数据集 Uniref50是一个包含约4200万个蛋白质序列的数据集,由研究人员使用。MSAs来自OpenFold数据集,其中包括16,000,000个UniClust30聚类和401,381个MSAs,涵盖了140,000个不同的PDB链。关于IDRs(内在无序区)的信息来自Reverse Homology GitHub。 研究人员在支架结构基元挑战中使用了RFDiffusion基线。在examples/scaffolding-pdbs文件夹中,您可以找到可用于有条件生成序列的pdb和fasta文件。examples/scaffolding-msas文件夹还包含可以根据特定条件创建MSAs的pdb文件。 当前模型 研究人员研究了两种前向技术,以决定在离散数据模态上扩散的最高效技术。每个粗体的步骤中,一个氨基酸被转换为唯一的掩码标记。完整序列在一定数量的阶段后被隐藏。该组还开发了离散去噪扩散概率模型(D3PM),专门用于蛋白质序列。在EvoDiff-D3PM的前向阶段,根据过渡矩阵对行进行突变采样。这一过程会一直持续,直到序列无法与氨基酸上的均匀样本区分开为止。在所有情况下,恢复阶段涉及重新训练神经网络模型以消除损害。对于EvoDiff-OADM和EvoDiff-D3PM,训练模型可以从遮蔽标记的序列或均匀采样的氨基酸产生新的序列。他们使用CARP蛋白质遮蔽语言模型中首次出现的扩张卷积神经网络架构,在UniRef50的4200万个序列上训练了所有EvoDiff序列模型。对于每种前向损坏方案和LRAR解码,他们开发了具有3800万和6400万训练参数的版本。 关键特点 为了生成可管理的蛋白质序列,EvoDiff将进化规模的数据与扩散模型结合。 EvoDiff可以使结构合理的蛋白质多样化,覆盖了可能序列和功能的全部范围。 除了生成具有无序区段和其他结构模型无法访问的特征的蛋白质之外,EvoDiff还可以产生用于功能性结构基元的支架,证明了基于序列的公式的普适性。 总之,微软科学家发布了一组离散扩散模型,可用于在基于序列的蛋白质工程和设计中进行进一步开发。可以根据结构或功能扩展EvoDiff模型,并且可以立即用于无条件、进化引导和有条件的蛋白质序列创建。他们希望通过直接使用蛋白质语言进行阅读和写入过程,EvoDiff将为可编程蛋白质创造开辟新的可能性。

Leave a Comment

麻省理工学院的研究人员创建了一个新的带注释的合成图像数据集,该数据集描绘了各种场景,以帮助机器学习模型理解场景中的概念

大规模预训练的视觉与语言模型在众多应用中展示出了非凡的性能,使得可以用无需指定固定的支持类别,而是通过(几乎任意的)自然语言查询进行零样本开放词汇推理。然而,最近的研究揭示了这些模型的一个根本缺陷。例如,它们无法理解超越名词的视觉语言概念(VLC),如非物体词语(例如属性、动作、关系、状态等)的意义,或者它们在组合推理方面的困难,如理解句子中词语顺序的重要性。 视觉与语言模型是强大的机器学习算法,可以学习将文本与图像匹配,当被要求生成视频标题或摘要时,它们展示出了非凡的结果。尽管这些模型擅长区分物体,但它们经常需要帮助理解概念,例如物体的属性或场景中物品的排列。例如,一个视觉与语言模型可能会看到图像中的杯子和桌子,但无法理解杯子在桌子上方的概念。 麻省理工学院的研究人员展示了一种利用计算机生成数据来帮助视觉与语言模型克服这个缺陷的新技术。具体而言,他们提出增强生成的视觉和文本数据的VLC和组合性方面,然后使用这些数据来微调VL模型,指导它们更加关注这些特征。此外,与实际数据始终伴随的隐私问题相比,合成数据不仅本质上是免费和无限可扩展的,而且可以不受隐私问题的限制。创建能够有效用于增强在大量实际数据上预训练的VL模型的VLC和组合性方面的合成数据,还面临其他技术挑战。与大多数以前关于生成合成视觉数据的工作不同,他们必须开发描述场景的组合元素的图像和文本。此外,他们生成利用真实物理3D模拟的合成视频,例如多样的3D环境和多样的3D物体、人体动作和动作资产,与物体的交互以及不同的摄像机角度。 以前的工作利用动作资产生成合成数据,但视觉数据没有伴随文本标题,并且需要考虑组合性。研究人员为合成视觉概念(SyViC)做出贡献,这是一个大规模(百万级)生成的合成VL数据集,具有丰富的文本标题,可以通过数据合成代码轻松扩展,以及所有先前生成的百万级合成数据。 贡献 研究人员贡献了SyViC – 一个百万级的合成数据集,具有丰富的文本注释,旨在增强VL模型的VLC理解和组合推理能力,以及其合成和潜在可扩展性的方法和生成代码库2。 有效的通用VL模型微调,利用SyViC数据改善强大的预训练VL模型的特性,而不损害其零样本性能。 实验结果和全面的消融研究表明,在最新的VL-Checklist、ARO和Winoground基准测试中,VLC理解和组合推理有显著改善(在某些情况下超过10%),并在最流行的CLIP模型及其衍生模型(例如最新的CyCLIP)上得到验证。 结果 使用所提出的方法和SyViC合成数据生成了所有模型的变体。在对SyViC进行微调之前,将每个模型与其分别在大规模实际数据上训练的源模型进行了比较。根据研究人员的发现,无论是SyViC合成数据还是提出的微调方法,都相对于各自的源基线表现出显著的改进。此外,研究人员还展示了在VL-Checklist和ARO基准测试中为CLIP获得的个别VLC指标改进,分别达到9.1%和12.6%的绝对改进。这证明了该方法和SyViC合成数据在提高VL模型的VLC理解和组合推理能力方面的效率和潜力。 在这里尝试 https://synthetic-vic.github.io/ 局限性 尽管研究人员在三个不同的基准测试中获得了相当有希望的结果,但他们的工作还存在一些限制。例如,图形模拟器对照片亮度、传感器噪声和反射函数的模型与实际世界相比较简化,可能影响颜色恒定性的稳健性。更复杂的领域适应和渲染技术可能需要进一步提高结果。此外,对合成数据的缩放规律进行更深入的研究将是充分发挥该工作潜力的一种优秀方式。 总结 大型视觉和语言模型决定了计算机视觉和多模态感知的现状,在多个困难的基准测试中取得了尖端的成果。然而,现有模型在组合推理和理解物体名词之外的概念(如属性和关系)方面需要帮助。这是第一次研究合成数据是否可以减轻这些不足。麻省理工学院的研究人员提出了一个数据生成流水线,用于创建一个百万级的合成图像数据集和相应的标题,并提供了一种高效的微调策略和全面的分析,以提高多模态模型的组合和概念理解能力,同时不影响它们的零样本分类性能。

Leave a Comment

“见证CodiuAI:为开发者打造的终极AI测试助手”

在快节奏的软件开发世界中,编写测试通常被认为是一项繁琐的任务,会占用实际编码的时间。遇见 CodiumAI,一款革命性的工具,旨在通过在集成开发环境中生成有意义的测试来让您的生活更轻松。无论您是在处理小型脚本还是大型项目,CodiumAI 都能满足您的需求。它支持几乎所有的编程语言,让您可以编写智能代码,创造更多价值,并在推送更改时保持自信。有了 CodiumAI,您可以真正按照自己的意图编码。 CodiumAI 的关键功能 生成测试套件 CodiumAI 不仅是另一个测试工具;它是您的自动化测试助手。它允许您为各种类型的代码生成全面的测试套件,无论是类、函数还是小片段。自动化过程旨在节省您的时间和精力,让您专注于自己最擅长的——编码。 无论您是要测试特定的类、函数还是一小段代码,CodiumAI 都提供了生成有意义的测试用例的功能。这些测试确保您的代码质量和可靠性,使您的开发过程更加高效。 代码分析 质量不仅仅是通过测试,还包括理解代码的底层结构和行为。CodiumAI 提供了深入的代码分析功能,超越表面。在生成测试套件的同时,CodiumAI 的 TestGPT 模型从头到尾分析您的代码,以简单的文本输出向您提供有价值的见解。 代码建议 CodiumAI 进一步提供了“代码建议”功能。这个高级工具分析您的代码并提供有价值的改进建议。凭借 TestGPT 提供的能力,该功能将其专业知识扩展到代码质量的各个方面,从性能优化到最佳实践。 运行测试 一旦生成了全面的测试套件,运行测试就变得轻而易举。CodiumAI 通过其面板提供了无缝体验,您可以在其中执行测试以确定其是否通过。这确保您可以快速识别问题,并进行必要的调整,而无需离开开发环境。…

Leave a Comment

这项人工智能研究介绍了AstroLLaMA:一种从LLaMA-2微调的70亿参数模型,使用了来自ArXiv的30万多个天文学摘要

大型语言模型(LLM)的出现引起了许多领域的关注,因为几个重要因素同时出现。这些因素包括可获得的大量数据、计算机性能的提升以及神经网络设计的突破。像GPT-4、PaLM和LLaMA这样的著名模型表明,它们能够非常好地完成许多不同的任务。这些任务通常使用的方法包括给它们提示、微调它们的能力以及从人类那里获得反馈来帮助它们学习和改进。天文学学科既是一个独特的挑战,也是LLMs应用的肥沃土壤。 在上面的图片中,我们可以注意到每个模型都以相同的短文本片段为提示,在各自的框中进行了突出显示。GPT-4往往产生更加通用的陈述,缺乏领域特定的细微差别。AstroLLaMA展示了最强大的完成能力,提供了更相关的概念和更深入的洞察,特别适用于天文学领域,因此在性能上显著优于LLaMA-2和GPT-4。 然而,AstroLLaMA确实存在一些需要认识到的局限性。一个重要的局限性是模型在天文学特定领域的知识缺乏,AstroLLaMA从Gaia-ESO数据中估计潜在星体候选者的能力明显不准确。为了解决这些问题,研究人员目前正在努力增强AstroLLaMA的训练数据集。研究人员计划不仅使用摘要,还将纳入现有天文学文章的完整LaTeX源代码。这样的扩展将大大增加模型能够学习的令牌数量。 AstroLLaMA是专门为天文学设计的令人印象深刻的大型语言模型(LLM)的原型。它展示了非凡的上下文感知能力,即使它的参数大大少于GPT-4,也能胜过GPT-4。这一进展不仅为回答问题、总结科学内容和生成假设等各种任务的性能提供了机会,而且对于多模型模型也具有重要意义。

Leave a Comment

斯坦福研究人员推出Protpardelle:一种突破性的全原子扩散模型,用于蛋白质结构和序列的共同设计

在蛋白质设计方面取得了令人瞩目的进展,一支研究团队揭示了全原子扩散模型Protpardelle,该模型解决了连续和离散蛋白质结构之间复杂的相互作用。该模型通过生成具有卓越质量、多样性和新颖性的蛋白质,突破了该领域的传统界限。 蛋白质是生物功能的关键,通过精确的化学相互作用协调各种重要过程。挑战在于准确地建模这些主要由侧链控制的相互作用,以实现有效的蛋白质设计。Protpardelle利用一种独特的“叠加”技术,涵盖了各种潜在的侧链状态,随后将它们折叠起来启动逆扩散进行样本生成。 通过与序列设计方法的协同作用,Protpardelle开创了全原子蛋白质结构和序列的共同设计。生成的蛋白质表现出卓越的质量,通过广泛接受的度量标准评估自洽性。这个度量标准预测设计序列的结构构象,并测量预测结构与采样结构之间的一致性。Protpardelle在长度不超过300个残基的蛋白质上始终保持着超过90%的成功率,与现有方法相比,在设计性方面取得了显著的进步。此外,它以大幅降低的计算成本实现了这一成就,突显了其高效性。 多样性是生成模型的一个关键特征,它能够防止模式崩溃并拓宽可行解的范围。Protpardelle在这方面表现出色,将样本聚类以揭示丰富的结构多样性。它在生成具有广泛的α型和β型结构的蛋白质方面具有出色的能力,证明了其多功能性。 重要的是,Protpardelle不受训练数据集的约束。它展示了锻造与训练集中不同的新型蛋白质的出色能力。这意味着它有潜力通过进入未知领域来改变蛋白质工程的方式。 Protpardelle的全原子模型在无条件蛋白质生成方面展示了其卓越能力,尤其在长度不超过150个残基的蛋白质方面表现出色。在结构相似性度量标准的评估下,它达到了约60%的成功率。对样本的视觉检查显示了多样的蛋白质折叠方式,丰富地装饰有二级结构元素。 Protpardelle精确地保持了生成样本的化学完整性,与天然蛋白质中观察到的键长和键角分布一致。该模型巧妙地捕捉了天然分布的主要chi角模式,提供了侧链行为的全面描述。 团队的网络架构是Protpardelle非凡能力的基础,它采用了具有策略性设计层和注意力头的U-ViT结构。噪声调节在训练过程中注入了关键信息。该模型在CATH S40数据集上进行了精心训练,证明了其基础的鲁棒性。 Protpardelle的独特去噪步骤是其采样过程的关键要素,进一步巩固了其尖端方法。这种改进的算法能够熟练地应对蛋白质生成过程的复杂性,优化参数以获得最佳结果。 Protpardelle的引入标志着蛋白质设计的范式转变,为生物技术和制药开启了前所未有的可能性。它将结构和序列无缝地融合在一起,有潜力在该领域开创新时代。随着研究人员继续探索其无限的能力,Protpardelle注定将重塑蛋白质设计和工程的领域。

Leave a Comment

遇见Würstchen:一个超快速和高效的扩散模型,其文本条件组件在高度压缩的图像潜空间中运作

文本到图像生成是人工智能领域中的一项具有挑战性的任务,它涉及从文本描述中创建图像。这个问题计算量大,并且训练成本高昂。对高质量图像的需求进一步加剧了这些挑战。研究人员一直在努力在这个领域中平衡计算效率和图像保真度。 为了高效解决文本到图像生成问题,研究人员引入了一种创新的解决方案,称为Würstchen。这个模型通过采用独特的两阶段压缩方法在该领域中脱颖而出。阶段A采用VQGAN,而阶段B使用扩散自动编码器。这两个阶段一起被称为解码器。它们的主要功能是将高度压缩的图像解码成像素空间。 Würstchen之所以与众不同,是因为它具有出色的空间压缩能力。而以前的模型通常只能实现4倍到8倍的压缩比,Würstchen通过实现了惊人的42倍空间压缩,突破了常见方法的局限性,这些方法在16倍空间压缩后往往难以忠实地重建详细图像。 Würstchen的成功归功于它的两阶段压缩过程。阶段A,即VQGAN,在将图像数据量化为高度压缩的潜空间中发挥关键作用。这种初始压缩显著减少了后续阶段所需的计算资源。阶段B,即扩散自动编码器,进一步改进了这种压缩表示,并以卓越的保真度重建图像。 将这两个阶段结合起来,就产生了一个能够从文本提示中高效生成图像的模型。这降低了训练的计算成本,提高了推断速度。重要的是,Würstchen在图像质量上没有妥协,使其成为各种应用的一个引人注目的选择。 此外,Würstchen还引入了阶段C,即先验,它是在高度压缩的潜空间中训练的。这为模型增加了额外的适应性和效率。它使Würstchen能够快速适应新的图像分辨率,最大限度地减少了针对不同场景进行微调的计算开销。这种适应性使其成为研究人员和组织在处理不同分辨率图像时的多功能工具。 Würstchen的训练成本降低可通过以下事实得以体现:Würstchen v1在512×512分辨率下只需要9000个GPU小时,而相同分辨率下的稳定扩散1.4则需要150,000个GPU小时。这种大幅降低的成本使研究人员可以更好地进行实验,并使组织更容易利用这种模型的强大功能。 总而言之,Würstchen为文本到图像生成领域的长期挑战提供了一种突破性的解决方案。其创新的两阶段压缩方法和令人瞩目的空间压缩比在效率方面树立了新的标准。通过降低训练成本和快速适应不同图像分辨率,Würstchen成为加速文本到图像生成领域的研究和应用开发的有价值的工具。

Leave a Comment

“猜猜我今天看到了什么?这个AI模型可以解码你的脑信号,重建你看到的东西”

大脑 ,人体最迷人的器官。理解它的工作原理是解开生命秘密的关键。我们是如何思考、感知、嗅觉、感觉、行动的?所有这些问题的答案都在于理解大脑的工作原理。 理解大脑对我们所看到的内容的反应是一个热门研究课题,因为这种知识可能导致先进的计算认知系统的发展。由于我们有功能磁共振成像(fMRI)和脑电图(EEG)等先进工具,科学家现在可以记录由视觉刺激引发的大脑活动。这导致了对解码和重建引发人脑这些反应的实际内容的兴趣日益增长。 研究人类视觉感知的一种常见方法是重建被试者在实验中看到的图像或视频。这是通过使用计算方法,尤其是深度神经网络,并且主要基于fMRI数据来完成的。然而,收集fMRI数据在实际使用中既昂贵又不方便。我的意思是,如果你曾经在MRI设备中待过,你可能知道待在那里是多么的不舒服。没有人愿意自愿参加这样的实验。 这就是脑电图的作用。脑电图是一种更高效的记录和分析大脑信号的方法,被试者在观看各种刺激时使用,但它也面临着自己的挑战。脑电图信号是时间序列数据,与静态图像非常不同。这使得将刺激与相应的脑信号片段匹配变得困难。此外,电极放置错误和身体运动等问题会给数据引入显著的噪声。简单地将脑电图输入映射到像素以进行图像重建会产生低质量的结果。 另一方面,扩散模型已经成为生成建模中的最先进方法。它们已成功应用于各种任务,包括图像合成和视频生成。通过在强大的预训练自动编码器的潜在空间中操作,研究人员克服了像素空间评估的局限性,实现了更快的推理和降低的训练成本。 让我们来认识一下NeuroImageGen,它利用扩散模型的强大功能来解决这个问题。 NeuroImageGen是使用脑电图信号进行神经图像生成的流程。它通过加入多级语义提取模块来解决与基于脑电图的图像重建相关的挑战。该模块从脑电图信号中解码出不同级别的语义信息,从样本级语义到像素级细节(如显著性图)等各种级别。然后,这些多级输出被输入到预训练的扩散模型中,有效地控制不同语义级别上的生成过程。 脑电图信号是复杂的时间序列数据,容易受到噪声的影响,使其难以处理。 NeuroImageGen通过提取多级语义(包括像素级和样本级信息)来克服这一问题。像素级语义涉及通过显著性图捕捉视觉刺激的细粒度颜色、位置和形状细节。另一方面,样本级语义提供了更粗粒度的理解,如识别图像类别或文本标题。这种多级方法使得NeuroImageGen能够有效处理嘈杂的脑电图数据,实现高质量的视觉刺激重建。 NeuroImageGen概览。来源:https://arxiv.org/abs/2308.02510 NeuroImageGen将这些多级语义集成到隐式扩散模型中进行图像重建。从脑电图特征生成的显著性图作为初始图像。从图像标题的CLIP模型嵌入中派生的样本级语义指导扩散模型中的去噪过程。这种集成允许在重建过程中灵活控制不同级别的语义信息。结果是重建的视觉刺激,它有效地结合了细粒度和粗粒度信息,产生高质量的图像。 这种方法的结果是令人鼓舞的,在脑电图数据上胜过了传统的图像重建方法。NEUROIMAGEN显著提高了重建图像的结构相似性和语义准确性,提高了我们对视觉刺激对人脑的影响的理解。

Leave a Comment

稳定AI引入稳定音频:一种新的人工智能模型,可以根据文本提示生成音频片段

Stability AI推出了一项突破性技术——稳定音频(Stable Audio),这标志着音频生成迈出了重要的一步。这项创新解决了从简单文本提示中创建自定义音频片段的挑战。虽然Stability AI以其文本到图像生成技术——稳定扩散(Stable Diffusion)而闻名,但现在它已经将自己的专业知识扩展到了音乐和音频领域。这一发展是在他们成功进军图像合成领域——通过引入Stable Diffusion的SDXL基础模型之后。 到目前为止,通过“符号生成”技术生成基本音频轨道是可能的,通常涉及MIDI文件。然而,稳定音频通过使用户能够创作全新的音乐作品而超越了这一点,摆脱了通常与MIDI和符号生成相关的重复音符的限制。这一成就归功于该模型与原始音频样本的直接交互,从而产生出更优质的输出。该模型的训练涵盖了来自AudioSparks库的80万多首经过许可的音乐作品,这为其出色的性能做出了贡献。这个丰富的数据集确保了高质量的音频,并提供了全面的元数据,这是基于文本的模型的一个关键因素。 与可以模仿特定艺术家风格的图像生成模型不同,稳定音频并不试图模仿像披头士乐队这样的标志性乐队。这个有意的选择源于对音乐家追求在没有严格风格限制的情况下踏上自己的创作之旅的理解。相反,稳定音频赋予用户探索他们独特音乐表达的能力。 稳定音频模型是一个拥有大约12亿参数的扩散模型,与图像生成的原始稳定扩散模型相媲美。为了生成音频,文本提示是稳定AI使用对比语言音频预训练(CLAP)技术精心制作和训练的。为了帮助用户制作有效的提示,Stability AI将与稳定音频发布同时发布一个提示指南。 稳定音频将通过免费版本和每月12美元的专业计划提供。免费版本每月可生成最多20个音频片段,每个片段长达20秒。相比之下,专业版本提高了这些限制,使用户可以生成500个片段,并将音轨时长延长到90秒。 总之,Stability AI发布的稳定音频标志着音频生成技术的新时代。该公司通过利用先进的AI技术,为将文本提示转化为原创音频片段提供了一个无缝的平台。这一创新拓展了创作表达的视野,并展示了AI驱动的音乐和音频制作解决方案的潜力。稳定音频以其可接受的价格层次,将成为有抱负和专业音频创作者的宝贵工具。

Leave a Comment

“解锁视觉Transformer中的效率:稀疏移动视觉MoEs在资源受限应用中胜过密集对应物”

一种称为Mixture-of-Experts (MoE)的神经网络架构将各种专家神经网络的预测结果结合起来。MoE模型处理复杂的工作,其中问题的几个子任务或元素需要专门的知识。它们的引入是为了增强神经网络的表示能力,并使其能够处理各种具有挑战性的任务。 此外,一种称为稀疏门控Mixture-of-Experts (MoE)模型的神经网络架构通过在门控机制中添加稀疏性来扩展传统的MoE模型的概念。这些模型的创建旨在提高MoE设计的效率和可扩展性,使其能够处理大规模的任务,并降低计算成本。 由于它们能够在每个给定的输入标记上独占激活模型参数的一小部分,它们可以将模型大小与推理效率分离。 在使用神经网络(NNs)时,尤其是当只有少量计算资源可用时,平衡性能和效率仍然是困难的。最近,稀疏门控Mixture-of-Experts模型(稀疏MoEs)被视为潜在的解决方案,它们可以将模型大小与推理效果分离。 稀疏MoEs提供了增加模型功能同时降低计算成本的可能性。这使得它们成为与Transformer集成的选择,后者是大规模视觉建模的主要架构选择。 因此,苹果研究团队在他们的论文《Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts》中介绍了稀疏Mobile Vision MoEs的概念。这些V-MoEs是一种高效、适用于移动设备的Mixture-of-Experts设计,能够在缩小视觉Transformer(ViTs)的同时保持卓越的模型性能。 研究人员强调他们开发了一种简单而强大的训练过程,通过利用语义超类来引导路由器训练,避免了专家不平衡的问题。它使用每个图像一个路由器,而不是每个补丁的路由器。在传统的每个补丁的路由器中,通常为每个图像激活更多的专家。然而,每个图像一个路由器减少了每个图像激活的专家数量。 研究团队通过训练基线模型开始训练阶段。然后,在训练数据集中保留的验证集上记录了模型的预测结果,创建了一个混淆矩阵。然后,使用这个混淆矩阵作为基础,对混淆图进行图聚类算法处理。由此过程形成了超类划分。 他们表示该模型在标准的ImageNet-1k分类基准测试上呈现了实证结果。他们从头开始在包含1.28M个图像的ImageNet-1k训练集上训练了所有模型,然后在包含50K个图像的验证集上评估了它们的Top-1准确率。 研究人员希望将MoE设计应用于除了ViTs之外的其他移动设备友好的模型。他们还打算考虑其他视觉任务,如目标检测。此外,他们希望对所有模型的实际设备延迟进行量化。

Leave a Comment

谷歌AI的新范式如何消除多步机器学习ML算法中的组合成本,以提高效用

在当今的数据驱动环境中,确保隐私的同时最大化机器学习和数据分析算法的效用一直是一个重要的挑战。组合成本是一个导致整体隐私保障随多次计算步骤而恶化的显著障碍。尽管在基础研究和差分隐私的采用方面取得了进展,但在隐私和效用之间找到正确的平衡仍然是困难的。 现有的方法如DP-SGD在机器学习模型训练过程中保护隐私方面取得了进展。然而,它们依赖于将训练样本随机分成小批次,这限制了它们在需要数据相关选择的场景中的有效性。 让我们来认识一下Reorder-Slice-Compute(RSC)范式,这是在STOC 2023上提出的一项开创性发展。这个创新性框架提供了一种解决方案,允许自适应切片选择并避免组合成本。通过遵循涉及有序数据点、切片大小和差分隐私算法的特定结构,RSC范式为在不损害隐私的情况下增强效用开辟了新的道路。 来自广泛研究和实验的指标显示了RSC范式的强大之处。与传统方法不同,RSC分析消除了对步数的依赖,从而实现了与单步相当的整体隐私保证。这一突破显著提高了DP算法在一系列基本聚合和学习任务中的效用。 RSC范式的一个杰出应用在于解决私有区间点问题。通过智能选择切片并利用新颖的分析方法,RSC算法以对数*|X|点的顺序实现了保护隐私的解决方案,填补了以前的DP算法中的重要差距。 RSC范式还解决了常见的聚合任务,如私有近似中位数和私有学习轴对齐矩形。通过采用针对特定问题的一系列RSC步骤,该算法限制了错误标记的点,提供准确且私密的结果。 此外,RSC范式为ML模型训练提供了一种改变游戏规则的方法。通过允许根据数据依赖性选择训练样本的顺序,它与DP-SGD无缝集成,消除了与组合相关的隐私恶化。这一进展将在生产环境中彻底改变训练效率。 总而言之,Reorder-Slice-Compute(RSC)范式是在数据驱动环境中平衡隐私和效用的长期挑战的一种变革性解决方案。其独特的结构和新颖的分析承诺在各种聚合和学习任务中开启新的可能性。RSC范式通过消除组合成本为更高效和保护隐私的机器学习模型训练铺平了道路。这一范式转变标志着大数据时代坚实数据隐私追求的一个关键时刻。

Leave a Comment

谷歌AI研究员推出MADLAD-400:一个覆盖419种语言的2.8T令牌网络域数据集

在不断发展的自然语言处理(NLP)领域中,机器翻译和语言模型的发展主要受到英语等语种的大量训练数据集的影响。然而,研究人员和实践者面临的一个重要挑战是需要更多多样化且高质量的训练数据,以应对不常用语言的需求。这一限制制约了全球各种语言社群NLP技术的进步。为了解决这个问题,一支专门的研究团队着手创建解决方案,最终诞生了MADLAD-400。 要理解MADLAD-400的重要性,我们必须首先审视多语言NLP数据集的当前情况。长期以来,研究人员一直依赖于从许多来源获取的网络抓取数据来训练机器翻译和语言模型。虽然这种方法对于拥有丰富在线内容的语言取得了显著成果,但在处理不常用语言时效果不佳。 MADLAD-400的研究团队认识到了这种传统方法的局限性。他们了解到网络抓取数据往往伴随着一系列挑战。噪音、不准确性和质量不一的内容只是在依赖网络数据时出现的一些问题。此外,当处理数字存在性有限的语言时,这些问题会更加严重。 针对这些挑战,研究团队着手创建一个跨多种语言范围且符合最高质量和道德内容标准的多语言数据集。他们的努力成果就是MADLAD-400,这个数据集承诺重新定义我们为多语言应用训练和开发NLP模型的方式。 MADLAD-400展示了研究团队的专注和细致精神。这个数据集的与众不同之处在于它经历了严格的审计过程。与许多多语言数据集不同,MADLAD-400并不仅仅依赖于自动化的网络抓取。相反,它涉及对419种语言的广泛手动内容审计。 审计过程可谓艰巨。它需要熟练掌握各种语言的人才,因为研究团队需要仔细检查和评估跨语言边界的数据质量。这种亲自动手的方法确保了数据集符合最高质量标准。 研究人员还详细记录了他们的审计过程。这种透明度对于数据集使用者来说是无价的,它提供了关于确保数据质量所采取的步骤的见解。这份文档不仅是指南,也是科学研究中可重复性的基础原则。 除了手动审计外,研究团队还开发了过滤器和检查机制,以进一步提高数据质量。他们识别和解决了版权材料、仇恨言论和个人信息等问题。这种主动的数据清理方法最大程度地减少了不良内容进入数据集的风险,确保研究人员能够自信地工作。 此外,MADLAD-400还体现了研究团队对包容性的承诺。它涵盖了多种语言,为经常在NLP研究中被忽视的语言社群发声。MADLAD-400打开了开发更具包容性和公平性的NLP技术的大门,包括了主流语言之外的语言。 虽然MADLAD-400的创建和策划本身就是令人印象深刻的成就,但这个数据集的真正价值在于它的实际应用。研究团队进行了大量实验,展示了MADLAD-400在训练大规模机器翻译模型方面的有效性。 结果明显。MADLAD-400显著提高了广泛语言范围内的翻译质量,展示了其推动机器翻译领域发展的潜力。该数据集为跨越语言障碍、促进语言交流提供了坚实的基础。 总的来说,MADLAD-400是多语言自然语言处理领域的一个重要成就。通过精心策划和包容性承诺,这个数据集解决了紧迫的挑战,赋予了研究人员和实践者接纳语言多样性的能力。它在追求更具包容性的多语言NLP的征程中扮演着进步的指引,为语言技术服务于全球受众带来了希望。

Leave a Comment

阿里巴巴集团的这篇论文介绍了FederatedScope-LLM:一种用于联邦学习中微调LLM模型的全面套件

如今,像Hugging Face这样的平台使得从AI研究人员到机器学习经验有限的用户都能够更轻松地访问和利用预训练的大型语言模型(LLM)来为不同实体服务。当多个这样的组织或实体在共享类似的任务时,由于隐私法规的限制而无法直接交换本地数据时,联邦学习(FL)成为利用这些实体的集体数据的显著解决方案。FL还提供了强大的隐私保护,保护其模型思想的安全,并允许他们使用不同的方法创建定制模型。 在这项工作中,研究人员建立了一个全面的端到端基准测试流水线,简化了数据集预处理、执行或模拟联邦微调以及在联邦大型语言模型(LLM)微调环境中评估性能的过程,旨在为各种能力演示目的设计。 上述图片展示了FS-LLM的架构,包括三个主要模块:LLMBENCHMARKS、LLM-ALGZOO和LLM-TRAINER。团队已经开发了强大的联邦参数高效微调(PEFT)算法的实现和多功能的编程接口,以便未来的扩展,即使处理闭源LLM,也能够在联邦学习(FL)场景中有效地运行LLM,减少通信和计算开销。 他们的网站上提供了详细的教程:federatedscope.io 您可以通过FederatedScope Playground或Google Colab尝试FederatedScope。 他们的方法还结合了加速技术和资源有效的策略,以在资源约束下微调LLM,并提供灵活的可插拔子例程,用于跨学科研究,例如在个性化联邦学习设置中应用LLM。 该研究包括一系列广泛且可再现的实验证明了FS-LLM的有效性,并在联邦环境中使用最先进的参数高效微调算法建立了先进LLM的基准。根据这些实验结果的发现,我们概述了未来联邦LLM微调研究的一些有希望的方向,以推进FL和LLM社区的发展。

Leave a Comment

人工智能与图像生成的美学

介绍 在这场令人兴奋的技术与创造力的融合中,人工智能(AI)赋予了图像生成以生命,改变了我们对创造力的理解。本博客探讨了“人工智能与图像生成的美学”,它涉及到像神经风格迁移和生成对抗网络(GANs)这样的AI技术在艺术表达中的技术方面。当像素和算法融合在一起时,数学准确性和美学吸引力之间的共生表现是显而易见的。让我们一起探究这种联系,并重新定义在人工智能和人类视觉共同推动创造力边界的时代中成为艺术家的含义。 学习目标 你将学习一些图像生成的方法。 你将了解创造力和技术融合的重要性。 我们将检查AI生成艺术的视觉质量。 你将了解人工智能对创造力的影响。 本文是数据科学博客马拉松的一部分。 图像生成的演变 人类的双手和创造力主要塑造了图像生成的起源。艺术家使用画笔、铅笔和其他材料精心创作视觉表现。随着数字时代的到来,计算机开始在这个领域发挥更大的作用。计算机图形最初是基础的、像素化的,缺乏人类触感的优雅。随着算法的改进,图像得到了增强,但仍然只是算法。 人工智能现在处于巅峰状态。在深度学习和神经网络的进步,特别是生成对抗网络(GANs)的改进之后,AI领域取得了显著发展。 AI已经从一个工具发展成为一个合作伙伴。由于它们的网络方法,GANs开始产生有时与照片有所不同的图像。 利用创造性AI探索风格和流派 创造性AI是一种可以帮助我们探索艺术、音乐和写作中不同风格和流派的工具。想象一下拥有一个能够分析著名绘画并创建融合不同风格的新艺术品的计算机程序。 在视觉艺术的世界中,创造性AI就像一个数字画家,可以以多种风格生成图像。想象一个计算机程序,它已经看过数千幅图片,从古典肖像到现代抽象艺术。通过学习这些图片,AI可以创作融合不同风格甚至发明风格的新图像。 例如,你可以生成将逼真的纹理与富有想象力的角色相结合的图像。这使得艺术家和设计师可以尝试各种创新思路,并开发出有趣的角色和独特的设计,这些设计是以前从未被考虑过的。 伦理问题的考虑 给予原创艺术家应有的认可:给予启发AI创作的艺术家应有的认可是一个关键问题。如果AI创建了类似于著名绘画的作品,我们应该确保原创艺术家得到应有的赞誉。 所有权和版权:谁拥有AI创作的艺术品?是编写AI程序的人,还是启发AI的艺术家共享所有权?为了避免冲突,必须明确回答这些问题。 AI中的偏见:AI在创作艺术时可能更偏好某些风格或文化。这可能是不公平的,应该仔细考虑以保护所有艺术形式。 可访问性:如果只有少数人能够使用新的AI工具,这对其他希望使用它们并利用它们提高生产力的人来说是不公平的。 数据隐私:当AI研究艺术以学习如何创作自己的艺术时,通常需要使用许多图像和数据。 情感影响:如果AI创作出与人类创作的艺术类似的作品,原创作品的情感价值可能会被忽视。 像许多其他技术和传统的交汇点一样,人工智能和艺术的交汇点是令人兴奋和具有挑战性的。伦理关切确保增长符合理想和包容性。 创建图像的方法论…

Leave a Comment

如何使内容更贴近人性化并避免AI抄袭

ChatGPT、Bard和Bing可以比尤塞恩·博尔特跑100米更快地输出人工智能生成的内容。但是,这种速度带来了问题——内容质量更接近抄袭和不可靠的领域。 另一个原因是,按照学术标准,ChatGPT从不引用其来源。它可能会产生幻觉,并凭空提取信息,这对于任何试图避免抄袭的人都没有帮助。 所以,我将展示如何使文本更人性化,以通过人工智能抄袭检测器。但首先,我将深入探讨人工智能抄袭检测器的工作原理。继续阅读以发现帮助您避免人工智能抄袭的工具以及为什么您需要它们。 解构人工智能抄袭检测器的工作原理 人工智能抄袭检测器是一种用于确定您提交的内容是否独特或由人工智能生成的工具。 当像Bard和Bing这样的聊天机器人生成用户内容时,它们经常逐字逐句地从其他网站和在线资源中提取信息。这使得它们很容易被检测出来,因为它们遵循一个预定和可预测的模型。 这是一个例句:“太阳在_____中照耀明亮。” 在上面的例子中,最有可能的延续是“早晨”,因为太阳照耀与早晨有关。这是一个创造力有限的机器人会想到的。然而人类可能会说:“太阳在夜晚中照耀明亮”,因为他们生活在北半球或者他们正在探索前卫的创造力。 这就是人工智能检测器和抄袭检测器的核心工作原理。 首先,人工智能抄袭检测器尝试预测内容的复杂性和爆发性。 复杂性衡量了普通用户理解输出的能力。具有高复杂性的内容通常是人类生成的。即使您使用高级提示和插件,人工智能内容听起来也很平淡和重复。 同样,爆发性指的是句子长度和节奏的变化。人工智能生成的内容中的句子通常具有可预测的节奏和长度。 当人类写作时,爆发性很高,因为我们可以陷入冗长来使我们的观点更清晰和更直接,就像我现在用这个句子一样。 有时候,我们会简单表达。 然而,人工智能内容生成器通常产生一个恒定的句子节奏。如果不是这样,它们会用废话填充句子的其余部分。 凭借这些变量(复杂性和爆发性)和其他技术考虑因素,人工智能抄袭检测工具可以检测到由机器人或非人类虚拟助手编写的文章。 但是存在一个问题。 在线使用人工智能抄袭检测器并不能可靠地测试作品的独特性。其中一些工具是不可靠的——我们甚至不知道它们的创建者或算法背后的情况。 此外,有时候人工智能检测器会产生误报,可能会破坏无辜受害者的声誉。甚至大学都担心这些虚假的抄袭标志。 但是,与其花时间为一个根本没有发生的抄袭案辩护,不如向您展示如何绕过人工智能抄袭检测。 如何避免人工智能抄袭 与其完全避免使用人工智能并错过其无数的好处,不如使用以下技巧来克服其局限性: 消除词语重复 使用人工智能生成内容后,编辑结果并删除重复内容。 首先,您不希望您的文本读起来像一个在写作过程中已经没有了思路,只想达到指定字数的高中学生。…

Leave a Comment

微软研究人员提出了InstructDiffusion:一种统一且通用的人工智能框架,用于将计算机视觉任务与人类指令对齐

在向可适应、普适视觉模型迈出重大一步的突破性进展中,来自微软亚洲研究院的研究人员发布了InstructDiffusion。这一创新性框架通过为多种视觉任务提供统一的接口,革命性地改变了计算机视觉领域的格局。论文《InstructDiffusion: A Generalist Modeling Interface for Vision Tasks》介绍了一种能够同时处理各种视觉应用的模型。 InstructDiffusion的核心是一种新颖的方法:将视觉任务构建为人类直观的图像处理过程。与依赖预定义输出空间(如类别或坐标)的传统方法不同,InstructDiffusion在灵活的像素空间中运作,更接近人类感知。 该模型旨在根据用户提供的文本指令修改输入图像。例如,“在红色中圈出男人的右眼”这样的指令可以使模型适用于关键点检测等任务。同时,“将蓝色掩码应用于最右侧的狗”这样的指令可用于分割。 支撑该框架的是去噪扩散概率模型(DDPM),它生成像素输出。训练数据包括三元组,每个三元组由指令、源图像和目标输出图像组成。该模型被设计为处理三种主要输出类型:RGB图像、二值掩码和关键点。这涵盖了广泛的视觉任务,包括分割、关键点检测、图像编辑和增强。 关键点检测 a) 在鲸鱼的右眼周围创建一个黄色圆圈。 (b) 用蓝色圆圈标记汽车标志。 分割 a) 将镜子中猫的像素标记为蓝色,其他保持不变。 (b) 将阴影像素涂成蓝色,保持其他像素的当前外观。 图像编辑 模型生成的图像结果 低级任务 InstructDiffusion也适用于包括图像去模糊、去噪和去水印在内的低级视觉任务。…

Leave a Comment

稳定AI发布了首个日本视觉语言模型

创建和制定一个能够处理各种用户定义任务的全面模型一直是人工智能(AI)研究领域的一个关注点。这在自然语言处理(NLP)中尤为突出,通过“指令调整”来实现。这种方法通过让大型语言模型(LLM)接触广泛的活动并通过自然语言指令来表达,使模型能够胜任任意指令。 其中一个例子是使用视觉语言模型。”视觉语言模型”(VLM)是一种能够理解文本和图像作为输入的人工智能类型。它们可以执行涉及视觉和文本数据相互作用的各种任务。它们用于图像字幕、视觉问答和创建视觉场景的文本描述,或者在语言和视觉表示之间进行翻译。 最近,Stability AI的研究人员宣布发布其首个日语视觉语言模型——Japanese InstructBLIP Alpha。虽然已经有很多视觉语言模型,但这是第一个生成日语文本描述的模型。这个新算法旨在为传入的照片生成日语文本描述和对与图像相关的查询的文本响应。 研究人员强调,该模型可以识别特定的日本地标。对于从机器人技术到旅游的各种用途来说,这种能力提供了一个重要的本地化意识层。此外,该模型可以处理文本和图像,从而能够基于视觉输入进行更复杂的查询。 研究人员进行了深入的研究,开发了这个模型,并使用多样化的指令数据对该模型进行了训练。为了将两者连接起来,他们使用了图像编码器、LLM和查询变换器(Q-Former)对模型进行了训练。此外,他们通过指令调整对Q-Former进行了微调,同时保持了图像编码器和LLM的冻结状态。 此外,研究人员收集了26个公开可用的数据集,涵盖了广泛的功能和职责,并将它们转换为指令调整格式。该模型在13个数据集上进行了训练,并在所有13个保留数据集上展示了最先进的零样本性能。研究人员进一步强调,当在各个下游任务上进行微调时,该模型显示出最先进的性能。他们还设计了一种指令感知的查询变换器,可以提取特定指令的信息元素。 他们提出了“指令感知视觉特征提取”的思想,介绍了一种根据给定指令灵活提取信息且具有信息性的特征的方法。为了让Q-Former从冻结的图像编码器中检索指令感知的视觉特征,文本指令被发送给冻结的LLM和Q-Former。他们还使用了平衡采样技术来同步数据集之间的学习进度。 尽管该模型具有实用性和有效性,但研究人员警告用户要注意当前潜在的偏见和限制。他们提醒用户,像任何其他AI系统一样,必须通过人为判断来评估响应的准确性和适当性。通过持续的研究和开发,该模型在日语视觉语言任务中的性能必须得到提高。

Leave a Comment

Google DeepMind研究人员提出了一种名为优化通过提示(OPRO)的方法:将大型语言模型作为优化器

随着人工智能领域的不断进步,其子领域,包括自然语言处理、自然语言生成、自然语言理解和计算机视觉,正变得越来越受欢迎。最近引起很多关注的大型语言模型(LLMs)被用作优化器。它们的能力被用于自然语言理解,以增强优化过程。优化在许多不同的行业和背景中具有实际意义。基于导数的优化方法在处理各种问题方面历史上表现良好。 这也带来了一些挑战,因为在实际情况下,梯度可能只有时而可用,这带来了困难的问题。为了解决这些问题,Google DeepMind的研究人员提出了一种名为OPRO(Optimisation by PROmpting)的独特方法作为解决方案。通过使用LLMs作为优化器,OPRO提供了一种简单而强大的技术。在这种情况下,主要的创新点是使用日常语言来表达优化任务,使流程更简单、更易于理解。 OPRO首先通过自然语言描述优化问题。这意味着问题是用简单的语言表达,而不是复杂的数学公式,这样更容易理解。其次,它提供了一个迭代的解决方案生成过程。LLM根据给定的自然语言提示为每个优化步骤创建新的候选解。这个提示是重要的,它包含了先前创建的解以及它们的相关值的详细信息。这些传统选项作为进一步发展的起点。 然后,更新和评估这些解,并评估它们的性能或质量。在经过检查的解后,下一个优化步骤的提示将包含这些解。随着迭代过程的进行,解逐渐改进。一些实际的例子被用来说明OPRO的有效性。首先,OPRO被用来解决两个众所周知的优化问题:线性回归问题和旅行推销员问题。这些问题是显著的,并作为评估该方法有效性的标准。OPRO展示了其识别出这些问题的优秀解的能力。 其次,它被用于提示优化。OPRO不仅仅解决特定的优化问题,还涉及到优化提示本身的问题。目标是找到能够提高任务准确性的指令。这对于涉及自然语言处理的任务尤其重要,因为提示的结构和内容对结果有很大影响。 团队表明OPRO优化的提示通常优于人类创建的提示。在一个例子中,它使Big-Bench Hard工作负载的性能提高了高达惊人的50%,在GSM8K基准测试中提高了8%。这显示了OPRO在改善优化结果方面的巨大潜力。 总之,OPRO提供了一种利用大型语言模型进行优化的革命性方法。OPRO通过用普通语言解释优化任务并反复生成和改进解来展示其在解决常见优化问题和改善提示方面的效率。结果表明,与传统方法相比,尤其是在梯度信息不可用或难以收集的情况下,性能提升显著。

Leave a Comment

“遇见T2I-Adapter-SDXL:小巧高效的控制模型”

T2I-Adapter是即插即用的工具,可以增强文本到图像模型,而无需进行完整的重新训练,使其比ControlNet等其他替代方案更高效。它们将内部知识与外部信号对齐,实现精确的图像编辑。与要求大量计算资源并减慢图像生成速度的ControlNet不同,T2I-Adapter仅在去噪过程中运行一次,提供更快更高效的解决方案。 模型参数和存储需求清楚地展示了这一优势。例如,ControlNet-SDXL拥有1251亿个参数和2.5 GB的fp16格式存储空间。相比之下,T2I-Adapter-SDXL将参数(7900万)和存储空间(158 MB)大幅减少,分别减少了93.69%和94%。 https://huggingface.co/blog/t2i-sdxl-adapters Diffusers团队与T2I-Adapter研究人员的最新合作为Stable Diffusion XL(SDXL)引入了对T2I-Adapter的支持。这次合作主要集中在从头开始训练SDXL上的T2I-Adapter,并在包括素描、边缘检测、线稿、深度和openpose在内的各种条件因素下取得了令人满意的结果。 训练T2I-Adapter-SDXL使用了来自LAION-Aesthetics V2的300万个高分辨率图像-文本对,训练设置规定了20000-35000步、批量大小为128(数据并行,单个GPU批量大小为16)、常量学习率为1e-5以及混合精度(fp16)。这些设置在速度、内存效率和图像质量之间取得了平衡,使其适用于社区使用。 在Diffusers框架中使用T2I-Adapter-SDXL非常简单,只需按照一系列步骤安装所需的依赖包,包括diffusers、controlnet_aux、transformers和accelerate。随后,使用T2I-Adapter-SDXL进行图像生成主要包括两个步骤:以适当的控制格式准备条件图像,并将这些图像和提示传递给StableDiffusionXLAdapterPipeline。 在实际示例中,加载Lineart Adapter,并对输入图像进行线稿检测。随后,使用定义的提示和参数启动图像生成,允许用户通过”adapter_conditioning_scale”和”adapter_conditioning_factor”等参数来控制应用的条件程度。 总之,T2I-Adapter为ControlNet提供了引人注目的替代方案,解决了微调预训练文本到图像模型的计算挑战。它们体积小、操作高效、易于集成,是在各种条件下自定义和控制图像生成的有价值工具,为人工智能的创造力和创新提供了支持。

Leave a Comment