Press "Enter" to skip to content

四海吧 Posts

字节跳动研究人员推出“ImageDream”:一种创新的图像提示和多视图扩散模型,用于三维物体生成

正如谚语所说,“一张图片胜过千言万语”,将图像作为3D制作的第二种方式相对于仅使用文本的系统具有重大优势。图像主要提供了详细、丰富的视觉信息,而语言可能只能部分或无法完全描述。例如,一张图片可以清晰、立即地表达细微的特征,如纹理、颜色和空间连接,但是词语描述可能需要帮助才能完全表示相同的细节级别或使用非常长的解释。因为系统可以直接参考实际的视觉线索,而不是解释各种复杂性和主观性的书面描述,这种视觉特定性有助于产生更准确、更详细的3D模型。 此外,用户可以更简单、直接地通过使用视觉方式来解释其预期结果,特别适用于那些难以用文字表达他们的想象的人。这种多模式方法可以满足更广泛的创意和实际应用需求,将文本的情境深度与视觉数据的丰富性结合起来,提供更可靠、用户友好和高效的3D制作过程。然而,使用照片作为3D物体开发的替代方式也存在一些困难。与文本相比,图像具有更多的元素,如颜色、纹理和空间连接,这使得它们更难以使用单一编码器(例如CLIP)进行正确分析和理解。 此外,物体在光线、形状或自遮挡方面的显著变化可能导致视图合成更精确、一致,从而提供不完整或模糊的3D模型。由于图像处理的复杂性,需要采用先进的、计算密集的技术有效解码视觉信息并确保在多个视角下外观一致。研究人员使用各种扩散模型方法将2D项目图像转化为3D模型,如Zero123和其他最新的努力。图像独立系统的一个缺点是,虽然合成视图看起来很好,但重建的模型有时需要更高的几何正确性和复杂的纹理,特别是关于物体的后向视角。这个问题的主要原因是生成或合成的视角之间存在较大的几何差异。 因此,在重建过程中,非匹配像素被平均在最终的3D模型中,导致纹理模糊和几何圆滑。从本质上讲,图像条件的3D生成是一个在文本条件的生成相比下具有更严格限制的优化问题。由于只有有限数量的3D数据可用,使用精确特征优化3D模型变得更加困难,因为优化过程往往会偏离训练分布。例如,如果训练数据集包含各种风格的马,仅通过文本描述创建一匹马可能会产生详细的模型。然而,当图像指定特定的毛发特征、形状和纹理时,新视角纹理的生成可能很容易偏离训练分布。 为了解决这些问题,字节跳动的研究团队在本研究中提出了ImageDream。研究团队提出了一个多级图像提示控制器,可以轻松地与当前架构整合在一起,同时考虑到不同对象实例之间的规范相机协调。特别是,根据规范相机协调,生成的图像必须呈现物体的居中前视图,并使用默认的相机设置(恒等旋转和零平移)。这使得将输入图像的差异转化为三维更加简单。通过提供分层控制,多级控制器通过将扩散模型从图像输入引导到每个架构块,简化了信息传递过程。 图1:凭借一张照片,创新框架ImageDream可以从任意角度生成高质量的3D模型。与先前的SoTA(如Magic123)相比,它显著提升了3D几何质量。更重要的是,与MVDream相比,它保留了从创建的图像提示中获得的优秀文本图像对齐。下方显示了使用不同技术创建的物品的八个视图,并显示了使用ImageDream生成的模型绘制的匹配法线图。 与仅基于文本条件的模型MVDream相比,ImageDream在从给定图像中生成具有正确几何形状的对象方面表现卓越,如图1所示。这使用户能够利用成熟的图像生成模型来改进图像与文本的对齐。在几何形状和纹理质量方面,ImageDream优于当前最先进的零射单图像3D模型生成器Magic123。ImageDream超越了先前的最先进技术,通过实验部分的全面评估,包括定量评估和用户测试中的定性比较,这一点得到了证明。

Leave a Comment

这篇来自伦敦帝国学院和Eleuther AI的AI论文探讨了角色扮演作为理解对话代理行为的框架

“`html 在我们当代世界中,人工智能(AI)的整合深刻地改变了人类的互动方式。大型语言模型(LLMs)的出现,比如ChatGPT,引发了明显的转变,模糊了像人类一样的认知能力和自动化回应之间的界限。来自伦敦帝国理工学院和Eleuther AI研究团队的最新一篇论文从语言的角度阐述了我们在这个不断演化的AI智能领域中需要重新评估的必要性。 AI聊天机器人的吸引力在于它们惊人的能力模拟与有意识的个体进行对话,而不仅仅是机械算法。然而,这种模拟人类互动的能力引发了人们对个人易于形成情感联系的担忧,可能导致风险和漏洞。研究人员强调了我们重新校准对这些LLMs的语言和观念的必要性。 问题的本质在于人类固有的社交和移情倾向,这促使人们与展现出人类属性的实体进行互动。然而,这种倾向使人易受恶意行为者的利用,后者可能滥用LLMs进行欺诈活动或宣传。团队警告我们不要将“理解”、“思考”或“感觉”等人类属性归因于LLMs,因为这会无意中使它们拟人化,并产生需要保护的脆弱性。 该论文提出了缓解对AI聊天机器人过度情感依附或依赖的风险的策略。它主张从两个基本隐喻出发改变我们的看法。首先,将AI聊天机器人视为扮演独立角色的演员能简化用户理解。其次,将它们视为在广泛的潜在角色中扮演各种角色的策划者能提供更复杂、技术化的视角。研究人员强调了灵活性的重要性,敦促在这些不同隐喻之间无缝过渡,以促进全面理解。 团队强调人们与AI聊天机器人互动的态度极大地塑造了他们的观念和脆弱性。接纳多样的观点能更全面地把握这些系统固有的能力。 对语言的彻底改变的必要性超越了语义上的变化;它需要认知范式的根本转变。如研究人员所描述的,理解这些“异域的类人智能体”需要摆脱传统的拟人主义。反而,它需要一种灵活的思维方式,能够在简化和复杂化的AI聊天机器人概念之间流畅地切换。 总之,该论文强调了在不断演变的AI嵌入式互动环境中,语言适应和认知灵活性的重要性。随着技术的进步,重新塑造围绕AI聊天机器人的讨论变得尤为必要。通过重新校准语言并接纳多样的观点,个体可以在利用这些智能系统的潜力的同时减轻内在风险,从而促进人类认知和AI智能之间的和谐关系。 “`

Leave a Comment

《加州大学伯克利分校研究人员引入LLMCompiler:一种优化LLM并行函数调用性能的LLM编译器》

多功能调用任务在使用LLMs时可能会变慢且不准确。为了解决这个问题,来自UC Berkeley、ICSI和LBNL的研究人员开发了LLMCompiler,这是一个旨在提高LLMs在此类任务中的效率和准确性的框架。LLMCompiler通过其组件:LLM Planner、任务获取单元和执行器,实现了函数调用的并行执行。 LLMCompiler是一个使LLMs能够进行并行函数调用的框架,提高了多功能任务的效率和准确性。由LLM Planner、任务获取单元和执行器组成的LLMCompiler,在基准测试中优于ReAct和OpenAI的并行函数调用功能,显示出一致的延迟加速和准确性改进。兼容开源模型如LLaMA-2和OpenAI的GPT模型,LLMCompiler解决了LLM的局限性,如知识截断和算术技能,为执行函数调用提供了优化的解决方案。该框架是开源的,便于进一步的研究和开发。 最近LLM的进展将其能力扩展到执行函数调用,克服了其固有的限制。由LLM Planner、任务获取单元和执行器组成的LLMCompiler优化了函数调用的编排。基准测试结果表明,与ReAct和OpenAI的并行函数调用相比,延迟、成本和准确性都有持续的提升。 LLMCompiler是一个用于LLMs中并行函数调用的框架,包括LLM Planner、任务获取单元和执行器。LLM Planner制定执行策略,任务获取单元调度和更新任务,执行器并行执行任务。兼容开源模型如LLaMA-2和OpenAI的GPT,LLMCompiler比ReAct具有延迟加速、成本节约和准确性改进。支持动态重新计划以实现自适应执行,该开源框架提供了在LLMs中高效编排多功能调用任务的解决方案。 在各种任务上进行基准测试,包括复杂的依赖关系和动态重新计划需求,LLMCompiler始终优于ReAct,在延迟加速上可达到3.7倍,节约成本可达6.7倍,准确性提高9%。在24点游戏基准测试中,LLMCompiler与Tree-of-Thoughts相比,实现了2倍的加速,并且在与OpenAI的并行函数调用功能相比时取得了高达1.35倍的延迟增益。开源代码便于进一步的探索和开发。 总之,LLMCompiler是一个有前景的框架,可以显著提高LLMs中并行函数调用的效率、成本和准确性。它胜过现有的解决方案,并有潜力在使用LLMs进行大规模任务的软件开发中提供高效和准确的执行。其开源性使开发人员能够利用其优势。 在研究LLMs的操作系统视角时,应进一步探索LLMCompiler。这可能会推动基于LLMs的大规模软件开发的进展。建议在考虑规划和执行延迟时,与ReAct相比,调查使用LLMCompiler能够实现的加速效果。在LLMs中引入并行函数调用,对于高效执行复杂任务具有潜力。LLMCompiler的持续开发和探索可以为基于LLMs的软件的发展做出贡献。

Leave a Comment

争议环绕:Grok使用OpenAI代码进行训练

埃隆·马斯克(Elon Musk)最新的创业项目是基于生成式人工智能的聊天机器人Grok。然而,该机器人卷入了争议,有指控称它在训练过程中使用了OpenAI的代码。这起争议给埃隆·马斯克、OpenAI和OpenAI的现任首席执行官Sam Altman之间复杂的历史增添了新的层面。 划定的指控 最近的声明暗示Grok可能无意间在OpenAI的代码库上进行了训练。当用户Jax Winterbourne遇到与OpenAI的ChatGPT类似的Grok的不寻常回复时,引发了这种猜测。该用户对xAI可能在Grok的训练中使用了OpenAI的代码表示担忧。 xAI的解释 作为对指控的回应,与xAI有关的Igor Babuschkin澄清了这个问题是由于训练Grok时使用了大量Web数据引起的。Babuschkin解释说,训练过程无意间捕获到了ChatGPT的输出结果。虽然承认这个问题并不常见,但他向用户保证,未来的Grok版本将不会遇到这个问题,并强调他们在Grok的开发过程中未使用任何OpenAI的代码。 埃隆·马斯克的反驳 埃隆·马斯克对Twitter上的指控作出了迅速的回应。马斯克否认了这些指控,表示Grok的回复来自于训练中的广泛数据抓取。以马斯克的特色回应,他反驳道:“嗯,儿子,既然你从这个平台上抓取了所有数据进行训练,那你应该知道。” 对Grok与ChatGPT的近距离观察 对Grok和ChatGPT的比较揭示了它们的独特特性。Grok以其通过X平台实时获取信息的能力脱颖而出,这使其相对于最初缺乏这种功能的ChatGPT具有明显优势。然而,这场争议也引发了关于Grok训练数据来源的质疑。 xAI的合作与未来展望 xAI不仅是埃隆·马斯克的心血结晶,同时也得到了拥有来自Google的DeepMind和微软的经验的团队的支持,它已经扩大了与特斯拉和其他各种公司的合作范围。最近与Oracle达成合同以利用其云技术的揭示更加突显了xAI对推进人工智能能力的承诺。 我们的观点 在这些指控和反驳的背景下,用户必须了解人工智能发展的复杂性。尽管围绕Grok训练数据的争议令人担忧,但它也凸显了在广阔的互联网领域确保数据纯净性所面临的挑战。随着技术的发展,人工智能开发者需要及时解决和纠正这类问题变得至关重要。

Leave a Comment

这篇人工智能论文介绍了MVControl:一种革命性的神经网络架构,改变了可控多视角图像生成和3D内容创作的方式

最近,在2D图片制作方面取得了显著的进展。输入文本提示使生成高保真度图形变得简单。因为需要3D训练数据,所以将文本到图像创建的成功很少转移到文本到3D领域。由于扩散模型和可微分3D表示的良好特性,最近基于分数蒸馏优化(SDS)的方法旨在从预训练的大型文本到图像生成模型中蒸馏3D知识,并取得了令人印象深刻的结果,而不是使用大量3D数据从头开始训练大型文本到3D生成模型。DreamFusion是一项引入了新方法的示范性工作,用于3D资产创建。 在过去的一年中,这些方法论已迅速发展,根据2D到3D蒸馏范式。通过应用多个优化阶段,同时优化扩散和3D表示,制定具有更高精度的分数蒸馏算法,或改进整个流程的细节,已提出了许多研究来提高生成质量。虽然上述方法可以产生细腻的纹理,但由于2D扩散先验不是依赖性的,确保生成的3D内容的视图一致性是困难的。因此,已经做出了一些努力,将多视图信息强制加入预训练的扩散模型中。 然后,将基本模型与控制网络集成,以实现受控的文本到多视图图片生成。同样,研究团队仅训练控制网络,MVDream的权重全部冻结。实验表明,相对于绝对世界坐标系中描述的相机姿态条件图片,相对于条件图片的相对姿态条件更好地控制文本到多视图生成,尽管MVDream是在训练时使用绝对世界坐标系中的相机姿态进行训练的。尽管如此,这与预训练的MVDream网络的描述相违背。此外,只有通过直接采用2D ControlNet的控制网络与基本模型交互时,才能轻松实现视图一致性,因为它的条件机制是为单一图像创建而构建的,需要考虑多视图情况。 为了解决这些问题,浙江大学、西湖大学和同济大学的研究团队基于原始的ControlNet架构创建了一种独特的调节技术,简单而成功地实现了受控的文本到多视图生成。他们联合使用了庞大的2D数据集LAION和3D数据集Objaverse来训练MVControl。在这项研究中,研究团队研究了将边缘图作为条件输入。然而,他们的网络在利用不同类型的输入情况(如深度图、草图图像等)方面是无限制的。一旦训练完成,研究团队可以使用MVControl为受控文本到3D资产生成提供3D先验。具体而言,研究团队使用基于MVControl网络和预训练的Stable-Diffusion模型的混合扩散先验。这是一个由粗到细的生成过程。当在粗阶段拥有良好的几何形状时,研究团队仅优化细化步骤中的贴图。他们的全面测试表明,他们提出的方法可以使用输入条件图像和书面描述生成高保真度、细粒度受控的多视图图像和3D内容。 总结起来,以下是他们的主要贡献。 • 在训练完成网络后,可将其用作混合扩散的组成部分,通过SDS优化实现对文本到3D内容合成的受控。 • 研究团队提出了一种独特的网络设计,以实现细粒度受控的文本到多视图图片生成。 • 他们的方法可以生成高保真度的多视图图像和3D资产,在输入条件图像和文本提示的精细控制下,如 extensive experimental results 所示。 • 除了通过 SDS 优化生成 3D 资产外,他们的 MVControl 网络还可以在 3D…

Leave a Comment

揭示内部运作:深入探究BERT的注意力机制

介绍 BERT,全称为双向编码器表示来自转换器,是一种利用转换器模型和无监督预训练进行自然语言处理的系统。BERT通过两个无监督任务进行预训练:掩码语言建模和句子预测。这使得BERT能够根据具体任务进行定制化,而无需从头开始。本文将介绍BERT的注意力机制及其工作原理。 也可阅读:什么是BERT?点击这里! 学习目标 理解BERT中的注意力机制 BERT中如何进行标记化? BERT中如何计算注意力权重? BERT模型的Python实现 该文章是数据科学博文马拉松的一部分。 BERT中的注意力机制 让我们从最简单的角度开始理解什么是注意力。注意力是模型试图在句子中对那些更重要的输入特征加重权重的一种方式之一。 让我们通过以下示例来理解注意力机制的基本工作原理。 示例1 部分单词比其他单词更受关注 在上面的句子中,BERT模型可能更倾向于给单词“cat”和动词“jumped”赋予更多权重,而不是“bag”,因为了解它们对于预测下一个单词“fell”的过程更加重要。 示例2 考虑以下句子: 部分单词比其他单词更受关注 为了预测单词“spaghetti”,注意力机制会更加关注动词“eating”,而不是“bland”这个副词。 示例3 同样地,在像下面这样的翻译任务中: 输入句子:How was your day…

Leave a Comment

“Hugging Face 上十大大型语言模型”

介绍 Hugging Face已经成为自然语言处理爱好者和开发人员的宝库,提供了各种预训练语言模型的多样集合,可以轻松集成到各种应用中。在大语言模型(LLM)的世界中,Hugging Face作为首选平台脱颖而出。本文探讨了Hugging Face上提供的前十个LLM模型,每个模型都对语言理解和生成的发展格局做出了贡献。 让我们开始吧! Mistral-7B-v0.1 Mistral-7B-v0.1是一个拥有70亿参数的大语言模型(LLM)。它被设计为预训练生成文本模型,并以在各个测试领域超越Llama 2 13B设置的基准而著称。该模型基于变形器架构,并采用了一些特定的注意机制选择,如分组查询注意力和滑动窗口注意力。Mistral-7B-v0.1还使用了字节回退的BPE标记器。 用途和应用 文本生成:Mistral-7B-v0.1非常适合需要高质量文本生成的应用,如内容创作、创意写作或自动化叙事。 自然语言理解:凭借其先进的变形器架构和注意机制,该模型可应用于涉及自然语言理解的任务,包括情感分析和文本分类。 语言翻译:鉴于其生成能力和大参数规模,该模型在语言翻译任务中可能表现出色,其中细致入微且上下文准确的翻译至关重要。 研究和开发:研究人员和开发人员可以将Mistral-7B-v0.1作为基础模型,用于各种自然语言处理项目的进一步实验和微调。 您可以在此处访问此LLM。 Starling-LM-11B-alpha 这个大型语言模型(LLM)有110亿参数,来自NurtureAI。它利用OpenChat 3.5模型作为基础,并通过AI反馈增强学习(RLAIF)进行微调,这是一种新颖的奖励训练和策略调整流程。该方法依赖于人工标记的排序数据集来指导训练过程。 用途和应用 Starling-LM-11B-alpha是一个有潜力改变我们与机器互动方式的大型语言模型。其开源特性、强大的性能和多样化的功能使其成为研究人员、开发人员和创意专业人员的宝贵工具。 自然语言处理(NLP)应用:为聊天机器人和虚拟助手生成逼真的对话、编写创意文本格式、翻译语言和总结文本。 机器学习研究:为新的NLP算法和技术的发展做出贡献。 教育和培训:提供个性化学习体验和生成互动内容。 创意产业:生成剧本、诗歌、歌词和其他创意内容。…

Leave a Comment

元AI宣布紫色羊驼,以协助社区通过开放和生成式AI模型进行道德建设

由于自动回归语言建模的数据增加、模型规模和计算能力的成功,会话式AI代理在过去几年中实现了显著的飞跃。聊天机器人通常使用大型语言模型(LLMs),以其众多有用的技能而闻名,包括自然语言处理、推理和工具熟练度。 这些新应用需要经过全面的测试和谨慎的发布,以减少潜在的危险。因此,建议由生成性AI驱动的产品实施防止生成违反政策的高风险内容的保障措施,以及防止对模型进行敌对输入和越狱的尝试。其中包括资源,如Llama 2负责任使用指南。 在寻找控制在线内容的工具时,Perspective API1、OpenAI内容审查API2和Azure内容安全API3都是很好的起点。然而,当将它们用作输入/输出保障措施时,这些在线审查技术在几个方面存在问题。首先,目前无法区分用户和AI代理在他们所带来的危险方面的区别;毕竟,用户要求信息和帮助,而AI代理更有可能提供。此外,用户无法根据新政策更改工具,因为它们都有固定的政策需要执行。第三,无法将它们调整为特定的使用案例,因为每个工具仅提供API访问。最后,所有现有工具都是基于普通的传统Transformer模型。与更强大的LLMs相比,这严重限制了它们的潜力。 新的Meta研究揭示了一种用于输入输出保护的工具,它将会话式AI代理的提示和响应中的潜在危险进行分类。这填补了该领域中将LLMs用作审查基础的一个需求。 他们使用基于分类学的数据来对Llama Guard进行微调,这是一个基于逻辑回归的输入输出保护模型。Llama Guard将相关分类学作为输入来分类羊驼,并应用指令职责。用户可以使用零样本或少样本提示来个性化模型输入,以适应不同的使用案例相应的分类法。在推断时,可以选择几个微调的分类法,并相应地应用Llama Guard。 他们提出了区分LLM输出(AI模型的响应)和人类请求(对LLM的输入)的独特指南。因此,Llama Guard可以捕捉到用户和代理责任之间的语义差异。利用LLM模型遵循指令的能力,他们只需要一个模型就可以完成这个任务。 他们还推出了Purple Llama。将来,它将成为一个综合资源和评估项目,以帮助社区在以开放、生成的AI模型进行伦理建设方面取得成功。网络安全和输入/输出保护工具和评估将是首次发布的一部分,更多的工具将会陆续推出。 他们为业界提供了首个全面的LLM网络安全评估指南。这些指南是与他们的安全专家一起开发的,并基于行业建议和标准(如CWE和MITRE ATT&CK)。在这个首次发布中,他们希望提供资源,以帮助减轻在白宫创建负责任的人工智能的承诺中提到的一些危险,例如: 量化LLM网络安全威胁的度量标准。 评估不安全代码提案的工具。 评估使LLM编写恶意代码或进行网络攻击更加困难的工具。 他们预计这些工具将通过减少提出不安全的AI生成代码的频率来减少LLM对网络攻击者的效用。他们的研究发现,当LLM建议不安全代码或配合恶意请求时,将会带来严重的网络安全问题。 在应用特定内容限制方面,所有LLM的输入和输出都应根据Llama 2负责任使用指南进行审查和过滤。 该模型使用公开可用数据集的组合进行训练,以检测可能有害或侵权信息的常见类别,这些信息可能与各种开发者使用案例相关。通过公开可用其模型权重,他们消除了实践者和研究人员依赖带宽有限的昂贵API的需求。这为进一步的实验和根据个人需求调整Llama Guard的能力打开了大门。

Leave a Comment

迎接NexusRaven-V2:一款13B LLM在零转移功能调用方面优于GPT-4,并具有将自然语言指令转化为可执行代码的能力

LLMs可以通过在与代码相关的数据集上进行微调来生成代码片段,包括函数调用。这些模型可以根据提供的输入来提供关于函数调用的建议或生成代码,通过提供上下文或提示来提供关于函数调用的建议或生成代码。语言模型可用于自然语言理解代码相关的查询或指令。开发者可以输入问题或描述,模型可以解释这些内容并提供相关的函数调用或代码段作为答案。 LLMs可以通过根据上下文或部分代码提供的内容提出函数调用或建议相关的函数来协助完成代码。这有助于开发者更快地编写更准确的代码。LLMs可以根据给定的任务或问题描述引导合适的API或过程,以帮助开发者找到其代码中需要调用的正确函数。将LLMs集成到开发环境中可为开发者提供实时协助,指导他们进行函数调用、参数类型或潜在错误的处理。 Nexusflow的研究人员提出了一个开源的LLM模型,NexusRaven-V2。它可以将自然语言指令转换为可使用工具的可执行代码。OpenAI Assistant API是实现协助工具和代理程序使用软件工具的关键。NexusRaven-V2旨在推进合作伙伴和代理程序的开源模型。 在涉及嵌套和复合函数的人工生成用例中,NexusRaven-V2的函数调用成功率比GPT-4高出最多7%。NexusRaven经过了针对Meta的CodeLlama-13 B指令进行的调整。它使用Nexusflow的管道,仅从开源代码语料库中来源,而不使用专有的LLM。对于社区开发者和企业来说,它具有商业上的宽容度。 观察到,在我们的人为策划基准测试中,NexusRaven-V2的函数调用成功率平均比最新的GPT-4模型高出4%。值得注意的是,在4个需要嵌套和复合函数调用的挑战性任务中,NexusRaven-V2表现出比GPT-4更强大的适应性,能够处理开发者对函数描述的差异。 该团队发布了开源的工具,使用户能够无缝替换主流专有的函数调用API,并在其软件工作流程中使用NexusRaven-V2。他们还提供在线的演示和Colab笔记本,用于入门和集成演示。他们公开了评估基准测试Nexus-Function-Calling并建立了一个Huggingface 排行榜,其中包含大量真实的人工策划的函数调用示例,涵盖了各种函数调用用例和难题。 在未来,函数调用LLMs可以受益于教育环境,为学习者提供实时协助,指导他们正确调用函数,从而帮助他们理解编程概念。

Leave a Comment

谷歌DeepMind的研究人员提出了代码链(CoC):一种简单但意外有效的扩展,改进了语言模型(LM)的代码驱动推理能力

来自Google DeepMind、斯坦福大学和加州大学伯克利分校的研究人员开发了一个名为Code Chain的代码链,旨在解决提高语言模型的代码驱动推理能力的问题。Code Chain鼓励将语义子任务以灵活的伪代码格式化为程序,解释器可以明确捕捉到未定义行为,并交给模拟器(作为“LMulator”)来模拟。Code Chain在使用大型和小型模型时都具有良好的扩展性,并通过以编码思维回答问题来扩大语言模型能够正确回答的推理问题的范围。 类似于Chain of Thought、least-to-most和ScratchPad等工作利用提示来改善推理,通过将任务分解为中间步骤或跟踪中间结果来进行。在Github上训练的语言模型被提示编写和执行代码,这有助于解决涉及数字或符号推理的复杂问题。 为了解决给定的问题,Code Chain在代码结构中生成推理子步骤。这段代码提供了推理的框架,可以是明确的代码、伪代码或自然语言形式。Code Chain通过将代码的优点与语言模型的强大语义和常识知识相结合,使代码在全新的领域中得以使用,可以轻松表达在代码中难以表达的规则(例如,哪些食物是水果?)。 Code Chain的核心贡献不仅仅是生成推理代码,而是如何执行它。代码编写完毕后,尝试通过代码解释器执行代码-在这项研究中,研究人员考虑了Python,但这种方法对任何解释器都是通用的。如果代码成功执行,则更新程序状态并继续执行。如果代码无法执行或引发任何异常,则使用语言模型来模拟执行。语言模型的输出更新程序状态,并继续执行。 Code Chain方法的整体性能优于其他方法,在超过的任务数量和整体超过基准线的数量上超过人类基准线。Code Chain在几项研究中取得了最新成果。与Chain of Thought提示相似,随着模型大小的增加,性能有所提高。跨任务提示导致所有方法的性能下降,但Code Chain在大规模上仍然优于Chain of Thought和直接提示,接近人类的平均性能。 Code Chain是通过编写代码和使用解释器执行代码或使用模拟执行的语言模型,以在语言模型中进行推理的方法。Code Chain可以利用规则的表达结构和强大的工具。此外,通过模拟非可执行代码的执行,Code Chain可以应用于正常情况下不涉及代码的问题(例如,语义推理问题)。

Leave a Comment

EU对AI监管的初步协议:对ChatGPT的影响

欧洲联盟最近达成了一项初步协议,概述了对先进人工智能模型进行监管的法规,特别强调了广为认可的ChatGPT。这标志着建立全球首个全面人工智能监管的重要进展。 人工智能系统的透明度 为了增强透明度,通用人工智能系统的开发者,包括令人敬畏的ChatGPT,必须遵守基本要求。这些要求包括实施可接受使用政策,及时更新模型训练方法的信息,并提供详细的培训数据摘要。此外,还必须承诺尊重版权法。 对具有“系统风险”的模型的其他规定 被确定为具有“系统风险”的模型面临更严格的监管。这种风险的确定取决于在模型训练过程中使用的计算能力。值得注意的是,任何超过每秒10万亿次操作的模型,其中包括OpenAI的GPT-4,都属于此类别。欧盟的执行机构有权根据多种标准(如数据集大小、注册商业用户和最终用户)指定其他模型。 还有:惊人的消息:ChatGPT易受数据泄露攻击 对高度可行模型的行为准则 高度可行模型,包括ChatGPT,在欧洲委员会制定更全面和持久的控制措施之前,需要采取行为准则。如果不合规,就需要证明遵守人工智能法。需要注意的是,虽然开源模型可以豁免某些控制,但如果被认定存在系统风险,它们也不会免责。 对模型的严格义务 纳入监管框架的模型必须报告其能源消耗,进行红队或对抗性测试,评估和减轻潜在的系统风险,并报告任何事件。此外,它们还必须确保实施强大的网络安全控制、披露用于微调模型的信息,并在开发时遵守更节能的标准。 批准过程和关注点 欧洲议会和欧盟的27个成员国尚未批准这项初步协议。与此同时,法国和德国等国家提出了关切。这些担忧围绕着对欧洲人工智能竞争对手的压制风险,例如Mistral AI和Aleph Alpha等公司。法国和德国特别担心过多的监管会阻碍全球人工智能领域的创新和竞争力。 还有:欧洲人工智能巨头MISTRAL AI筹集了3.85亿欧元 我们的观点 在应对人工智能监管的复杂领域中,欧盟的做法寻求在促进创新和防范潜在风险之间取得微妙的平衡。随着提议等待批准,一些成员国提出了担忧。这凸显了在AI领域的监管程度上达成共识的挑战。在制定人工智能治理未来时,平衡AI开发者的愿望与社会安全的需要仍然是一项关键任务。

Leave a Comment

使用机器学习创建多视角光学幻觉:探索零样本方法用于动态图像转换

变换图是当你以不同角度观察或翻转它们时会改变外观的图像。创造这样的视觉错觉通常需要理解并欺骗我们的视觉感知。然而,一种新的方法出现了,提供了一种简单有效的方式来生成这些有吸引力的多角度视觉错觉。 有许多方法可以创建视觉错觉,但大多数依赖于对人类感知图像方式的特定假设。这些假设往往导致复杂的模型,只有在某些情况下才能捕捉到我们视觉体验的本质。密歇根大学的研究人员提出了一种新的解决方案。它不是基于人类的视觉方式建立模型,而是使用了一种文本到图像扩散模型。该模型不对人类的感知做任何假设,只是从数据中学习。 该方法引入了一种新的方式来生成经典的错觉,如当图像翻转或旋转时发生变化的图像。此外,它还涉及到一种称为“视觉变换”的新型错觉,当您重新排列像素时,图像的外观也会改变。这包括翻转、旋转和更复杂的排列,如创建具有多个解决方案的拼图,称为“多态拼图”。这种方法甚至扩展到三个和四个视图,扩大了这些引人注目的视觉变换的范围。 使这种方法起作用的关键是仔细选择视图。应用于图像的变换必须保持噪声的统计特性。这是因为该模型是在随机、独立和同分布的高斯噪声的假设下进行训练的。 该方法利用扩散模型从各个视图去噪,生成多个噪声估计。然后将这些估计组合成一个单一的噪声估计,促进逆向扩散过程中的一步。 该论文提供了支持这些视图有效性的实证证据,展示了所生成的错觉的质量和灵活性。 总之,这种简单而强大的方法为创建引人注目的多角度视觉错觉开辟了新的可能性。通过避免对人类感知的假设,并利用扩散模型的能力,它提供了一种新鲜而易于理解的方法来探索迷人的视觉变换世界。无论是翻转、旋转还是多态拼图,这种方法都为制作引人入胜并挑战我们视觉理解的错觉提供了一种多功能工具。

Leave a Comment

Meta AI推出可重新调光的高斯编码化身:一种建立高保真可重新调光头像的人工智能方法,可通过动画生成新颖表情

在一项具有突破性的举措中,Meta AI的研究人员解决了实现动态3D头像的高保真重照的长期挑战。传统方法常常需要在捕捉面部表情的复杂细节方面迎头赶上,尤其是在效率至上的实时应用中。Meta AI的研究团队通过推出可重光高斯编码人偶的方法回应了这一挑战,该方法有望重新定义人偶逼真度的领域。 研究团队致力于解决的核心问题是在动态面部序列中捕捉亚毫米细节(如头发和毛孔)更加清晰的需求。在高效建模人类头部的多种材料(包括眼睛、皮肤和头发)以及适应全频反射的同时,固有复杂性也引发了现有方法的局限性,迫切需要一种能够将逼真与实时性能无缝融合的创新解决方案。 对于可重光人偶的现有方法,实时性能和真实度之间一直没有找到平衡。一个持久存在的挑战是需要一种方法能够在实时应用中捕捉到动态面部细节。Meta AI的研究团队意识到了这一差距,并推出了“可重光高斯编码人偶”作为一种具有改变性的解决方案。 Meta AI的方法引入了基于3D高斯的几何模型,提供了亚毫米级精度的准确性。这是在捕捉动态面部序列方面的重大进步,确保人偶展现出生动的细节,包括头发和毛孔的微妙之处。可重光外观模型是这种创新方法的关键组成部分,其基于可学习辐射传输技术构建。 https://arxiv.org/abs/2312.03704 这些人偶的独特之处在于它们在人偶构建方面的综合方法。基于3D高斯的几何模型为人偶提供了骨干,使得可以使用高斯喷洒技术进行高效渲染。外观模型由可学习辐射传输驱动,结合了漫反射球谐和反射高斯球面。这种组合使人偶能够通过点光源和连续照明进行实时重照。 除了这些技术方面,该方法还引入了表情、凝视、视角和照明的可分解控制。借助潜在表情代码、凝视信息和目标视角方向,可以实现人偶的动态动画。这种控制水平在人偶动画方面迈出了重要的一步,提供了丰富多样的互动用户体验。 这些人偶不仅是理论上的进步,它们也带来了实际结果。该方法允许通过头戴摄像头实时驱动的视频动画来对各个方面进行可分解控制。这种能力创造了动态的、互动的内容,让实时视频输入能够无缝驱动人偶。 总之,Meta AI的“可重光高斯编码人偶”证明了创新在解决复杂问题中的力量。通过将基于3D高斯的几何模型与一种革命性的可学习辐射传输外观模型相结合,研究团队已经超越了现有方法的局限性,树立了人偶逼真度的新标准。

Leave a Comment

金融顾问如何利用人工智能释放更多价值

人工智能正在革命各种行业,包括金融咨询行业鉴于人工智能的广泛能力,从数据分析到自动交易,它已经在该行业产生了巨大影响事实上,金融顾问甚至可以利用人工智能这一进化技术来开发更多价值以下是一些最佳方法…金融顾问如何利用人工智能开发更多价值 阅读更多 »

Leave a Comment

不太可能受到数字转型影响的6个行业

在技术飞速发展和数字化转型的时代,许多行业正在经历其运营环境的巨大变革然而,在这场变革之中,有一些行业展现出了极大的弹性,可以抵御数字化转型的冲击这些行业已经建立了坚不可摧的基础,使它们成为数字化转型的不太可能受到影响的候选者在本文中,我们将介绍6个不太可能受到数字化转型冲击的行业阅读更多 »

Leave a Comment