著名的大型语言模型(LLMs)如GPT,BERT,PaLM和LLaMA在自然语言处理(NLP)和自然语言生成(NLG)领域取得了一些重大进展。这些模型在大型文本语料库上进行了预训练,并在多个任务中表现出令人难以置信的性能,包括问答,内容生成,文本摘要等。 虽然LLMs已被证明能够处理纯文本,但在文本数据与图形的结构信息相连的应用中,处理图形推理任务变得越来越必要。研究人员一直在研究LLMs如何应用于基本图形推理任务,包括匹配子图,最短路径和连接推理。与LLMs的整合相关的图形应用包括纯图形,文本丰富的图形和文本配对的图形,具体的技术包括将LLMs用作任务预测器,图形神经网络(GNNs)的特征编码器或与GNNs对齐器,具体取决于它们的功能和与GNNs的交互。 LLMs在基于图形的应用中越来越受欢迎。但是,鲜有研究探讨LLMs和图形之间的相互作用。在最近的研究中,一组研究人员提出了一种系统地概述了大型语言模型与图形整合的情况和方法。目的是将可能的情况分为三个主要类别:文本丰富的图形,文本配对的图形和纯图形。团队分享了使用LLMs在图形上的具体方法,例如将LLMs用作对齐器,编码器或预测器。每种策略都有其优势和缺点,研究的目的是对比这些不同的方法。 该团队强调了这些技术的实际应用,展示了在与图形相关的活动中使用LLMs的好处。该团队分享了有关基准数据集和开源脚本的信息,以帮助应用和评估这些方法。结果强调了对这一快速发展领域进行更多调查和创造性的需求。 该团队总结了他们的主要贡献如下。 该团队通过系统分类使用语言模型在图形中的情况进行了贡献。这些情况被分为三类:文本丰富,文本配对和纯图形。这个分类法提供了一个理解这些不同环境的框架。 使用图形方法仔细分析了语言模型。评估总结了适用于各种图形环境的代表性模型,使其成为最全面的评估。 整理了与语言模型在图形上相关的大量材料,包括真实世界应用,开源代码库和基准数据集。 在语言模型在图形领域进一步研究方向上提出了六个可能的方向,深入探讨了基本理念。
Leave a CommentTag: AI Shorts
生成型人工智能(GenAI)模型,如ChatGPT、Google Bard和Microsoft的GPT,已经革新了人工智能互动。它们通过创建多样化的文本、图像和音乐等内容来改变多个领域,影响着沟通和问题解决。ChatGPT被数百万人迅速接受,反映了GenAI融入日常数字生活,改变了人们对人工智能的认知和互动方式。它能够理解和生成类似人类对话的能力,使得更广泛的受众更容易接触和理解人工智能,显著改变了人们的感知。 GenAI模型的发展状况迅速演进,从GPT-1到最新的迭代版本如GPT-4,每一次迭代都展示了在语言理解、内容生成和多模态能力方面的重大进展。然而,这种进化也带来了一些挑战。这些模型日益复杂的特性带来了伦理问题、隐私风险和恶意实体可能利用的漏洞。 在这方面,最近有一篇论文对GenAI,尤其是ChatGPT的网络安全和隐私影响进行了全面的探讨。它揭示了ChatGPT中存在的可能践踏伦理边界和侵犯隐私的漏洞,这些漏洞可能被恶意用户利用。该论文指出了类似GenAI工具的潜在威胁,如越狱、反向心理和提示注入攻击,展示了这些工具可能带来的潜在威胁。它还探讨了网络罪犯如何滥用GenAI进行社会工程攻击、自动化攻击和恶意软件创建的问题。此外,它还讨论了利用GenAI的防御技术,强调了网络防御自动化、威胁情报、安全代码生成和伦理准则等来加强系统防御,抵御潜在攻击。 作者广泛探讨了操作ChatGPT的方法,讨论了像DAN、SWITCH和CHARACTER Play这样的破解技术,旨在覆盖限制并绕过伦理约束。他们强调了如果这些方法被恶意用户利用,可能导致有害内容的生成或安全漏洞。此外,他们详细介绍了一些令人担忧的情景,如果不受限制地使用ChatGPT-4的能力,可能会突破互联网的限制。他们深入探讨了提示注入攻击,展示了像ChatGPT这样的语言模型中的漏洞,并提供了使用ChatGPT生成攻击载荷、勒索软件/恶意软件代码和影响CPU的病毒的示例。这些探索突显了重大的网络安全问题,说明了类似ChatGPT这样的AI模型在社会工程、网络钓鱼攻击、自动化攻击和多态恶意软件生成方面的潜在滥用。 研究团队探索了ChatGPT在网络安全方面的几种应用: – 自动化:ChatGPT通过分析事件、生成报告和提供防御策略来协助SOC分析师。 – 报告:根据网络安全数据生成易于理解的报告,帮助识别威胁和评估风险。 – 威胁情报:处理大量数据以识别威胁、评估风险并推荐缓解策略。 – 安全编码:帮助在代码审查中检测安全漏洞并建议安全编码实践。 – 攻击识别:通过分析数据描述攻击模式,有助于理解和防止攻击。 – 伦理准则:生成AI系统伦理框架的摘要。 – 增强技术:与入侵检测系统集成,提高威胁检测能力。 – 事件响应:提供及时指导并创建事件响应手册。 – 恶意软件检测:通过分析代码模式来检测潜在恶意软件。…
Leave a Comment大型语言模型(LLMs)如ChatGPT在自然语言处理领域取得了巨大的革命性进展,展示了他们在各种语言相关任务中的能力。然而,这些模型面临着一个关键问题——自回归解码过程,其中每个标记都需要进行完整的前向通行。这种计算瓶颈在拥有庞大参数集的LLMs中尤为明显,在实时应用中产生了障碍,并给具有受限GPU能力的用户带来了挑战。 来自Vector Institute、滑铁卢大学和北京大学的研究人员介绍了EAGLE(Extrapolation Algorithm for Greater Language-Model Efficiency),以应对LLM解码中固有的挑战。与Medusa和Lookahead等传统方法有所不同,EAGLE采取了一种独特的方法,专注于对第二层顶层上下文特征向量的外推。与前辈们不同,EAGLE努力高效地预测后续特征向量,为文本生成提供了显著加速的突破。 EAGLE方法的核心是部署了一种轻量级插件——FeatExtrapolator。这个插件与原始LLM的冻结嵌入层一起进行训练,根据第二顶层的当前特征序列预测下一个特征。EAGLE的理论基础建立在特征向量随时间的可压缩性上,为加快标记生成铺平了道路。值得注意的是,EAGLE具有出色的性能指标;与普通解码相比,它的速度提高了三倍,比Lookahead快了一倍,并且相对于Medusa加速了1.6倍。最为关键的是,它保持了与普通解码一致性,确保了生成文本分布的保持。 https://sites.google.com/view/eagle-llm EAGLE的能力远不止于加速。它可以在标准GPU上进行训练和测试,使更广泛的用户群体能够使用。它与各种并行技术的无缝集成增加了其应用的灵活性,进一步巩固了它作为高效语言模型解码工具包中宝贵的补充的地位。 考虑到该方法对FeatExtrapolator的依赖,这是一个轻量级但功能强大的工具,与原始LLM的冻结嵌入层合作。这种合作根据第二顶层的当前特征序列预测下一个特征。EAGLE的理论基础根植于特征向量随时间的可压缩性,为更流畅的标记生成过程提供了途径。 https://sites.google.com/view/eagle-llm 传统的解码方法需要对每个标记进行完整的前向通行,而EAGLE的特征级外推提供了一个新的解决方案。研究团队的理论探索最终形成了一种方法,不仅显著加速了文本生成,而且保持了生成文本的分布的完整性——这是维护语言模型输出质量和连贯性的关键因素。 https://sites.google.com/view/eagle-llm 总结起来,EAGLE在解决LLM解码长期存在的低效问题上脱颖而出。通过巧妙地解决自回归生成的核心问题,EAGLE的研究团队提出了一种不仅能大幅加速文本生成,而且能保持分布一致性的方法。在实时自然语言处理需求激增的时代,EAGLE的创新方法使其成为前沿技术的领跑者,填补了尖端技术能力与实际应用之间的鸿沟。
Leave a Comment总部位于巴黎的初创公司Mistral AI推出了一款语言模型——MoE 8x7B。Mistral LLM经常被比作缩小版的GPT-4,它由8个拥有每个拥有70亿参数的专家组成。值得注意的是,在每个记号的推理中,只有其中的2个专家会被使用,展示了一种简化而高效的处理方式。 该模型采用混合专家(MoE)架构,以实现令人印象深刻的性能和效率。与传统模型相比,这使得性能更高、效率更优。研究人员强调,MoE 8x7B在文本生成、理解以及需要高级处理的编码和SEO优化等任务方面,表现比之前的模型(例如Llama2-70B和Qwen-72B)更好。 这在AI社区引起了很大轰动。著名的AI咨询师和以色列机器学习和深度学习社区的创始人表示,Mistral以此类发布闻名,并将其视为业界的特色。开源AI倡导者Jay Scambler指出了发布的不寻常之处。他表示,它成功地引起了极大关注,暗示这可能是Mistral故意采取的一种策略,以吸引AI社区的关注和好奇。 Mistral在AI领域的发展过程中也取得了里程碑式的成就,包括拿下创纪录的1.18亿美元种子轮融资,该轮融资被报道为欧洲历史上最大的融资规模。该公司在9月推出了其首个大型语言AI模型Mistral 7B,进一步获得了认可。 MoE 8x7B模型拥有8个专家,每个专家拥有70亿参数,相比之下,GPT-4每个专家拥有16个专家和1660亿参数。与估计的GPT-4的1.8万亿参数相比,该模型的估计总参数为420亿。此外,MoE 8x7B对语言问题有更深入的理解,从而改进了机器翻译、聊天机器人交互和信息检索。 MoE架构允许更高效的资源分配,从而实现更快的处理速度和更低的计算成本。Mistral AI的MoE 8x7B标志着语言模型发展的重大进步。其卓越的性能、效率和多样性为各个行业和应用领域带来了巨大的潜力。随着AI的不断发展,像MoE 8x7B这样的模型预计将成为寻求增强数字专长和内容策略的企业和开发者的重要工具。 总之,Mistral AI的MoE 8x7B发布引入了一种结合了技术复杂性和非传统营销策略的新颖语言模型。研究人员对这种尖端语言模型的效果和用途感到兴奋,AI社区将继续审查和评估Mistral的架构。MoE 8x7B的能力可能会为教育、医疗保健和科学发现等各个领域的研究和发展开辟新的道路。
Leave a Comment以体积记录和真实表现4D(时空)人类表演来消除观众和表演者之间的障碍。它提供各种沉浸式的VR / AR体验,如远程呈现和远程教育。一些早期系统使用非刚性配准明确地从录制的镜头中重新创建纹理模型。然而,它们仍然容易受到遮挡和纹理缺陷的影响,从而导致重建输出中的缺口和噪音。最近的神经突破,如NeRF,通过优化基于坐标的多层感知器(MLP),而不是诉诸于显式重建,以实现照片级别的体积渲染。 某些动态NeRF变体旨在通过额外的隐式变形场保持一个规范的特征空间,用于在每帧中重现特征。然而,这样的规范设计对重要的拓扑变化或大规模运动敏感。通过平面因子化或哈希编码,最新的方法消除了变形场,并简洁地描述了4D特征网格。它们极大地加快了交互式程序渲染和训练的速度,但在运行时内存和存储问题上有待解决。最近,3D高斯点(3DGS)回归到了表示静态场景的显式范例。它基于GPU友好的3D高斯基元的光栅化,实现了以前无法实现的实时高质量辐射场渲染。一些正在进行的项目修改3DGS以适应动态设置。 一些集中在捕捉动态高斯的非刚性运动,但在过程中失去渲染质量。其他的失去了原始3DGS的明确和GPU友好的优雅,并且不能处理长期运动,因为它们使用额外的隐式变形场来填补运动信息。在本研究中,上海科技大学、NeuDim、字节跳动和DGene的研究团队介绍了HiFi4G,这是一种完全明确且紧凑的基于高斯的方法,用于从密集视频中重现高保真度的4D人类表演(参见图1)。他们的主要概念是将非刚性跟踪与3D高斯表示相结合,将运动和外观数据分离,以实现紧凑和压缩友好的表示。HiFi4G在当前隐式渲染技术的优化速度、渲染质量和存储开销方面表现出色。 图1展示了我们的高分辨率紧凑高斯点光栅。HiFi4G将经典的非刚性融合技术与多视角人类表演视频的可微光栅化进展相结合,有效生成紧凑的4D资产。 借助明确表示的帮助,他们的结果也可以轻松集成到基于GPU的光栅化流水线中,让用户在佩戴VR头盔时见证高保真度的虚拟现实人类表演。研究团队首先提供了一个由细粒度高斯和粗略变形图组成的双图技术,以自然地将高斯表示与非刚性跟踪连接起来。对于前者,研究团队使用NeuS2在使用嵌入式变形(ED)以关键帧的方式之前为每帧创建几何代理。这种明确的跟踪技术将序列分成若干部分,在每个片段内提供丰富的运动先验。类似于关键体积更新,研究团队通过使用3DGS从先前的片段减去错误的高斯并更新新的高斯来限制当前片段中的高斯数量。 接下来,研究团队构建了一个细粒度的高斯图,以通过从粗略的ED网络中插值每个高斯运动进一步初始化。通过简单地将高斯图与ED图弯曲并转换到屏幕空间,会导致严重的不自然扭曲;而持续优化而没有任何限制则会产生抖动的伪影。为了适当地平衡高斯特征的更新和非刚性运动先验,研究团队建议了一个4D高斯优化方法。研究团队使用时态正则化器确保每个高斯的外观属性的一致性,例如不透明度、缩放系数和球面谐波(SH)。研究团队建议对动态特性(位置和旋转)进行平滑处理,以在相邻高斯之间生成尽可能刚性的移动。 为了惩罚那些展示出小型、非刚性运动的区域上的闪烁瑕疵,这些正则化器添加了自适应加权机制。研究团队在优化后生成了时空紧凑的四维高斯模型。研究团队提出了一种伴随压缩技术,该技术采用了常规的残差校正、量化和熵编码,用于对高斯参数进行处理,以使其HiFi4G对消费者有用。每帧具有显著的压缩比约为25倍,并且仅需要不到2MB的存储空间,使其能够在各种设备上进行沉浸式观测,包括虚拟现实头显设备。 简而言之,他们的主要贡献包括以下几点: • 研究团队引入了一种紧凑的四维高斯模型,将高斯飞溅与非刚性跟踪相连接,用于人体表演渲染。 • 研究团队提供了一种双图结构方法,可以有效地恢复具有空间时间一致性的四维高斯模型,采用不同的正则化设计。 • 研究团队提供了一种互补的压缩方法,可以在多个平台上实现低存储的沉浸式人体表演体验。
Leave a Comment正如谚语所说,“一张图片胜过千言万语”,将图像作为3D制作的第二种方式相对于仅使用文本的系统具有重大优势。图像主要提供了详细、丰富的视觉信息,而语言可能只能部分或无法完全描述。例如,一张图片可以清晰、立即地表达细微的特征,如纹理、颜色和空间连接,但是词语描述可能需要帮助才能完全表示相同的细节级别或使用非常长的解释。因为系统可以直接参考实际的视觉线索,而不是解释各种复杂性和主观性的书面描述,这种视觉特定性有助于产生更准确、更详细的3D模型。 此外,用户可以更简单、直接地通过使用视觉方式来解释其预期结果,特别适用于那些难以用文字表达他们的想象的人。这种多模式方法可以满足更广泛的创意和实际应用需求,将文本的情境深度与视觉数据的丰富性结合起来,提供更可靠、用户友好和高效的3D制作过程。然而,使用照片作为3D物体开发的替代方式也存在一些困难。与文本相比,图像具有更多的元素,如颜色、纹理和空间连接,这使得它们更难以使用单一编码器(例如CLIP)进行正确分析和理解。 此外,物体在光线、形状或自遮挡方面的显著变化可能导致视图合成更精确、一致,从而提供不完整或模糊的3D模型。由于图像处理的复杂性,需要采用先进的、计算密集的技术有效解码视觉信息并确保在多个视角下外观一致。研究人员使用各种扩散模型方法将2D项目图像转化为3D模型,如Zero123和其他最新的努力。图像独立系统的一个缺点是,虽然合成视图看起来很好,但重建的模型有时需要更高的几何正确性和复杂的纹理,特别是关于物体的后向视角。这个问题的主要原因是生成或合成的视角之间存在较大的几何差异。 因此,在重建过程中,非匹配像素被平均在最终的3D模型中,导致纹理模糊和几何圆滑。从本质上讲,图像条件的3D生成是一个在文本条件的生成相比下具有更严格限制的优化问题。由于只有有限数量的3D数据可用,使用精确特征优化3D模型变得更加困难,因为优化过程往往会偏离训练分布。例如,如果训练数据集包含各种风格的马,仅通过文本描述创建一匹马可能会产生详细的模型。然而,当图像指定特定的毛发特征、形状和纹理时,新视角纹理的生成可能很容易偏离训练分布。 为了解决这些问题,字节跳动的研究团队在本研究中提出了ImageDream。研究团队提出了一个多级图像提示控制器,可以轻松地与当前架构整合在一起,同时考虑到不同对象实例之间的规范相机协调。特别是,根据规范相机协调,生成的图像必须呈现物体的居中前视图,并使用默认的相机设置(恒等旋转和零平移)。这使得将输入图像的差异转化为三维更加简单。通过提供分层控制,多级控制器通过将扩散模型从图像输入引导到每个架构块,简化了信息传递过程。 图1:凭借一张照片,创新框架ImageDream可以从任意角度生成高质量的3D模型。与先前的SoTA(如Magic123)相比,它显著提升了3D几何质量。更重要的是,与MVDream相比,它保留了从创建的图像提示中获得的优秀文本图像对齐。下方显示了使用不同技术创建的物品的八个视图,并显示了使用ImageDream生成的模型绘制的匹配法线图。 与仅基于文本条件的模型MVDream相比,ImageDream在从给定图像中生成具有正确几何形状的对象方面表现卓越,如图1所示。这使用户能够利用成熟的图像生成模型来改进图像与文本的对齐。在几何形状和纹理质量方面,ImageDream优于当前最先进的零射单图像3D模型生成器Magic123。ImageDream超越了先前的最先进技术,通过实验部分的全面评估,包括定量评估和用户测试中的定性比较,这一点得到了证明。
Leave a Comment“`html 在我们当代世界中,人工智能(AI)的整合深刻地改变了人类的互动方式。大型语言模型(LLMs)的出现,比如ChatGPT,引发了明显的转变,模糊了像人类一样的认知能力和自动化回应之间的界限。来自伦敦帝国理工学院和Eleuther AI研究团队的最新一篇论文从语言的角度阐述了我们在这个不断演化的AI智能领域中需要重新评估的必要性。 AI聊天机器人的吸引力在于它们惊人的能力模拟与有意识的个体进行对话,而不仅仅是机械算法。然而,这种模拟人类互动的能力引发了人们对个人易于形成情感联系的担忧,可能导致风险和漏洞。研究人员强调了我们重新校准对这些LLMs的语言和观念的必要性。 问题的本质在于人类固有的社交和移情倾向,这促使人们与展现出人类属性的实体进行互动。然而,这种倾向使人易受恶意行为者的利用,后者可能滥用LLMs进行欺诈活动或宣传。团队警告我们不要将“理解”、“思考”或“感觉”等人类属性归因于LLMs,因为这会无意中使它们拟人化,并产生需要保护的脆弱性。 该论文提出了缓解对AI聊天机器人过度情感依附或依赖的风险的策略。它主张从两个基本隐喻出发改变我们的看法。首先,将AI聊天机器人视为扮演独立角色的演员能简化用户理解。其次,将它们视为在广泛的潜在角色中扮演各种角色的策划者能提供更复杂、技术化的视角。研究人员强调了灵活性的重要性,敦促在这些不同隐喻之间无缝过渡,以促进全面理解。 团队强调人们与AI聊天机器人互动的态度极大地塑造了他们的观念和脆弱性。接纳多样的观点能更全面地把握这些系统固有的能力。 对语言的彻底改变的必要性超越了语义上的变化;它需要认知范式的根本转变。如研究人员所描述的,理解这些“异域的类人智能体”需要摆脱传统的拟人主义。反而,它需要一种灵活的思维方式,能够在简化和复杂化的AI聊天机器人概念之间流畅地切换。 总之,该论文强调了在不断演变的AI嵌入式互动环境中,语言适应和认知灵活性的重要性。随着技术的进步,重新塑造围绕AI聊天机器人的讨论变得尤为必要。通过重新校准语言并接纳多样的观点,个体可以在利用这些智能系统的潜力的同时减轻内在风险,从而促进人类认知和AI智能之间的和谐关系。 “`
Leave a Comment多功能调用任务在使用LLMs时可能会变慢且不准确。为了解决这个问题,来自UC Berkeley、ICSI和LBNL的研究人员开发了LLMCompiler,这是一个旨在提高LLMs在此类任务中的效率和准确性的框架。LLMCompiler通过其组件:LLM Planner、任务获取单元和执行器,实现了函数调用的并行执行。 LLMCompiler是一个使LLMs能够进行并行函数调用的框架,提高了多功能任务的效率和准确性。由LLM Planner、任务获取单元和执行器组成的LLMCompiler,在基准测试中优于ReAct和OpenAI的并行函数调用功能,显示出一致的延迟加速和准确性改进。兼容开源模型如LLaMA-2和OpenAI的GPT模型,LLMCompiler解决了LLM的局限性,如知识截断和算术技能,为执行函数调用提供了优化的解决方案。该框架是开源的,便于进一步的研究和开发。 最近LLM的进展将其能力扩展到执行函数调用,克服了其固有的限制。由LLM Planner、任务获取单元和执行器组成的LLMCompiler优化了函数调用的编排。基准测试结果表明,与ReAct和OpenAI的并行函数调用相比,延迟、成本和准确性都有持续的提升。 LLMCompiler是一个用于LLMs中并行函数调用的框架,包括LLM Planner、任务获取单元和执行器。LLM Planner制定执行策略,任务获取单元调度和更新任务,执行器并行执行任务。兼容开源模型如LLaMA-2和OpenAI的GPT,LLMCompiler比ReAct具有延迟加速、成本节约和准确性改进。支持动态重新计划以实现自适应执行,该开源框架提供了在LLMs中高效编排多功能调用任务的解决方案。 在各种任务上进行基准测试,包括复杂的依赖关系和动态重新计划需求,LLMCompiler始终优于ReAct,在延迟加速上可达到3.7倍,节约成本可达6.7倍,准确性提高9%。在24点游戏基准测试中,LLMCompiler与Tree-of-Thoughts相比,实现了2倍的加速,并且在与OpenAI的并行函数调用功能相比时取得了高达1.35倍的延迟增益。开源代码便于进一步的探索和开发。 总之,LLMCompiler是一个有前景的框架,可以显著提高LLMs中并行函数调用的效率、成本和准确性。它胜过现有的解决方案,并有潜力在使用LLMs进行大规模任务的软件开发中提供高效和准确的执行。其开源性使开发人员能够利用其优势。 在研究LLMs的操作系统视角时,应进一步探索LLMCompiler。这可能会推动基于LLMs的大规模软件开发的进展。建议在考虑规划和执行延迟时,与ReAct相比,调查使用LLMCompiler能够实现的加速效果。在LLMs中引入并行函数调用,对于高效执行复杂任务具有潜力。LLMCompiler的持续开发和探索可以为基于LLMs的软件的发展做出贡献。
Leave a Comment最近,在2D图片制作方面取得了显著的进展。输入文本提示使生成高保真度图形变得简单。因为需要3D训练数据,所以将文本到图像创建的成功很少转移到文本到3D领域。由于扩散模型和可微分3D表示的良好特性,最近基于分数蒸馏优化(SDS)的方法旨在从预训练的大型文本到图像生成模型中蒸馏3D知识,并取得了令人印象深刻的结果,而不是使用大量3D数据从头开始训练大型文本到3D生成模型。DreamFusion是一项引入了新方法的示范性工作,用于3D资产创建。 在过去的一年中,这些方法论已迅速发展,根据2D到3D蒸馏范式。通过应用多个优化阶段,同时优化扩散和3D表示,制定具有更高精度的分数蒸馏算法,或改进整个流程的细节,已提出了许多研究来提高生成质量。虽然上述方法可以产生细腻的纹理,但由于2D扩散先验不是依赖性的,确保生成的3D内容的视图一致性是困难的。因此,已经做出了一些努力,将多视图信息强制加入预训练的扩散模型中。 然后,将基本模型与控制网络集成,以实现受控的文本到多视图图片生成。同样,研究团队仅训练控制网络,MVDream的权重全部冻结。实验表明,相对于绝对世界坐标系中描述的相机姿态条件图片,相对于条件图片的相对姿态条件更好地控制文本到多视图生成,尽管MVDream是在训练时使用绝对世界坐标系中的相机姿态进行训练的。尽管如此,这与预训练的MVDream网络的描述相违背。此外,只有通过直接采用2D ControlNet的控制网络与基本模型交互时,才能轻松实现视图一致性,因为它的条件机制是为单一图像创建而构建的,需要考虑多视图情况。 为了解决这些问题,浙江大学、西湖大学和同济大学的研究团队基于原始的ControlNet架构创建了一种独特的调节技术,简单而成功地实现了受控的文本到多视图生成。他们联合使用了庞大的2D数据集LAION和3D数据集Objaverse来训练MVControl。在这项研究中,研究团队研究了将边缘图作为条件输入。然而,他们的网络在利用不同类型的输入情况(如深度图、草图图像等)方面是无限制的。一旦训练完成,研究团队可以使用MVControl为受控文本到3D资产生成提供3D先验。具体而言,研究团队使用基于MVControl网络和预训练的Stable-Diffusion模型的混合扩散先验。这是一个由粗到细的生成过程。当在粗阶段拥有良好的几何形状时,研究团队仅优化细化步骤中的贴图。他们的全面测试表明,他们提出的方法可以使用输入条件图像和书面描述生成高保真度、细粒度受控的多视图图像和3D内容。 总结起来,以下是他们的主要贡献。 • 在训练完成网络后,可将其用作混合扩散的组成部分,通过SDS优化实现对文本到3D内容合成的受控。 • 研究团队提出了一种独特的网络设计,以实现细粒度受控的文本到多视图图片生成。 • 他们的方法可以生成高保真度的多视图图像和3D资产,在输入条件图像和文本提示的精细控制下,如 extensive experimental results 所示。 • 除了通过 SDS 优化生成 3D 资产外,他们的 MVControl 网络还可以在 3D…
Leave a Comment由于自动回归语言建模的数据增加、模型规模和计算能力的成功,会话式AI代理在过去几年中实现了显著的飞跃。聊天机器人通常使用大型语言模型(LLMs),以其众多有用的技能而闻名,包括自然语言处理、推理和工具熟练度。 这些新应用需要经过全面的测试和谨慎的发布,以减少潜在的危险。因此,建议由生成性AI驱动的产品实施防止生成违反政策的高风险内容的保障措施,以及防止对模型进行敌对输入和越狱的尝试。其中包括资源,如Llama 2负责任使用指南。 在寻找控制在线内容的工具时,Perspective API1、OpenAI内容审查API2和Azure内容安全API3都是很好的起点。然而,当将它们用作输入/输出保障措施时,这些在线审查技术在几个方面存在问题。首先,目前无法区分用户和AI代理在他们所带来的危险方面的区别;毕竟,用户要求信息和帮助,而AI代理更有可能提供。此外,用户无法根据新政策更改工具,因为它们都有固定的政策需要执行。第三,无法将它们调整为特定的使用案例,因为每个工具仅提供API访问。最后,所有现有工具都是基于普通的传统Transformer模型。与更强大的LLMs相比,这严重限制了它们的潜力。 新的Meta研究揭示了一种用于输入输出保护的工具,它将会话式AI代理的提示和响应中的潜在危险进行分类。这填补了该领域中将LLMs用作审查基础的一个需求。 他们使用基于分类学的数据来对Llama Guard进行微调,这是一个基于逻辑回归的输入输出保护模型。Llama Guard将相关分类学作为输入来分类羊驼,并应用指令职责。用户可以使用零样本或少样本提示来个性化模型输入,以适应不同的使用案例相应的分类法。在推断时,可以选择几个微调的分类法,并相应地应用Llama Guard。 他们提出了区分LLM输出(AI模型的响应)和人类请求(对LLM的输入)的独特指南。因此,Llama Guard可以捕捉到用户和代理责任之间的语义差异。利用LLM模型遵循指令的能力,他们只需要一个模型就可以完成这个任务。 他们还推出了Purple Llama。将来,它将成为一个综合资源和评估项目,以帮助社区在以开放、生成的AI模型进行伦理建设方面取得成功。网络安全和输入/输出保护工具和评估将是首次发布的一部分,更多的工具将会陆续推出。 他们为业界提供了首个全面的LLM网络安全评估指南。这些指南是与他们的安全专家一起开发的,并基于行业建议和标准(如CWE和MITRE ATT&CK)。在这个首次发布中,他们希望提供资源,以帮助减轻在白宫创建负责任的人工智能的承诺中提到的一些危险,例如: 量化LLM网络安全威胁的度量标准。 评估不安全代码提案的工具。 评估使LLM编写恶意代码或进行网络攻击更加困难的工具。 他们预计这些工具将通过减少提出不安全的AI生成代码的频率来减少LLM对网络攻击者的效用。他们的研究发现,当LLM建议不安全代码或配合恶意请求时,将会带来严重的网络安全问题。 在应用特定内容限制方面,所有LLM的输入和输出都应根据Llama 2负责任使用指南进行审查和过滤。 该模型使用公开可用数据集的组合进行训练,以检测可能有害或侵权信息的常见类别,这些信息可能与各种开发者使用案例相关。通过公开可用其模型权重,他们消除了实践者和研究人员依赖带宽有限的昂贵API的需求。这为进一步的实验和根据个人需求调整Llama Guard的能力打开了大门。
Leave a CommentLLMs可以通过在与代码相关的数据集上进行微调来生成代码片段,包括函数调用。这些模型可以根据提供的输入来提供关于函数调用的建议或生成代码,通过提供上下文或提示来提供关于函数调用的建议或生成代码。语言模型可用于自然语言理解代码相关的查询或指令。开发者可以输入问题或描述,模型可以解释这些内容并提供相关的函数调用或代码段作为答案。 LLMs可以通过根据上下文或部分代码提供的内容提出函数调用或建议相关的函数来协助完成代码。这有助于开发者更快地编写更准确的代码。LLMs可以根据给定的任务或问题描述引导合适的API或过程,以帮助开发者找到其代码中需要调用的正确函数。将LLMs集成到开发环境中可为开发者提供实时协助,指导他们进行函数调用、参数类型或潜在错误的处理。 Nexusflow的研究人员提出了一个开源的LLM模型,NexusRaven-V2。它可以将自然语言指令转换为可使用工具的可执行代码。OpenAI Assistant API是实现协助工具和代理程序使用软件工具的关键。NexusRaven-V2旨在推进合作伙伴和代理程序的开源模型。 在涉及嵌套和复合函数的人工生成用例中,NexusRaven-V2的函数调用成功率比GPT-4高出最多7%。NexusRaven经过了针对Meta的CodeLlama-13 B指令进行的调整。它使用Nexusflow的管道,仅从开源代码语料库中来源,而不使用专有的LLM。对于社区开发者和企业来说,它具有商业上的宽容度。 观察到,在我们的人为策划基准测试中,NexusRaven-V2的函数调用成功率平均比最新的GPT-4模型高出4%。值得注意的是,在4个需要嵌套和复合函数调用的挑战性任务中,NexusRaven-V2表现出比GPT-4更强大的适应性,能够处理开发者对函数描述的差异。 该团队发布了开源的工具,使用户能够无缝替换主流专有的函数调用API,并在其软件工作流程中使用NexusRaven-V2。他们还提供在线的演示和Colab笔记本,用于入门和集成演示。他们公开了评估基准测试Nexus-Function-Calling并建立了一个Huggingface 排行榜,其中包含大量真实的人工策划的函数调用示例,涵盖了各种函数调用用例和难题。 在未来,函数调用LLMs可以受益于教育环境,为学习者提供实时协助,指导他们正确调用函数,从而帮助他们理解编程概念。
Leave a Comment来自Google DeepMind、斯坦福大学和加州大学伯克利分校的研究人员开发了一个名为Code Chain的代码链,旨在解决提高语言模型的代码驱动推理能力的问题。Code Chain鼓励将语义子任务以灵活的伪代码格式化为程序,解释器可以明确捕捉到未定义行为,并交给模拟器(作为“LMulator”)来模拟。Code Chain在使用大型和小型模型时都具有良好的扩展性,并通过以编码思维回答问题来扩大语言模型能够正确回答的推理问题的范围。 类似于Chain of Thought、least-to-most和ScratchPad等工作利用提示来改善推理,通过将任务分解为中间步骤或跟踪中间结果来进行。在Github上训练的语言模型被提示编写和执行代码,这有助于解决涉及数字或符号推理的复杂问题。 为了解决给定的问题,Code Chain在代码结构中生成推理子步骤。这段代码提供了推理的框架,可以是明确的代码、伪代码或自然语言形式。Code Chain通过将代码的优点与语言模型的强大语义和常识知识相结合,使代码在全新的领域中得以使用,可以轻松表达在代码中难以表达的规则(例如,哪些食物是水果?)。 Code Chain的核心贡献不仅仅是生成推理代码,而是如何执行它。代码编写完毕后,尝试通过代码解释器执行代码-在这项研究中,研究人员考虑了Python,但这种方法对任何解释器都是通用的。如果代码成功执行,则更新程序状态并继续执行。如果代码无法执行或引发任何异常,则使用语言模型来模拟执行。语言模型的输出更新程序状态,并继续执行。 Code Chain方法的整体性能优于其他方法,在超过的任务数量和整体超过基准线的数量上超过人类基准线。Code Chain在几项研究中取得了最新成果。与Chain of Thought提示相似,随着模型大小的增加,性能有所提高。跨任务提示导致所有方法的性能下降,但Code Chain在大规模上仍然优于Chain of Thought和直接提示,接近人类的平均性能。 Code Chain是通过编写代码和使用解释器执行代码或使用模拟执行的语言模型,以在语言模型中进行推理的方法。Code Chain可以利用规则的表达结构和强大的工具。此外,通过模拟非可执行代码的执行,Code Chain可以应用于正常情况下不涉及代码的问题(例如,语义推理问题)。
Leave a Comment变换图是当你以不同角度观察或翻转它们时会改变外观的图像。创造这样的视觉错觉通常需要理解并欺骗我们的视觉感知。然而,一种新的方法出现了,提供了一种简单有效的方式来生成这些有吸引力的多角度视觉错觉。 有许多方法可以创建视觉错觉,但大多数依赖于对人类感知图像方式的特定假设。这些假设往往导致复杂的模型,只有在某些情况下才能捕捉到我们视觉体验的本质。密歇根大学的研究人员提出了一种新的解决方案。它不是基于人类的视觉方式建立模型,而是使用了一种文本到图像扩散模型。该模型不对人类的感知做任何假设,只是从数据中学习。 该方法引入了一种新的方式来生成经典的错觉,如当图像翻转或旋转时发生变化的图像。此外,它还涉及到一种称为“视觉变换”的新型错觉,当您重新排列像素时,图像的外观也会改变。这包括翻转、旋转和更复杂的排列,如创建具有多个解决方案的拼图,称为“多态拼图”。这种方法甚至扩展到三个和四个视图,扩大了这些引人注目的视觉变换的范围。 使这种方法起作用的关键是仔细选择视图。应用于图像的变换必须保持噪声的统计特性。这是因为该模型是在随机、独立和同分布的高斯噪声的假设下进行训练的。 该方法利用扩散模型从各个视图去噪,生成多个噪声估计。然后将这些估计组合成一个单一的噪声估计,促进逆向扩散过程中的一步。 该论文提供了支持这些视图有效性的实证证据,展示了所生成的错觉的质量和灵活性。 总之,这种简单而强大的方法为创建引人注目的多角度视觉错觉开辟了新的可能性。通过避免对人类感知的假设,并利用扩散模型的能力,它提供了一种新鲜而易于理解的方法来探索迷人的视觉变换世界。无论是翻转、旋转还是多态拼图,这种方法都为制作引人入胜并挑战我们视觉理解的错觉提供了一种多功能工具。
Leave a Comment在一项具有突破性的举措中,Meta AI的研究人员解决了实现动态3D头像的高保真重照的长期挑战。传统方法常常需要在捕捉面部表情的复杂细节方面迎头赶上,尤其是在效率至上的实时应用中。Meta AI的研究团队通过推出可重光高斯编码人偶的方法回应了这一挑战,该方法有望重新定义人偶逼真度的领域。 研究团队致力于解决的核心问题是在动态面部序列中捕捉亚毫米细节(如头发和毛孔)更加清晰的需求。在高效建模人类头部的多种材料(包括眼睛、皮肤和头发)以及适应全频反射的同时,固有复杂性也引发了现有方法的局限性,迫切需要一种能够将逼真与实时性能无缝融合的创新解决方案。 对于可重光人偶的现有方法,实时性能和真实度之间一直没有找到平衡。一个持久存在的挑战是需要一种方法能够在实时应用中捕捉到动态面部细节。Meta AI的研究团队意识到了这一差距,并推出了“可重光高斯编码人偶”作为一种具有改变性的解决方案。 Meta AI的方法引入了基于3D高斯的几何模型,提供了亚毫米级精度的准确性。这是在捕捉动态面部序列方面的重大进步,确保人偶展现出生动的细节,包括头发和毛孔的微妙之处。可重光外观模型是这种创新方法的关键组成部分,其基于可学习辐射传输技术构建。 https://arxiv.org/abs/2312.03704 这些人偶的独特之处在于它们在人偶构建方面的综合方法。基于3D高斯的几何模型为人偶提供了骨干,使得可以使用高斯喷洒技术进行高效渲染。外观模型由可学习辐射传输驱动,结合了漫反射球谐和反射高斯球面。这种组合使人偶能够通过点光源和连续照明进行实时重照。 除了这些技术方面,该方法还引入了表情、凝视、视角和照明的可分解控制。借助潜在表情代码、凝视信息和目标视角方向,可以实现人偶的动态动画。这种控制水平在人偶动画方面迈出了重要的一步,提供了丰富多样的互动用户体验。 这些人偶不仅是理论上的进步,它们也带来了实际结果。该方法允许通过头戴摄像头实时驱动的视频动画来对各个方面进行可分解控制。这种能力创造了动态的、互动的内容,让实时视频输入能够无缝驱动人偶。 总之,Meta AI的“可重光高斯编码人偶”证明了创新在解决复杂问题中的力量。通过将基于3D高斯的几何模型与一种革命性的可学习辐射传输外观模型相结合,研究团队已经超越了现有方法的局限性,树立了人偶逼真度的新标准。
Leave a Comment随着人工智能的不断发展,自然语言处理、自然语言生成和计算机视觉这些领域最近取得了巨大的流行,这都要归功于大型语言模型的引入。扩散模型在生成文本到语音合成(TTS)方面已经证明非常成功,显示出了很高的生成质量。然而,它们的先验分布受限于引入噪声并对所需生成目标提供很少信息的表示形式。 最近的研究中,清华大学和微软亚洲研究院的研究人员团队介绍了一种名为Bridge-TTS的新的文本到语音系统。这是首次尝试在已建立的扩散式TTS方法中利用干净可预测的替代方法替代噪声高斯先验。该替代先验提供了有关目标的强结构信息,并从文本输入提取的潜在表示中获取。 该团队表示,主要贡献在于开发出了一个完全可管理的薛定谔桥,它连接了真实的梅尔谱图和干净的先验。建议的Bridge-TTS使用的是一种数据到数据的过程,这比起扩散模型的数据到噪声过程改善了先前分布的信息内容。 该团队已经对这种方法进行了评估,并在LJ-Speech数据集上进行了实验验证,评估结果突出显示了建议方法的有效性。在50步骤/1000步骤合成设置中,Bridge-TTS表现出比扩散对应方法Grad-TTS更好的性能。它甚至在少量步骤的情况下比强大且快速的TTS模型表现更好。Bridge-TTS方法的主要优势在于合成质量和采样效率。 该团队总结了主要贡献如下。 从无污染的文本潜在表示中产生了梅尔谱图。与传统的数据到噪声过程不同,这个作为扩散模型上下文中的条件信息的表示形式被设计成无噪声。薛定谔桥被用来研究数据到数据的过程。 针对配对数据,提出了一个完全可计算的薛定谔桥。这个桥使用柔性形式的参考随机微分方程(SDE)。这种方法允许对设计空间进行实证调查,并提供了一个理论解释。 研究了采样技术、模型参数化和噪声调度如何对改善TTS质量发挥作用。还实现了不对称噪声调度、数据预测和一阶桥采样器。 完全可计算的薛定谔桥使得对底层过程的完整理论解释成为可能。通过实证研究,我们可以了解到不同因素如何影响TTS的质量,包括不对称噪声调度、模型参数化决策和采样过程的效率。 该方法在推理速度和生成质量方面取得了很好的结果。在1000步和50步的生成情况下,它明显优于基于扩散的Grad-TTS。它在4步生成中也优于FastGrad-TTS,优于基于transformer的模型FastSpeech 2和最先进的蒸馏方法CoMoSpeech在2步生成中。 该方法仅经过一次训练就取得了出色的结果。这种效率在创作过程的多个阶段都可见,展示了建议方法的可靠性和效力。
Leave a Comment强化学习(RL)是机器学习的一个子领域,其中代理采取适当的行动来最大化其回报。在强化学习中,模型从经验中学习,并确定导致最佳回报的最优行动。近年来,RL取得了显著进展,并在广泛的领域中得到应用,从自动驾驶汽车到机器人甚至游戏。在RL系统的开发方面也有重大进展。这些库的例子包括RLLib、Stable-Baselines 3等。 为了创建一个成功的RL代理,需要解决一些问题,例如解决延迟回报和下游后果的问题,找到开发和探索之间的平衡,并考虑其他参数(如安全考虑或风险要求)以避免灾难性情况。虽然当前的RL库功能强大,但并没有很好地解决这些问题。因此,Meta的研究人员发布了一个名为Pearl的库,该库考虑了上述问题,并允许用户为其真实世界的应用程序开发多功能的RL代理。 Pearl是基于PyTorch构建的,这使其与GPU和分布式训练兼容。该库还提供了不同的测试和评估功能。Pearl的主要策略学习算法称为PearlAgent,具有智能探索、风险敏感性、安全约束等功能,并且具有离线和在线学习、安全学习、历史总结和回放缓冲区等组件。 一个有效的RL代理应该能够使用离线学习算法学习和评估策略。此外,对于离线和在线训练,代理应该具有一些数据收集和策略学习的安全措施。除此之外,代理还应该能够使用不同的模型学习状态表示,并将历史总结为状态表示以过滤掉不可取的行动。最后,代理还应该能够使用回放缓冲区有效地重用数据以提高学习效率。Meta的研究人员将所有上述特征都融入了Pearl的设计中(更具体地说是PearlAgent),使其成为设计RL代理的多功能有效库。 研究人员将Pearl与现有的RL库进行了比较,评估了模块化、智能探索和安全性等因素。Pearl成功实现了所有这些功能,从未能整合所有必要功能的竞争对手中脱颖而出。例如,RLLib支持离线RL、历史总结和回放缓冲区,但不支持模块化和智能探索。类似地,SB3未能整合模块化、安全决策和上下文匹配。这就是Pearl在研究人员考虑的所有特性方面的独特之处。 Pearl目前还在进一步支持各种实际应用程序,包括推荐系统、拍卖竞标系统和创意选择,使其成为解决不同领域复杂问题的有希望的工具。尽管强化学习在近年来取得了重大进展,但将其应用于解决实际问题仍然是一项艰巨的任务,而Pearl通过提供全面且适用于生产的解决方案来填补这一差距。凭借其智能探索、安全和历史总结等独特功能,它有潜力成为在实际应用中更广泛整合RL的有价值资产。
Leave a Comment自然语言处理(NLP)已经进入了一个转型期,引入了大型语言模型(LLMs),例如GPT系列,为各种语言任务设置了新的性能标准。自回归预训练是这一惊人成就的主要因素之一,这种技术教会模型预测序列中最可能的标记。由于这种基本技术,模型能够吸收语法和语义之间的复杂交互,从而为他们理解语言的能力提供卓越的贡献,就像一个人一样。自回归预训练在NLP之外也在计算机视觉方面起到了重要作用。 在计算机视觉中,自回归预训练起初取得了成功,但随后的发展显示出明显的范式转变,更倾向于BERT风格的预训练。特别值得注意的是,从iGPT的首次结果可以看出,自回归和BERT风格的预训练在各种任务上的表现类似。然而,由于在视觉表示学习方面更加有效,后续的研究更偏向于BERT风格的预训练。例如,MAE表明,可扩展的视觉表示学习方法可能就是简单地预测随机屏蔽像素的值。 在这项研究中,约翰斯·霍普金斯大学和加州大学圣克鲁兹分校的研究团队重新审视了iGPT,并质疑自回归预训练是否能够产生高度熟练的视觉学习者,尤其是在广泛应用时。研究团队在其过程中融入了两个重要的改变。首先,研究团队使用BEiT将照片“分词”为语义标记,考虑到图像本身具有噪声和冗余。这个修改将自回归预测的重点从像素转移到语义标记上,从而更加复杂地理解各个图像区域之间的相互作用。其次,研究团队在生成解码器中添加了一个判别解码器,它自回归地预测下一个语义标记。 对于已看到的像素预测语义标记是这个额外组件的责任。此外,值得注意的是,像CLIP这样以判别方式训练的模型最适合该预训练路径的语义视觉标记。研究团队将这种改进方法称为D-iGPT。通过对各种数据集和任务进行广泛测试,证实了他们所提议的D-iGPT的效能。仅使用ImageNet-1K作为相关数据集,他们的基准模型在可达到86.2%的Top-1分类准确率上超越了之前的最先进技术的0.6%。 此外,他们的大规模模型在3600万个公开可用数据集上实现了89.5%的Top-1分类准确率。D-iGPT在公共数据集上达到了先前最先进的训练水平,尽管使用的训练数据更少,模型尺寸更小。研究团队还在相同的预训练和微调数据集上分析了D-iGPT在语义分割上的表现,发现其优于MAE相等的方法。
Leave a Comment斯坦福大学和FAIR Meta的研究人员引入了CHOIS来解决在3D场景中生成物体和人类的同步运动的问题。该系统基于稀疏的物体航点、物体和人类的初始状态以及文本描述来运作。它通过在指定的3D环境中为两者产生逼真且可控的动作来控制人类和物体之间的交互。 利用类似AMASS这样的大规模、高质量的动作捕捉数据集,人们对生成式人体运动建模的兴趣日益增加,包括有条件的动作和文本生成。之前的研究使用VAE公式来从文本生成多样化的人体运动,而CHOIS则专注于人体与物体的互动。与现有方法通常集中在手部动作合成不同,CHOIS考虑到在抓取物体之前的全身动作,并根据人体的动作预测物体的运动,为交互式3D场景模拟提供了综合解决方案。 CHOIS解决了在3D环境中合成逼真人类行为的关键需求,这对计算机图形学、具体化人工智能和机器人技术至关重要。CHOIS通过基于语言描述、初始状态和稀疏物体航点来生成同步的人类和物体运动来推动该领域的发展。它解决了现实运动生成、适应环境杂乱以及从语言描述中合成交互等挑战,为多样化的3D场景中可控人体与物体交互提供了综合系统。 该模型使用条件扩散方法根据语言描述、物体几何和初始状态生成同步的物体和人体运动。在采样过程中加入约束以确保逼真的人与物接触。训练阶段使用损失函数来引导模型预测物体变换而无需明确强制接触约束。 CHOIS系统经过与基准模型和消融实验的严格评估,展示了在条件匹配、接触准确性、减少手部与物体的穿透以及脚部漂浮等指标上表现出的卓越性能。在FullBodyManipulation数据集上,物体几何损失增强了模型的能力。CHOIS在3D-FUTURE数据集上的表现超过了基准模型和消融模型,展示了其对新物体的泛化能力。人类感知研究突出了CHOIS与基准模型相比,在与输入文本的对齐和交互质量方面表现更好。定量指标,包括位置和方向误差,衡量了生成结果与真实运动之间的偏差。 总之,CHOIS是一个基于语言描述和稀疏物体航点生成逼真的人与物体交互的系统。该过程在训练过程中考虑到物体几何损失,并在采样过程中使用有效的引导项来增强结果的逼真度。CHOIS学习到的交互模块可以集成到根据语言和3D场景合成长期交互的流水线中。CHOIS在生成与提供的语言描述相一致的逼真人与物体交互方面有显著改进。 未来的研究可以探索通过集成额外的监督,如物体几何损失,来提高生成的物体运动与输入航点的匹配度。研究如何使用更高级的引导项来强制接触约束,可能会得到更逼真的结果。将评估扩展到多样化的数据集和场景将测试CHOIS的泛化能力。进一步的人类感知研究可以提供对生成的交互更深入的洞察。将学习到的交互模块应用于根据3D场景的物体航点生成长期交互也将扩大CHOIS的适用性。
Leave a Comment在当代机器学习中,基础模型是成功的典范,它们是在大量数据上进行预训练,然后修改以用于下游任务。序列模型是这些基础模型的基础,它们可以处理来自各个领域的任意序列输入,包括语言、图片、声音、音频、时间序列和基因组等。尽管这个想法与任何特定的模型设计无关,但Transformer及其核心的自注意力层是当代大多数基础模型的基础。自注意力是有效的,因为它可以通过紧密地在一个上下文窗口内传递信息来表示复杂的事实。 然而,这种属性有两个基本缺点。一个是窗口长度的二次缩放,另一个是无法描述有限窗口之外的任何事物。为了解决这些缺点,对更有效的注意力相关策略进行了大量研究,然而往往以注意力成功的相同品质为代价。这些变化尚未在各个领域的大规模实验证明其有效性。结构化状态空间序列模型是一类新颖且令人兴奋的序列建模体系结构。这些模型受传统状态空间模型的影响,可以看作是卷积神经网络和循环神经网络的混合体。 这类模型在序列长度方面具有线性或几乎线性的扩展,并且可以通过递归或卷积计算非常快速。它们还主导了Long Range Arena等基准测试,并为在某些数据模态中建模长程相互依赖性定义了工具。许多SSM(结构化状态空间模型)的变种在需要连续信号数据的音频和视觉等领域显示出了有效性。但在建模离散、信息密集的文本等方面,它们尚未取得如此成功。 卡内基梅隆大学和普林斯顿大学的研究团队提出了一种新颖的选择性状态空间模型的类别,通过在几个维度上增强了早期研究,以获得类似Transformer的建模能力,同时保持与序列长度的线性关系。 选择机制。首先,我们指出早期模型的一个重要缺陷:它们无法以有效的方式根据输入选择数据。研究团队通过根据输入参数化SSM参数来提供一个简单的选择过程,借鉴了从选择性复制和归纳头等重要的合成任务中获得的理解。这使得模型能够永久地保留相关信息,同时消除不必要的数据。 硬件感知代码。这种简单的修改在技术上对模型的计算构成挑战;所有以前的SSM模型在计算上必须是输入和时间不变的,以保证计算效率。为了防止在GPU内存层次结构的不同层之间进行IO访问,我们使用了一种硬件感知方法,使用扫描而非卷积对模型进行递归计算。然而,扩大的状态没有实现。得到的实现在当前硬件上比以前的技术更快,并且在理论建模设计中也更好。 架构:为了提供一种简单和均匀的架构设计,将以前的SSM架构设计与Transformer的MLP块相结合,形成一个单一的块,简化了以前的深度序列模型设计。 选择性SSM和Mamba架构的关键特性使它们成为更广泛的基础模型的基石,这些模型可以处理完全循环的序列,具有以下特点: (i) 高质量:选择性在遗传学和语言等密集模态上表现良好 (ii) 快速推断和训练:在推断过程中,自回归展开模型每一步只需要常数时间,因为它不需要先前组件的缓存,并且计算和内存随序列长度线性扩展 (iii) 长上下文:结合质量和效率,可以在实际数据上获得长达100万长度序列的性能提升 研究团队通过实验证明了Mamba作为通用序列FM骨干模型在各种模态和任务中的潜力: • 人工材料。Mamba不仅可以轻松解决关键的合成任务,如复制和归纳头任务,而且可以无限延伸解决无限长度的问题。 • 基因组和音频。在建模音频波形和DNA序列方面,Mamba要优于以前的最先进模型,如SaShiMi、Hyena和Transformers。其性能在两种情况下都随着更多上下文(长达一百万长度的序列)的增加而改善。 • 建模语言。曼巴(Mamba)代表了第一个能够在下游评估和预训练困惑度中真正达到类Transformer性能的线性时间序列模型。 研究团队证明了曼巴(Mamba)胜过了许多基线,包括基于 LLaMa…
Leave a Comment人工智能(AI)和深度学习的进步,彻底改变了人类与计算机互动的方式。通过引入扩散模型,生成建模在文本生成、图片生成、音频合成和视频制作等各个领域都展示出了卓越的能力。 尽管扩散模型表现出卓越的性能,但这些模型通常计算成本较高,主要与庞大的模型大小和顺序去噪过程有关。这些模型的推理速度非常慢,为解决这一问题,研究人员进行了一系列努力,包括减少样本步骤的数量,使用模型修剪、蒸馏和量化等技术降低每个步骤的模型推理开销。 传统的扩散模型压缩方法通常需要大量的重新训练,这带来了实践和资金上的困难。为了克服这些问题,研究人员团队推出了DeepCache,一种新颖的无训练范式,旨在优化扩散模型的体系结构以加速扩散过程。 DeepCache利用了扩散模型连续去噪阶段固有的时间冗余性。这种冗余性的原因在于某些特征在连续的去噪步骤中会重复出现。它通过引入针对这些特性的缓存和检索方法,大大减少了重复计算。团队表示,这种方法基于U-Net属性,可以在有效更新低级特征的同时重复使用高级特征。 DeepCache的创意方法有效提高了Stable Diffusion v1.5的速度2.3倍,仅降低0.05的CLIP评分。同时,在LDM-4-G上展示出了印象深刻的4.1倍速度提升,虽然在ImageNet上的FID损失为0.22。 研究人员对DeepCache进行了评估,实验比较结果显示,DeepCache的性能优于当前的修剪和蒸馏技术,而这些技术通常需要重新训练。它甚至展示了与现有采样方法相兼容的特点。在相同吞吐量下,它与DDIM或PLMS的性能相似或略优,最大限度地提高了效率而不损失产生的输出质量。 研究人员总结了DeepCache的主要贡献如下: DeepCache与当前快速采样器配合良好,展示了实现类似甚至更好生成能力的可能性。 它通过在运行时动态压缩扩散模型,提高了图像生成速度,无需额外训练。 利用可缓存特征,DeepCache通过使用高级特征的时间一致性,减少了重复计算。 DeepCache通过引入定制的扩展缓存间隔技术,提高了特征缓存的灵活性。 在CIFAR、LSUN-Bedroom/Churches、ImageNet、COCO2017和PartiPrompt上的实验表明,DeepCache在DDPM、LDM和Stable Diffusion模型上的效果更好。 与需要重新训练的修剪和蒸馏算法相比,DeepCache的性能更好,保持了更高的效能。 总之,DeepCache作为一种扩散模型加速器,显示出巨大的潜力,为传统的压缩技术提供了有用且经济实惠的替代方案。
Leave a Comment文本到图像扩散模型代表了人工智能研究中一个有趣的领域。它们旨在根据文本描述创建逼真的图像,利用扩散模型进行生成。该过程涉及从基本分布中逐步生成样本,逐渐转化为与目标图像相似,同时考虑文本描述。多个步骤参与其中,将逐步引入噪音来生成图像。 目前的文本到图像扩散模型面临一个现有的挑战:仅凭文本描述准确地描绘一个主题。当需要生成复杂细节,如人脸特征时,尤其明显。因此,在探索超越文本线索的保持身份的图像合成方面,人们越来越有兴趣。 腾讯的研究人员提出了一种新的方法,专注于人体图像的身份保持图像合成。他们的模型采用了直接向前传递的方法,绕过复杂的微调步骤,以便快速高效地生成图像。它利用文本提示并结合样式和身份影像的额外信息。 他们的方法涉及一种多身份跨注意机制,使模型能够将来自不同身份的特定引导细节与图像中的不同人体区域相关联。通过使用包含人体图像的数据集对模型进行训练,并以人脸特征作为身份输入,模型学会在强调身份特征的同时重建人体图像。 他们的模型展示了在保留主体身份的同时合成人体图像的出色能力。此外,它使用户能够将自己的面部特征投影到不同风格的图像(如卡通),使用户能够在不损害身份的前提下以不同的风格进行可视化。此外,当提供相应的参考照片时,它在混合多个身份的创意生成方面表现出色。 他们的模型在单镜头和多镜头场景中展示了出色的性能,凸显了其在保护身份方面的设计的有效性。尽管基线图像重建大致保持图像内容,但在细粒度身份信息方面存在困难。相反,他们的模型成功地从身份引导分支中提取身份信息,从而为面部区域实现了更好的结果。 然而,该模型复制人脸的能力引发了伦理关注,尤其是可能创建冒犯性或文化不恰当的图像。负责任地使用这项技术至关重要,需要制定准则以防止在敏感情境中滥用。
Leave a Comment高效地应对复杂的优化问题,从全球包裹路由到电力网管理,一直是一个持久的挑战。传统方法,特别是混合整数线性规划(MILP)求解器,一直是破解复杂问题的首选工具。然而,它们的缺点在于计算强度,往往导致次优解或长时间的求解。为了解决这些限制,麻省理工学院和苏黎世联邦理工学院的研究人员开创了一种数据驱动的机器学习技术,承诺彻底改变我们解决复杂物流挑战的方式。 在物流领域,优化是关键,挑战是令人生畏的。尽管圣诞老人可能有他神奇的雪橇和驯鹿,但联邦快递等公司需要处理迷宫般的节假日包裹路线。公司使用的软件骨干是MILP求解器,它采用分而治之的方法来解决庞大的优化问题。然而,这些问题的复杂性往往导致求解时间长达数小时甚至数天。由于时间限制,公司经常被迫中断求解器的中间过程,接受亚优解。 研究团队确定了导致求解时间延长的一个关键中间步骤,即分隔管理。分隔管理是每个求解器的核心方面,但往往被忽视。分隔管理负责识别理想的分隔算法组合,这是一个具有指数数量潜在解决方案的问题。研究人员认识到这一点,试图用数据驱动的方法重新激活MILP求解器。 现有的MILP求解器采用通用算法和技术来导航广阔的解决方案空间。然而,麻省理工学院和苏黎世联邦理工学院的团队引入了一个过滤机制,以简化分隔搜索空间。他们将庞大的13万个潜在组合减少到了约20个可管理的选项。这个过滤机制依赖于递减边际效益的原理,即最大的效益来自一小组算法。 创新之处在于将机器学习融入MILP求解器框架。研究人员利用一个在问题特定数据集上训练的机器学习模型,从缩小的选项中选择最佳算法组合。与具有预定义配置的传统求解器不同,这种数据驱动的方法允许公司通过利用自己的数据来针对特定问题定制通用的MILP求解器。例如,像联邦快递这样经常解决路由问题的公司可以使用过去的实际数据来优化和增强他们的解决方案。 这个机器学习模型基于上下文情境强化学习的形式。这个迭代学习过程包括选择一个潜在解决方案,获得有关其有效性的反馈,并在随后的迭代中对其进行优化。结果是将MILP求解器的求解时间大幅加快,从30%到令人瞩目的70%,而不影响准确性。 总之,麻省理工学院和苏黎世联邦理工学院之间的合作努力在优化领域取得了重大突破。通过将经典的MILP求解器与机器学习相结合,研究团队为解决复杂的物流挑战开辟了新的途径。加快求解时间并保持准确性为MILP求解器带来了实际优势,使其更适用于实际场景。这项研究对优化领域做出了贡献,并为在解决复杂实际问题中广泛整合机器学习铺平了道路。
Leave a Comment大型语言模型(LLMs)是人工智能(AI)和深度学习领域的最新创新。像GPT、PaLM、LLaMa等等这些知名的LLMs在生成内容方面展示了令人难以置信的潜力。从问答和文本摘要到语言翻译和代码补全,这些模型可以做很多事情。包括ChatGPT在内的这些模型都经过了对广阔无监督文本语料库的广泛预训练。然而,最近的研究表明,细调整的常用做法可能并不像之前认为的那样必要。 对齐调整,即改进基本LLMs以用作开放领域AI助手的过程,已被接受为行业标准。这包括人工反馈强化学习(RLHF)和监督微调(SFT)。这一标准在一项名为LIMA的研究中受到了质疑,该研究表明,仅仅使用1000个样本进行SFT可能就足以实现有意义的对齐性能。 LIMA提出的表面对齐假设认为,对齐调整不是根本改变基本LLMs的行为,而是训练它们选择适用于用户参与的特定数据格式。这表明,只需几个样例就可以在监督微调下产生高质量的对齐模型。 由于至今还没有足够的研究为表面对齐理论提供坚实的支持,来自艾伦人工智能研究所和华盛顿大学的研究人员最近在一篇论文中讨论了对齐调整的广泛应用技术,以将基本LLMs转化为实用的开放领域AI助手。通过人工反馈的强化学习完成了偏好调整,并通过监督微调完成了指令学习。 该团队通过检查基本LLMs与其对齐的版本(如Llama-2和Llama-2-chat)之间的令牌分布变化,以研究对齐调整的影响。他们发现基本LLMs和其对齐版本在大多数位置的解码中共享排名靠前的令牌,并表现出几乎相同的性能。对话标记和安全声明是最受分布波动影响的样式令牌的例子。这项研究为假设提供了有说服力的证据,即对齐调整主要集中于融入AI助手的语言风格,而基本LLMs提供了响应用户查询所需的信息。 该团队还针对这些发现提出了一个研究课题:在没有SFT或RLHF的情况下,基本LLMs可以进行多大程度的对齐调整?他们提出了URIAL(未调整的LLMs与重新设计的上下文对齐),这是一种不需要调整的对齐技术。只需三个连续的样式示例和一个系统提示,URIAL通过基本LLMs的上下文学习(ICL)单独完成有效的对齐。 在一系列称为just-eval-instruct的实例中,该团队提供了详细易懂的分析,显示基于URIAL的基本LLMs的性能可以与或优于基于SFT(Mistral-7b-Instruct)或SFT+RLHF(Llama-2-70b-chat)进行对齐的LLMs。结果表明,有意识的提示和上下文学习可以显著缩小无调整与基于调整的对齐策略之间的差距。 总之,评估结果突出了浅层对齐调整,并表明它主要涉及采用语言风格并依赖于基本LLMs的现有知识。
Leave a Comment如何有效地完成3D捕获的缺失部分?这篇来自Google Research和UC Berkeley的研究论文介绍了“NeRFiller”,一种新颖的3D修补方法,解决了由于重建失败或缺乏观察而经常缺失的不完整的3D场景或物体的重建问题。该方法通过参考示例控制修补过程,从而实现精确和可定制的场景修补。NeRFiller是一种3D生成修补方法,可以增强3D捕获中的场景或物体,是改善3D重建的有效解决方案。 该研究探讨了从传统的2D修补到像LaMa这样的大规模修补技术的不同方法,涉及概率和潜在扩散模型,考虑到涉及文本或图像的3D生成方法。强调了对象去除设置的相关性,并对3D修补的各种基准和数据集进行了评估。虽然涉及视频和场景编辑的相关作品,但重点主要是现有3D场景的场景完成。 该研究解决了3D场景补全和修补的挑战,强调了3D感知和多视角一致性方法的重要性。区分了场景补全和对象去除,重点是在3D场景中生成新的内容。讨论了2D生成修补模型在3D一致图像方面的限制。所提出的NeRFiller方法利用了从文本到图像扩散模型中的网格先验现象,以增强修补中的多视角一致性。还讨论了生成3D场景和对象去除方法的相关作品。 NeRFiller是一种利用生成的2D扩散模型作为修补的方法,用于完成3D场景中的缺失区域。它解决了各种修补估计和2D模型中缺乏3D一致性的挑战。NeRFiller引入了用于显著修补结果的整合机制,并鼓励3D特性。它利用迭代的3D场景优化,将网格修补扩展到大型图像集合。对比了Masked NeRF和LaMask等基准,证明了NeRFiller的有效性。评估包括比较、新视图度量、图像质量和几何度量。 NeRFiller在3D场景完成方面表现出色,填补了缺失区域并去除了不需要的遮挡物,在3D一致性和合理性方面表现出色。与对象去除基准相比,NeRFiller在完成缺失区域方面表现优异。评估指标包括NeRF、新视图、MUSIQ图像质量和几何度量,展示了它在生成连贯和逼真的3D场景方面的有效性。 总之,NeRFiller是一款强大的3D修补工具,可以准确完成3D场景中的缺失部分。它填充间隙并去除非理想元素的能力优于对象去除基准。引入联合多视角修补进一步增强其一致性,通过在多个图像上平均噪声预测。通过与最先进的基准进行比较,NeRFiller表现出了完成用户指定的3D场景的有效性。它为根据用户定义的规范修补3D捕获中的缺失区域提供了有价值的框架。
Leave a Comment这项研究解决了Claude 2.1功能中的一个固有挑战:其不愿根据其覆盖的200K令牌上下文窗口中的单个句子回答问题的问题。这种犹豫在最大化模型的回忆能力方面构成了一个重大障碍,促使了解决方案的探索。 对当前方法的检查揭示了Claude 2.1在面对有关单个句子的问题时的犹豫,尤其是那些被视为不合适的问题。作为回应,Anthropic的研究人员介绍了一个令人惊讶地有效的解决方案:添加一个提示。他们建议将句子“这是上下文中最相关的句子:”并入提示中。这个看似微小的调整,类似于一个元命令,极大地增强了模型的召回能力。 添加的提示作为指令,指示Claude 2.1优先处理相关的句子。这种方法有效地解决了模型对看似不合适句子问题的犹豫。性能改进通过一个实验证明:在200K上下文窗口评估中,Claude的分数从27%跃升到了令人印象深刻的98%。 值得注意的是,在提供了这个提示后,单个句子查询的准确性出现了显著增加。重要的是,这种对单个句子查询准确性的增加展示了添加提示对Claude 2.1性能的深远影响。这种显著改进表明了解决方案的实际意义,使得模型能够更好地处理在更大上下文中的孤立句子查询。 总之,这个有创意的解决方案解决了Claude 2.1的犹豫,通过添加一个提示增加了召回能力的70%。研究团队的发现提供了关于提示的微妙动态及其对语言模型行为的重大影响的宝贵见解。随着人工智能社区寻求提高大型语言模型的精确性,这一发现成为一个重要的进展,对改进其功能具有实际意义。 这篇文章最初发表于MarkTechPost上,转自最近的Anthropic研究表明,通过单个提示的添加,可以将LLMs的召回能力提高70%:通过战略提示释放Claude 2.1的力量。
Leave a Comment如何在不依赖人工标注的情况下生成高质量图像? MIT CSAIL和FAIR Meta的这篇论文解决了不依赖人工标注生成高质量图像的挑战。他们提出了一个名为Representation-Conditioned Image Generation(RCG)的新型框架,该框架利用从图像分布经过预训练编码器获得的自监督表示分布。这个框架在无条件生成图像方面取得了优秀的结果,并且在有条件生成图像方面与领先方法一直保持竞争力。 历史上,监督学习主导了计算机视觉,但是像对比学习这样的自监督学习方法缩小了差距。尽管先前的图像生成工作在使用人工标注进行有条件生成方面表现出色,但无条件生成面临挑战。引入的框架RCG通过在没有人工标注的情况下在类有条件和类无条件图像生成方面取得了卓越的成果。 RCG取得了最先进的结果,标志着自监督图像生成的重大进展。 使用自监督教育的Representation Diffusion Model(RDM)可以帮助弥合图像生成中监督学习和无监督学习之间的差距。RCG将RDM与像素生成器集成,从而实现了潜在优势的类无条件图像生成。 RCG框架将图像生成条件化为通过预训练编码器从图像分布获得的自监督表示分布。利用像素生成器对像素进行条件化,RCG通过通过去噪扩散隐式模型进行的表示空间采样来集成RDM的训练。 RCG集成了无需分类器的指导,以改善生成模型的性能,如MAGE所示。像Moco v3这样的预训练图像编码器将表达式规范化为输入到RDM中。 RCG框架在类无条件图像生成方面表现出色,实现了最先进的结果,并在类有条件图像生成方面与领先方法相媲美。在ImageNet 256×256数据集上,RCG达到了3.31的Frechet Inception Distance和253.4的Inception Score,表明生成了高质量的图像。通过对表示进行条件化,RCG显著改善了像ADM,LDM和MAGE等不同像素生成器的类无条件生成,并进一步改善了性能的训练周期。 RCG的自我条件化图像生成方法在各种现代生成模型中具有通用性,始终改善类无条件生成。 RCG框架借助自监督表示分布在类无条件图像生成方面取得了突破性成果。其与多样的生成模型的无缝集成显著改善了它们的类无条件性能,而其不依赖于人工标注的自我条件化方法有望超越有条件方法。RCG的轻量级设计和任务特定的训练适应性使其能够利用大型无标签数据集。 RCG已经被证明是一种非常有效和有前途的高质量图像合成方法。
Leave a Comment如何改进神经辐射场(NeRFs)以处理尺度变化并减少场景重建中的锯齿伪影?卡内基梅隆大学和Meta的一篇新研究论文通过提出金字塔神经辐射场(PyNeRF)来解决这个问题。它通过在不同的空间网格分辨率上训练模型头部,从而帮助减少在不同相机距离下重建场景时可能发生的视觉畸变。PyNeRF在不显著影响性能的情况下实现了这些改进,使其成为在加速NeRFs的同时保持高质量场景重建的有效解决方案。 受到NeRF的启发,该研究探索了基于网格的方法(NSVF、Plenoxels、DVGO、TensoRF、K-Planes、Instant-NGP),旨在使用体素网格和张量近似来增强渲染速度和内存效率。PyNeRF在不同尺度上结合了速度优势与质量保证,超越了Instant-NGP、Nerfacto等快速渲染方法,并在渲染质量和训练速度上表现出色。 近期在神经体积渲染方面的进展,特别是NeRFs,为实现逼真的视图合成提供了进展。然而,NeRFs由于其MLP表示和假设而导致速度较慢,容易出现锯齿现象。基于网格的方法如Mip-NeRF加速训练,但缺乏与位置编码的兼容性——PyNeRF受到分治NeRF扩展和经典技术的启发。PyNeRF的金字塔模型沿着光线采样,并采用分区方法来提高渲染质量,同时保持加速的NeRF实现的速度,为高效和高质量的新视图合成提供了一种多功能解决方案。 研究建议修改基于网格的模型,并在不同的空间网格分辨率下训练模型头部以渲染较大的体积样本。使用SUDS作为基础模型,他们逐步在更高的分辨率上进行训练。文中还讨论了各种基于网格加速方法,将学到的特征存储在体素网格或哈希表等结构中。研究人员对其方法进行了与LaplacianPyNeRF和其他插值方法的评估,考察了重用特征网格和使用2D像素区域的影响。其主要贡献是一种多功能的分区方法,可以提高可视保真度,同时在任何现有的网格渲染方法中保持渲染速度。 PyNeRF在合成和真实场景中大大提高了渲染质量,将误差率降低了20-90%,对性能的影响很小。与Mip-NeRF相比,它在训练速度上提高了60倍,并减少了20%的误差。PyNeRF在2小时内达到了SUDS的质量,各项指标优于基准,而SUDS需要4小时。对合成和多尺度Blender数据集的评估结果显示,与快速渲染方法相比,PyNeRF在合成和Multi-scale Blender数据集上展现出卓越的结果。通过对Argoverse 2 Sensor数据集的评估,验证了PyNeRF在众多视频帧中的高质量重建。 总而言之,PyNeRF在快速体积渲染器中改进了抗锯齿特性,展示出在各种数据集上的卓越成果。该方法倡导分享真实场景捕捉,以进一步研究神经体积渲染。然而,它也注意到高质量神经表示的潜在安全和隐私风险。 未来研究可以通过分享更多的真实场景捕捉和探索替代的映射函数来为层次结构分配积分体积。一个有价值的研究方向是在模型训练期间使用语义信息进行隐私过滤。有趣的未来研究方向包括进一步探索架构以提高在快速NeRF方法中可视保真度同时保持渲染速度。潜在的研究领域涉及将金字塔方法应用于其他加速的NeRF实现,并评估其性能。
Leave a Comment伊利诺伊大学厄巴纳香槟分校和清华大学的研究团队旨在通过引入Magicoder来解决从开源代码片段生成低偏差、高质量编码挑战的难题。Magicoder在各种编码基准测试中表现优于现有的语言模型,包括Python文本转代码生成、多语言编码和数据科学程序语言模型。 CodeGen、CodeT5、StarCoder和CODELLAMA等知名基础模型已经证明了语言模型在代码生成和理解方面的基本能力。指令微调的提出旨在通过使用指令-响应对来对预训练的语言模型进行微调,SELF-INSTRUCT和Evol-Instruct等方法则用于生成指令微调的合成数据。现有的代码基准测试,如HumanEval、MBPP、APPS和CodeContests,评估语言模型在从自然语言描述中开发单功能程序方面的能力。 Magicoder是一系列完全开源的用于代码的语言模型,使用OSS-INSTRUCT方法在75,000个合成指令数据上进行训练,该方法使用开源代码片段启发语言模型生成高质量的代码指令数据。该方法通过从GitHub获取种子代码片段,促使语言模型生成与种子代码相关的编码问题和解决方案,确保多样性和真实世界的相关性。评估使用HumanEval和MBPP等基准测试,重点关注pass1指标。使用INSTRUCTOR根据嵌入相似性对由OSS-INSTRUCT生成的数据进行分类。为了提高鲁棒性,采用了数据清洗技术,包括净化和提示过滤。 Magicoder以不超过70亿的适度参数量展现了与顶级代码模型竞争性能。使用OSS-INSTRUCT在75,000个合成指令数据上进行训练,Magicoder在Python文本转代码生成、多语言编码和数据科学程序语言建模方面超越了先进的代码模型。增强版MagicoderS进一步改进了代码生成性能,在各种基准测试中超过了类似或更大尺寸的其他模型。 MagicoderS-CL-7B在代码模型中同时实现了前沿结果,展示了强大和优越的代码生成能力。 总之,该研究突出了使用OSS-INSTRUCT的有效性,该方法利用语言模型从开源代码片段中生成编码挑战。经过OSS-INSTRUCT训练的Magicoder在不同的编码基准测试中比其他参数更大的语言模型表现更好。此外,当与Evol-Instruct结合时,它还增强了MagicoderS模型,在HumanEval基准测试中表现出与ChatGPT等领先模型相似的令人印象深刻的性能。该研究建议公开模型权重、训练数据和源代码,以支持未来对于代码的语言模型和扩展OSS-INSTRUCT到更大的基础模型以生成更高质量数据的研究工作。
Leave a Comment最近,视频编辑领域取得了重要的进展,其中以使用人工智能(AI)进行编辑的技术为主导。新的众多技术涌现出来,其中以基于扩散的视频编辑为特别有前景的领域。它利用预训练的文本到图像/视频扩散模型来实现风格改变、背景替换等任务。然而,视频编辑最具挑战性的部分是将来自源视频的运动转移到编辑后的视频中,并在整个过程中确保时间上的一致性。 大多数视频编辑工具注重通过确保时间一致性和运动对齐来保留视频的结构。然而,在处理视频中形状的改变时,该过程变得无效。为了弥补这一差距,本文的作者(新加坡国立大学Show Lab和GenAI,Meta的研究人员)介绍了VideoSwap框架,该框架使用语义点对应来对齐主体的运动轨迹并改变其形状,而不是密集的点对应。 使用密集对应可以更好地保持时间上的一致性,但它限制了在编辑后的视频中主体形状的改变。虽然使用语义点对应是一种灵活的方法,但它在不同的开放世界设置中会有所变化,这使得难以训练一个通用条件模型。研究人员尝试仅使用有限数量的源视频帧来学习语义点控制。他们发现优化源视频帧上的点可以对齐主体的运动轨迹并改变主体的形状。此外,优化的语义点也可以在语义和低层次的更改之间进行传递。这些观察结果为使用语义点对应在视频编辑中提供了依据。 研究人员通过以下方式设计了该框架。他们将运动层集成到图像扩散模型中,以确保时间上的一致性。他们还在源视频中识别语义点并利用它们来传输运动轨迹。该方法仅关注高级语义对齐,从而防止过度学习低级细节,从而增强语义点对齐。此外,VideoSwap还具有用户点互动功能,例如删除或拖动多个语义点对应。 研究人员使用潜在扩散模型实施了该框架,并采用AnimateDiff中的运动层作为基础模型。他们发现,与先前的视频编辑方法相比,VideoSwap在同时对齐源运动轨迹、保留目标概念身份的基础上实现了显著的形状改变。研究人员还利用人工评估者验证了他们的结果,结果明确表明VideoSwap在主体身份、运动对齐和时间一致性等指标上优于其他比较方法。 总之,VideoSwap是一个多功能框架,可用于视频编辑,即使涉及复杂的形状也可以。它在过程中限制了人工干预,并使用语义点对应来实现更好的视频主体替换。该方法还允许在同时改变形状的同时将运动轨迹与源对象对齐,并在多个指标上优于先前的方法,展示了定制视频主体替换的最新成果。
Leave a Comment人工智能(AI)和机器学习(ML)的能力使它们成功地进入了各个行业。最近,随着大型语言模型(LLMs)和问答系统的引入,AI社区取得了很大的进展。从预先计算好的包含问题-答案配对的数据库中高效地检索响应是自动问答(QA)系统的常见步骤。 有两种主要的QA范例:开放式和闭塞式。开放式范例,或称为取阅和阅读,是一个两步骤过程,其中相关材料是从庞大的文档语料库(经常是互联网)中获得的,然后通过应用不同的模型和方法从已获得的材料中提取解决方案。另一方面,闭塞式方法较新,依赖于在训练中学习的技能,这些使用该范例的模型通常基于Seq2Seq模型如T5,可以在不使用外部语料库的情况下产生结果。 虽然闭塞式技术显示出了显着的结果,但对于许多工业应用来说,资源消耗太大,并对系统性能构成重大风险。数据库问答(DBQA)是一种从预先生成的问题-答案对数据库中检索响应而不是依赖于模型参数或大型语料库中的信息的方法。 这些系统的三个主要部分是问题和答案的数据库、查询数据库的检索模型和选择最佳答案的排名模型。DBQA技术能够进行快速的推理,并具备添加新对并避免重新训练模型的能力,从而引入新的信息。 数据库问答技术的检索和排名模型开发的主要问题之一是缺乏实质性的训练数据。现有资源在范围和内容方面还不足,因为其中很多需要改进注释过程的质量或只关注问题之间的相似性,忽视了答复。 为了克服这些挑战,一组研究人员提出了一个名为QUADRo的问题-答案数据库检索数据集和模型。这是一个新的、面向开放域的注释资源,专门用于训练和评估模型。这个资源中每一个15,211个输入问题都有30个相关问题-答案对。这个收集总共有443,000个标注样本。每对的二进制指示器标记了它在与输入查询的关系中的重要性。 该团队还进行了全面的实验,以评估该资源与几个重要QA系统组件的质量和特性的关系。这些组件包括训练方法、输入模型配置和答案的相关性。通过对在该数据集上训练的模型的行为和性能进行检查,实验证明了所建议的方法在检索相关响应方面的效果。 总之,该研究通过引入一种有用的资源并仔细评估该资源的属性,解决了自动质量保证系统中训练和测试数据的不足。重视培训策略和答案相关性等重要元素有助于对该资源的全面了解。
Leave a Comment