Press "Enter" to skip to content

四海吧 Posts

结识FreeNoise:一种新的人工智能方法,可以使用多个文本提示生成长达512帧的视频

FreeNoise被研究人员引入作为一种在多个文本条件下生成更长视频的方法,克服了现有视频生成模型的局限性。它增强了预训练的视频扩散模型,同时保持内容一致性。FreeNoise通过重新安排噪声序列来实现长距离相关性和基于窗口的时间关注。一种运动注入方法支持基于多个文本提示生成视频。该方法显著扩展了视频扩散模型的生成能力,与现有方法相比,额外的时间成本很小。 FreeNoise通过重新安排噪声序列来实现长距离相关性,并采用基于窗口的融合实现时间关注。它通过最小的额外时间成本生成在多个文本条件下的更长视频。该研究还提出了一种运动注入方法,确保文本提示上的一致布局和物体外观。大量实验和用户研究验证了这种方法的有效性,超越了基准方法在内容一致性、视频质量和视频文本对齐方面的表现。 当前的视频扩散模型必须在训练过程中维护视频质量,因为它们仅被训练在有限数量的帧上。FreeNoise是一种无需调整的范式,通过增强预训练的视频扩散模型,使其能够生成在多个文本条件下的更长视频。它采用噪声重新安排和时间关注技术来提高内容一致性和计算效率。该方法还提出了一种运动注入方法,用于多提示视频生成,有助于理解视频扩散模型中的时间建模和高效视频生成。 FreeNoise范式通过增强预训练的视频扩散模型,用于更长的、多文本条件的视频生成。它采用噪声重新安排和时间关注来提高内容一致性和计算效率。一种运动注入方法确保在多提示视频生成中保持视觉一致性。实验结果证实了这种方法在扩展视频扩散模型方面的优越性,而该方法在内容一致性、视频质量和视频文本对齐方面表现出色。 FreeNoise范式通过增强预训练的视频扩散模型,用于更长的、多文本条件的视频生成,与先前的方法相比,额外时间成本约为17%。用户研究支持这一点,显示用户更喜欢FreeNoise生成的视频,因为它们在内容一致性、视频质量和视频文本对齐方面更好。该方法的定量结果和比较突显了FreeNoise在这些方面的卓越性。 总之,FreeNoise范式改进了预训练的视频扩散模型,用于更长的、多文本条件的视频生成。它采用噪声重新安排和时间关注来提高内容一致性和效率。一种运动注入方法支持多文本视频生成。大量实验证实了其优越性和较小的时间成本。它在FVD、KVD和CLIP-SIM等方面胜过其他方法,确保视频质量和内容一致性。 未来的研究可以改进FreeNoise中的噪声重新安排技术,以改进预训练的视频扩散模型,用于更长的、多文本条件的视频生成。还可以提升运动注入方法,以更好地支持多文本视频生成。为视频质量和内容一致性开发先进的评估指标对于更全面的模型评估至关重要。FreeNoise的适用性可以扩展到视频生成之外的领域,可能探索诸如图像生成或文本到图像合成等领域。在长视频和复杂文本条件下扩展FreeNoise为一个有趣的研究方向,以推动文本驱动视频生成的研究。

Leave a Comment

AI与IMO挑战的桥梁:正式平面几何系统的突破

通过勤奋努力和坚定承诺,研究人员踏上了一项多年的旅程,创建了一个全面的形式平面几何系统,以弥合困难的IMO级问题和AI自动推理之间的差距。这个形式系统允许现代AI模型以人类可读、可追溯和可验证的方式推导复杂几何问题的解决方案。他们的研究引入了几何形式化理论(GFT)来指导系统开发,其中包括几何谓词和定理的FormalGeo。它还提供了用于AI集成的基于Python的FGPS(Formal Geometry Problem Solver)和注释的FormalGeo7k数据集。文章讨论了AI作为解析器和求解器的角色,强调了系统的正确性和实用性,并提出了通过深度学习技术可能的改进。 在几何问题解决中,已经提出了各种方法,包括Gelernter的后向搜索、Nevins的前向链接、吴的代数方法和张的点消除方法。已经创建了几个形式系统和数据集,但往往需要更多的理论指导和可扩展性。CL模型、SCA和GeoDRL等AI辅助系统旨在提高成功率。代数方法和数值并行方法也做出了重要贡献。共享基准和数据集推动了AI辅助几何问题求解的研究。 数学和计算在互为益处的关系中分享,计算既能够促进数学工作,也为形式数学提供了一个平台。人工智能的出现扩展了计算机辅助数学问题解决的可能性。斯坦福大学2021年AI100报告强调了IMO大挑战,寻求一个能够为形式问题生成机器可检验证明并在国际数学奥林匹兽数学方面取得优秀成绩的AI系统,强调了全面数学形式化的需要。虽然在机械化数学问题方面已经取得了进展,但几何问题的形式化和机械求解面临挑战,如一致性知识表示和难以读取的过程。 这项研究引入了一个全面的平面几何系统FormalGeo,包括几何谓词和定理。它提出了一个基于Python的几何问题求解器FGPS,提供交互式辅助和自动求解。为几何问题进行了正式语言注释的FormalGeo7k数据集有助于AI集成。该研究将现代AI模型与系统对齐,以实现对具有挑战性的几何问题的演绎推理。它提出了用于系统开发的GFT,并采用GDL和CDL进行问题定义。后向深度优先搜索方法显示出低失败率,并且可以通过深度学习技术进行进一步改进。 FormalGeo是一个全面的正式平面几何系统,包括88个谓词和196个定理,可以验证和解决具有挑战性的几何问题。FGPS是一个基于Python的问题求解器,提供交互式辅助和自动求解方法。FormalGeo7k数据集是一个具有正式注释的几何问题数据集,有助于AI集成。现代AI模型增强了系统,产生了可读、可追溯和可验证的证明。实验证实了GFT,并且FGPS的后向深度优先搜索方法实现了低2.42%的错误率,具有通过深度学习技术进一步提升的潜力。 该方法引入了GFT指导几何问题形式化,并提出了FormalGeo系统和FGPS求解器。通过对FormalGeo7k数据集的实验验证了GFT,使用后向深度优先搜索方法的错误率只有低2.42%。进一步的改进包括扩展谓词、对IMO级数据集进行注释以及实施深度学习技术。现代AI集成使得AI能够提供可读、可追溯和可验证的几何问题解决方案。FormalGeo7k数据集和FGPS源代码的提供促进了自动几何推理的进一步研究和开发。

Leave a Comment

在Python中进行结构化LLM输出存储和解析

介绍 生成AI目前在全球范围内广泛使用。大型语言模型能够理解提供的文本并基于此生成文本的能力,已经导致了从聊天机器人到文本分析器的众多应用。但是,这些大型语言模型通常以非结构化的方式生成文本。有时候,我们希望LLM生成的输出以结构化的形式呈现,比如JSON(JavaScript对象表示)格式。假设我们正在使用LLM来分析社交媒体帖子,并且我们需要LLM生成的输出在代码中本身作为JSON/Python变量,以执行其他任务。通过Prompt Engineering可以实现这一点,但需要花费大量时间来调整提示。为了解决这个问题,LangChain引入了输出解析功能,可以用于将LLM的输出转换为结构化格式。 学习目标 解释大型语言模型生成的输出 使用Pydantic创建自定义数据结构 了解提示模板的重要性,并生成一个格式化LLM输出的模板 学习如何使用LangChain创建LLM输出的格式化指令 了解如何将JSON数据解析为Pydantic对象 本文是数据科学博文马拉松的一部分。 LangChain和输出解析是什么? LangChain是一个Python库,可以让您在短时间内构建与大型语言模型相结合的应用程序。它支持多种模型,包括OpenAI GPT LLM、Google的PaLM,甚至是Hugging Face中提供的开源模型,如Falcon、Llama等等。借助LangChain,定制大型语言模型的提示变得轻而易举,它还配备了一个开箱即用的向量存储库,可以存储输入和输出的嵌入。因此,可以使用它来创建在几分钟内查询任何文档的应用程序。 LangChain使大型语言模型能够通过代理从互联网上获取信息。它还提供了输出解析器,允许我们从大型语言模型生成的输出中结构化数据。LangChain提供了不同的输出解析器,如列表解析器、日期时间解析器、枚举解析器等等。在本文中,我们将介绍JSON解析器,它可以将LLM生成的输出解析为JSON格式。下面,我们可以观察到一个典型的流程,即将LLM输出解析为Pydantic对象,从而创建出一组可供Python变量直接使用的数据。 入门-设置模型 在本节中,我们将使用LangChain来设置模型。在本文中,我们将始终使用PaLM作为我们的大型语言模型。我们将使用Google Colab作为我们的环境。您可以将PaLM替换为任何其他大型语言模型。我们将首先导入所需的模块。 !pip install google-generativeai langchain 这将下载LangChain库和与PaLM模型一起使用的google-generativeai库。 需要langchain库来创建自定义提示并解析大型语言模型生成的输出。…

Leave a Comment

超越事实或虚构:评估像GPT-4这样的大型语言模型的先进事实核查能力

苏黎世大学的研究人员关注大型语言模型(LLMs)在自主事实检查中的作用,评估它们在提出查询、检索上下文数据和做出决策时提供解释和引用的能力。结果表明,尤其是GPT-4,LLMs在上下文信息方面表现良好,但准确性因查询语言和论断真实性而异。虽然它在事实检查方面显示出了希望,但准确性上的不一致强调了需要进一步研究以更好地了解它们的能力和限制。 自动化事实检查研究在过去十年中以不同的方法和共享任务得到发展。研究人员提出了诸如主张检测和证据提取等组件,通常依赖于大型语言模型和维基百科等来源。然而,确保可解释性仍然具有挑战性,因为对事实检查裁决的明确解释对新闻工作至关重要。 随着网络上虚假信息的增加,事实检查的重要性也越来越大。虚假信息在2016年美国总统选举和英国脱欧公投等重大事件期间引起了激增。传统的人工事实检查必须改进以应对大量在线信息,这需要自动化的解决方案。像GPT-4这样的大型语言模型已经成为验证信息的重要工具。解释性在新闻应用中使用这些模型时面临挑战。 本研究评估了LLMs在事实检查中的使用情况,重点关注GPT-3.5和GPT-4。模型在两种条件下进行评估:一种是没有外部信息的情况,一种是有上下文信息的情况。研究人员提出了一种使用ReAct框架创建迭代代理的原始方法,用于自动化事实检查。该代理在决定是否结束搜索或继续查询时自主决策,旨在平衡准确性和效率,并用引用的推理证明其裁决理由。 提出的方法评估了LLMs用于自主事实检查的效果,结果显示GPT-4在PolitiFact数据集上的表现优于GPT-3.5。上下文信息显著提高了LLM的性能。然而,考虑到准确性在半真和大部分错误等细微类别中的变化,需要谨慎。该研究呼吁进一步研究,以提升对LLMs在事实检查任务中表现出色或失误的理解。 GPT-4在事实检查方面优于GPT-3.5,特别是在引入上下文信息后。然而,准确性因查询语言和论断真实性等因素而异,尤其在细微类别中。它还强调了在使用LLMs时告知人类监督的重要性,因为即使有10%的错误率也可能在今天的信息环境中产生严重后果,突出了人工事实检查员不可替代的角色。 进一步的研究对于全面了解LLM代理在事实检查中的优势和劣势条件至关重要。探索解释LLMs准确检测虚假陈述相对于真实陈述的因素,可以为提高准确性提供有价值的见解。

Leave a Comment

遇见Davidsonian场景图:一种革命性的人工智能框架,用于准确评估文本到图像人工智能

文本到图像(T2I)模型的评估很难,通常依赖于生成和回答问题(QG/A)的方法来评估文本图像的忠实度。然而,当前的QG/A方法存在可靠性问题,如问题质量和答案的一致性。为此,研究人员引入了Davidsonian场景图(DSG),这是一种受形式语义启发的自动QG/A框架。DSG在依赖图中生成原子的、上下文相关的问题,以确保更好的语义覆盖和一致的答案。实验结果证明了DSG在各种模型配置上的有效性。 该研究聚焦于评估文本到图像模型面临的挑战,并强调了QG/A对于评估文本图像配对的忠实度的有效性。常用的评估方法包括文本图像嵌入相似度和基于图像字幕的文本相似度。还讨论了之前的QG/A方法,如TIFA和VQ2A。DSG强调了对于语义细微差别、主观性、领域知识以及超出当前VQA(视觉问答)模型能力的语义类别的进一步研究的需求。 文本到图像模型通过文本描述生成图像,引起了关注。传统的评估依赖于提示和图片之间的相似性得分。最近的方法提出了一个QG模块,从文本中创建验证问题和预期答案,然后通过一个VQA模块回答这些问题,基于生成的图像。这种被称为QGA框架的方法借鉴了机器学习中使用的基于问答的验证方法,如摘要质量评估。 DSG是一个受形式语义启发的自动图形QG/A评估框架。DSG在依赖图中生成独特的、上下文相关的问题,以确保语义覆盖和避免不一致的答案。它适用于多种QG/A模块和模型配置,并通过广泛的实验证明了其有效性。 作为评估文本到图像生成模型的框架,DSG解决了QG/A中的可靠性挑战。它在依赖图中生成上下文相关的问题,并在不同的模型配置上进行了实验验证。该方法提供了DSG-1k,一个包含1,060个不同语义类别的提示的开放式评估基准,同时还提供了相应的DSG问题,用于进一步的研究和评估。 总之,DSG框架是评估文本到图像模型和解决QG/A挑战的有效方法。通过使用不同的模型配置进行广泛的实验,证实了DSG的实用性。它提出了一个包含各种样本的DSG-1k开放基准。该研究强调了人类评估作为当前可靠性的黄金标准的重要性,同时承认在特定类别中语义细微差别和限制的进一步研究的必要性。 未来的研究可以解决主观性和领域知识相关的问题。这些问题可能导致模型与人类之间的不一致,以及不同的人类评估者之间的不一致。该研究还强调了当前VQA模型在准确表示文本方面的局限性,强调了在模型性能的这一领域改进的必要性。

Leave a Comment

这项来自中国的人工智能研究介绍了“啄木鸟”:一种创新的人工智能框架,旨在纠正多模态大型语言模型(MLLMs)中的幻觉

中国的研究人员引入了一种名为Woodpecker的新型AI校正框架,以解决多模态大型语言模型(MLLMs)中的错觉问题。这些模型结合了文本和图像处理,经常生成不准确反映所提供图像内容的文本描述。这种不准确性被归类为物体级错觉(涉及不存在的物体)和属性级错觉(对物体属性的不准确描述)。 目前减轻错觉的方法通常涉及使用特定数据对MLLM进行重新训练。这些基于指令的方法可能需要大量数据和计算资源。相比之下,Woodpecker提供了一种无需训练的替代方案,可应用于各种MLLM,通过其校正过程的不同阶段增强可解释性。 Woodpecker由五个关键阶段组成: 1.关键概念提取:该阶段识别所生成文本中提到的主要对象。 2.问题制定:围绕提取出的对象提出问题以诊断错觉。 3.视觉知识验证:使用专家模型回答这些问题,例如物体检测用于物体级查询,视觉问答(VQA)模型用于属性级问题。 4.视觉索赔生成:问题-答案对被转化为结构化视觉知识库,包括物体级和属性级索赔。 5.错觉校正:利用视觉知识库,系统引导MLLM修改所生成文本中的错觉,并附加边界框以确保清晰和可解释性。 该框架强调透明度和可解释性,使其成为理解和校正MLLM中失真的有价值工具。 研究人员在三个基准数据集(POPE、MME和LLaVA-QA90)上评估了Woodpecker。在POPE基准测试中,Woodpecker在基线模型MiniGPT-4和mPLUG-Owl上显著提高了准确性,分别实现了30.66%和24.33%的准确性改善。该框架在不同设置(包括随机、流行和对抗性场景)中表现出一致性。 在MME基准测试中,Woodpecker显示出显著的改进,特别是在与计数相关的查询中,它的表现超过了MiniGPT-4 101.66个得分。对于属性级查询,Woodpecker提高了基线模型的性能,有效解决了属性级错觉。 在LLaVA-QA90数据集中,Woodpecker一直提高了准确性和详细性指标,表明其能够校正MLLM生成的响应中的错觉,并丰富描述内容。 总之,Woodpecker框架为解决多模态大型语言模型中的错觉提供了一种有希望的校正方法。它通过关注解释和校正而不是重新训练,为提高MLLM生成描述的可靠性和准确性提供了有价值的工具,并有潜在的在涉及文本和图像处理的各种应用中带来好处。

Leave a Comment

斯坦福大学的研究人员提出了“EquivAct”:一种在不同比例和方向上推广任务的机器人学习的突破性技术

如果所涉及的物体具有不同的视觉或物理属性,人类可以通过几个示例来解决操纵任务的多种变体,并学习完成任务的方法。为了使学到的策略适用于不同的物体比例、方向和视觉外观,现有的机器人学习研究仍然需要大量的数据增强。然而,尽管有这些改进,对于未知变体的泛化并不保证。 斯坦福大学的一篇新论文研究了零样本学习的视觉运动策略挑战,该策略可能以少量样本轨迹作为输入,来自单个源操作场景,并推广到具有未知对象视觉外观、大小和姿势的场景。特别重要的是学习如何处理可变形和关节化物体,例如衣物或盒子,以及刚性物体,例如拾放。为了确保学到的策略对不同的物体放置、方向和比例都具有鲁棒性,建议将等变性融入到视觉物体表示和策略架构中。 他们提出了一种新的视觉运动策略学习方法——EquivAct,可以从单个源操作场景的演示中学习3D机器人操作任务的闭环策略,并将其零样本推广到未知场景。学到的策略以机器人末端执行器姿态和环境的部分点云作为输入,以机器人的动作(例如末端执行器速度和夹持器命令)作为输出。与大多数先前的工作相比,研究人员在其神经网络中使用了SIM(3)-等变网络架构。这意味着当输入的点云和末端执行器位置被平移和旋转时,输出的末端执行器速度会相应调整。由于他们的策略架构具有等变性,它可以从较小规模的桌面活动的演示中学习,然后零样本推广到包括具有不同的视觉和物理外观的演示对象的移动操作任务中。 这种方法分为两个部分:学习表示和策略。为了训练代理的表示,团队首先提供了一组使用与目标任务对象相同的相机和设置捕获的合成点云,但具有不同的随机非均匀尺度。他们以这种方式补充训练数据,以适应非均匀缩放,即使所建议的架构对于均匀缩放是等变的。模拟数据不必显示机器人活动,甚至不必演示实际任务。为了从场景点云中提取全局和局部特征,他们使用模拟数据训练了一个SIM(3)-等变编码器-解码器架构。在训练过程中,对配对的点云输入使用对比学习损失,以将相关物体部分的局部特征组合在一起。在策略学习阶段,假设之前验证的任务轨迹的样本是有限的。 研究人员使用数据训练了一个闭环策略,给定场景的部分点云作为输入,利用先前学习的编码器从点云中提取全局和局部特征,然后将这些特征馈入一个SIM(3)-等变行动预测网络,以预测末端执行器的移动。除了以前的工作中的标准刚性物体操作任务外,这种方法还在更复杂的任务领域中进行了评估,包括舒适被子的折叠、容器的覆盖和盒子的封口。 团队展示了许多人类示例,其中一个人为每个活动操作桌面上的一个物体。在演示了该方法后,他们在移动操作平台上进行了评估,机器人需要在一个更大的尺度上解决同一个问题。研究结果表明,该方法能够从源操作演示中学习闭环机器人操作策略,并在一次运行中执行目标任务,而无需进行任何微调。进一步证明该方法比这种方法更有效,并且依赖于对超出分布范围的物体姿势和比例的显著增强。它还优于不利用等变性的作品。

Leave a Comment