四海吧 – Page 31 – 四海之内皆兄弟，四海带你涨姿势

高级 RAG 01：从小到大的检索

Published November 5, 2023 by 四海吧

RAG（检索增强生成）系统从给定的知识库中检索相关信息，从而使其能够生成事实性、上下文相关和领域特定的内容…

Leave a Comment

线性代数的鸟瞰：地图的测量 — 行列式

Published November 5, 2023 by 四海吧

这是正在进行中的线性代数书籍《线性代数的鸟瞰》的第二章节目录如下：线性代数是多维度的工具无论什么…

Leave a Comment

通过使用TensorFlow推荐系统从隐式反馈中进行推荐

Published November 5, 2023 by 四海吧

提出推荐实际上并不难你只需要检查客户对你的产品的评分，例如使用1到5颗星星，然后在此基础上训练回归模型是吧…

Leave a Comment

结识FreeNoise：一种新的人工智能方法，可以使用多个文本提示生成长达512帧的视频

Published November 5, 2023 by 四海吧

FreeNoise被研究人员引入作为一种在多个文本条件下生成更长视频的方法，克服了现有视频生成模型的局限性。它增强了预训练的视频扩散模型，同时保持内容一致性。FreeNoise通过重新安排噪声序列来实现长距离相关性和基于窗口的时间关注。一种运动注入方法支持基于多个文本提示生成视频。该方法显著扩展了视频扩散模型的生成能力，与现有方法相比，额外的时间成本很小。 FreeNoise通过重新安排噪声序列来实现长距离相关性，并采用基于窗口的融合实现时间关注。它通过最小的额外时间成本生成在多个文本条件下的更长视频。该研究还提出了一种运动注入方法，确保文本提示上的一致布局和物体外观。大量实验和用户研究验证了这种方法的有效性，超越了基准方法在内容一致性、视频质量和视频文本对齐方面的表现。当前的视频扩散模型必须在训练过程中维护视频质量，因为它们仅被训练在有限数量的帧上。FreeNoise是一种无需调整的范式，通过增强预训练的视频扩散模型，使其能够生成在多个文本条件下的更长视频。它采用噪声重新安排和时间关注技术来提高内容一致性和计算效率。该方法还提出了一种运动注入方法，用于多提示视频生成，有助于理解视频扩散模型中的时间建模和高效视频生成。 FreeNoise范式通过增强预训练的视频扩散模型，用于更长的、多文本条件的视频生成。它采用噪声重新安排和时间关注来提高内容一致性和计算效率。一种运动注入方法确保在多提示视频生成中保持视觉一致性。实验结果证实了这种方法在扩展视频扩散模型方面的优越性，而该方法在内容一致性、视频质量和视频文本对齐方面表现出色。 FreeNoise范式通过增强预训练的视频扩散模型，用于更长的、多文本条件的视频生成，与先前的方法相比，额外时间成本约为17%。用户研究支持这一点，显示用户更喜欢FreeNoise生成的视频，因为它们在内容一致性、视频质量和视频文本对齐方面更好。该方法的定量结果和比较突显了FreeNoise在这些方面的卓越性。总之，FreeNoise范式改进了预训练的视频扩散模型，用于更长的、多文本条件的视频生成。它采用噪声重新安排和时间关注来提高内容一致性和效率。一种运动注入方法支持多文本视频生成。大量实验证实了其优越性和较小的时间成本。它在FVD、KVD和CLIP-SIM等方面胜过其他方法，确保视频质量和内容一致性。未来的研究可以改进FreeNoise中的噪声重新安排技术，以改进预训练的视频扩散模型，用于更长的、多文本条件的视频生成。还可以提升运动注入方法，以更好地支持多文本视频生成。为视频质量和内容一致性开发先进的评估指标对于更全面的模型评估至关重要。FreeNoise的适用性可以扩展到视频生成之外的领域，可能探索诸如图像生成或文本到图像合成等领域。在长视频和复杂文本条件下扩展FreeNoise为一个有趣的研究方向，以推动文本驱动视频生成的研究。

Leave a Comment

提升您的数据科学职业生涯：如何成为一名资深数据科学家

Published November 4, 2023 by 四海吧

几年来，您一直在从事数据科学家的工作，您的目标是提升到下一个级别尽管在当前的数据科学家角色中做得出色至关重要，但在许多组织中，单凭这一点是不够的

Leave a Comment

厌倦了二维码吗？自己建立自己的标志点吧！

Published November 4, 2023 by 四海吧

让我们学习如何构建一个替代二维码的基准标记：从设计到解码再到检测，让我们涵盖所有的步骤

Leave a Comment

现代数据工程

Published November 4, 2023 by 四海吧

现代数据生态系统不断发展，新的数据工具时常出现在本文中，我想谈论影响数据工程师们的关键事物我们将讨论如何使用它们…

Leave a Comment

卫星图像的基础模型

Published November 4, 2023 by 四海吧

基础模型是一种灵活的深度学习算法，其设计用于一般任务，而非立即专注于特定任务通过大量未标记数据进行训练，它们…

Leave a Comment

AI与IMO挑战的桥梁：正式平面几何系统的突破

Published November 4, 2023 by 四海吧

通过勤奋努力和坚定承诺，研究人员踏上了一项多年的旅程，创建了一个全面的形式平面几何系统，以弥合困难的IMO级问题和AI自动推理之间的差距。这个形式系统允许现代AI模型以人类可读、可追溯和可验证的方式推导复杂几何问题的解决方案。他们的研究引入了几何形式化理论（GFT）来指导系统开发，其中包括几何谓词和定理的FormalGeo。它还提供了用于AI集成的基于Python的FGPS（Formal Geometry Problem Solver）和注释的FormalGeo7k数据集。文章讨论了AI作为解析器和求解器的角色，强调了系统的正确性和实用性，并提出了通过深度学习技术可能的改进。在几何问题解决中，已经提出了各种方法，包括Gelernter的后向搜索、Nevins的前向链接、吴的代数方法和张的点消除方法。已经创建了几个形式系统和数据集，但往往需要更多的理论指导和可扩展性。CL模型、SCA和GeoDRL等AI辅助系统旨在提高成功率。代数方法和数值并行方法也做出了重要贡献。共享基准和数据集推动了AI辅助几何问题求解的研究。数学和计算在互为益处的关系中分享，计算既能够促进数学工作，也为形式数学提供了一个平台。人工智能的出现扩展了计算机辅助数学问题解决的可能性。斯坦福大学2021年AI100报告强调了IMO大挑战，寻求一个能够为形式问题生成机器可检验证明并在国际数学奥林匹兽数学方面取得优秀成绩的AI系统，强调了全面数学形式化的需要。虽然在机械化数学问题方面已经取得了进展，但几何问题的形式化和机械求解面临挑战，如一致性知识表示和难以读取的过程。这项研究引入了一个全面的平面几何系统FormalGeo，包括几何谓词和定理。它提出了一个基于Python的几何问题求解器FGPS，提供交互式辅助和自动求解。为几何问题进行了正式语言注释的FormalGeo7k数据集有助于AI集成。该研究将现代AI模型与系统对齐，以实现对具有挑战性的几何问题的演绎推理。它提出了用于系统开发的GFT，并采用GDL和CDL进行问题定义。后向深度优先搜索方法显示出低失败率，并且可以通过深度学习技术进行进一步改进。 FormalGeo是一个全面的正式平面几何系统，包括88个谓词和196个定理，可以验证和解决具有挑战性的几何问题。FGPS是一个基于Python的问题求解器，提供交互式辅助和自动求解方法。FormalGeo7k数据集是一个具有正式注释的几何问题数据集，有助于AI集成。现代AI模型增强了系统，产生了可读、可追溯和可验证的证明。实验证实了GFT，并且FGPS的后向深度优先搜索方法实现了低2.42%的错误率，具有通过深度学习技术进一步提升的潜力。该方法引入了GFT指导几何问题形式化，并提出了FormalGeo系统和FGPS求解器。通过对FormalGeo7k数据集的实验验证了GFT，使用后向深度优先搜索方法的错误率只有低2.42%。进一步的改进包括扩展谓词、对IMO级数据集进行注释以及实施深度学习技术。现代AI集成使得AI能够提供可读、可追溯和可验证的几何问题解决方案。FormalGeo7k数据集和FGPS源代码的提供促进了自动几何推理的进一步研究和开发。

Leave a Comment

前向传递和反向传播：神经网络101

Published November 4, 2023 by 四海吧

在我之前的两篇文章中，我们深入探讨了神经网络的起源，从单个感知器到大型相互连接的（多层感知器(MLP)）非线性优化引擎我非常推…

Leave a Comment

在Python中进行结构化LLM输出存储和解析

Published November 4, 2023 by 四海吧

介绍生成AI目前在全球范围内广泛使用。大型语言模型能够理解提供的文本并基于此生成文本的能力，已经导致了从聊天机器人到文本分析器的众多应用。但是，这些大型语言模型通常以非结构化的方式生成文本。有时候，我们希望LLM生成的输出以结构化的形式呈现，比如JSON（JavaScript对象表示）格式。假设我们正在使用LLM来分析社交媒体帖子，并且我们需要LLM生成的输出在代码中本身作为JSON/Python变量，以执行其他任务。通过Prompt Engineering可以实现这一点，但需要花费大量时间来调整提示。为了解决这个问题，LangChain引入了输出解析功能，可以用于将LLM的输出转换为结构化格式。学习目标解释大型语言模型生成的输出使用Pydantic创建自定义数据结构了解提示模板的重要性，并生成一个格式化LLM输出的模板学习如何使用LangChain创建LLM输出的格式化指令了解如何将JSON数据解析为Pydantic对象本文是数据科学博文马拉松的一部分。 LangChain和输出解析是什么？ LangChain是一个Python库，可以让您在短时间内构建与大型语言模型相结合的应用程序。它支持多种模型，包括OpenAI GPT LLM、Google的PaLM，甚至是Hugging Face中提供的开源模型，如Falcon、Llama等等。借助LangChain，定制大型语言模型的提示变得轻而易举，它还配备了一个开箱即用的向量存储库，可以存储输入和输出的嵌入。因此，可以使用它来创建在几分钟内查询任何文档的应用程序。 LangChain使大型语言模型能够通过代理从互联网上获取信息。它还提供了输出解析器，允许我们从大型语言模型生成的输出中结构化数据。LangChain提供了不同的输出解析器，如列表解析器、日期时间解析器、枚举解析器等等。在本文中，我们将介绍JSON解析器，它可以将LLM生成的输出解析为JSON格式。下面，我们可以观察到一个典型的流程，即将LLM输出解析为Pydantic对象，从而创建出一组可供Python变量直接使用的数据。入门-设置模型在本节中，我们将使用LangChain来设置模型。在本文中，我们将始终使用PaLM作为我们的大型语言模型。我们将使用Google Colab作为我们的环境。您可以将PaLM替换为任何其他大型语言模型。我们将首先导入所需的模块。 !pip install google-generativeai langchain 这将下载LangChain库和与PaLM模型一起使用的google-generativeai库。需要langchain库来创建自定义提示并解析大型语言模型生成的输出。…

Leave a Comment

给Matplotlib图添加嵌入轴

Published November 4, 2023 by 四海吧

在创建 matplotlib 中的图形时，可能会有一些情况需要在主图形内部添加一个较小的图形或坐标轴这可能有很多原因，但最常见的情况是…

Leave a Comment

使用Python进行的5个可视化，展示地理空间数据的同时变化

Published November 4, 2023 by 四海吧

时间和空间被设置为一些科幻电影的主题，比如《星际穿越》，我的最爱这类电影之所以有趣，原因之一就是同时发生的故事

Leave a Comment

在2024年，作为一名数据科学家，设定这些界限以获得更好的工作与生活平衡

Published November 4, 2023 by 四海吧

在谷歌上搜索“工作与生活平衡”可以得到29亿个搜索结果，很明显，这是我们都追求的目标不仅成为我们搜索的关注重点，而且在过去三年中…

Leave a Comment

超越事实或虚构：评估像GPT-4这样的大型语言模型的先进事实核查能力

Published November 4, 2023 by 四海吧

苏黎世大学的研究人员关注大型语言模型（LLMs）在自主事实检查中的作用，评估它们在提出查询、检索上下文数据和做出决策时提供解释和引用的能力。结果表明，尤其是GPT-4，LLMs在上下文信息方面表现良好，但准确性因查询语言和论断真实性而异。虽然它在事实检查方面显示出了希望，但准确性上的不一致强调了需要进一步研究以更好地了解它们的能力和限制。自动化事实检查研究在过去十年中以不同的方法和共享任务得到发展。研究人员提出了诸如主张检测和证据提取等组件，通常依赖于大型语言模型和维基百科等来源。然而，确保可解释性仍然具有挑战性，因为对事实检查裁决的明确解释对新闻工作至关重要。随着网络上虚假信息的增加，事实检查的重要性也越来越大。虚假信息在2016年美国总统选举和英国脱欧公投等重大事件期间引起了激增。传统的人工事实检查必须改进以应对大量在线信息，这需要自动化的解决方案。像GPT-4这样的大型语言模型已经成为验证信息的重要工具。解释性在新闻应用中使用这些模型时面临挑战。本研究评估了LLMs在事实检查中的使用情况，重点关注GPT-3.5和GPT-4。模型在两种条件下进行评估：一种是没有外部信息的情况，一种是有上下文信息的情况。研究人员提出了一种使用ReAct框架创建迭代代理的原始方法，用于自动化事实检查。该代理在决定是否结束搜索或继续查询时自主决策，旨在平衡准确性和效率，并用引用的推理证明其裁决理由。提出的方法评估了LLMs用于自主事实检查的效果，结果显示GPT-4在PolitiFact数据集上的表现优于GPT-3.5。上下文信息显著提高了LLM的性能。然而，考虑到准确性在半真和大部分错误等细微类别中的变化，需要谨慎。该研究呼吁进一步研究，以提升对LLMs在事实检查任务中表现出色或失误的理解。 GPT-4在事实检查方面优于GPT-3.5，特别是在引入上下文信息后。然而，准确性因查询语言和论断真实性等因素而异，尤其在细微类别中。它还强调了在使用LLMs时告知人类监督的重要性，因为即使有10%的错误率也可能在今天的信息环境中产生严重后果，突出了人工事实检查员不可替代的角色。进一步的研究对于全面了解LLM代理在事实检查中的优势和劣势条件至关重要。探索解释LLMs准确检测虚假陈述相对于真实陈述的因素，可以为提高准确性提供有价值的见解。

Leave a Comment

遇见Davidsonian场景图：一种革命性的人工智能框架，用于准确评估文本到图像人工智能

Published November 4, 2023 by 四海吧

文本到图像（T2I）模型的评估很难，通常依赖于生成和回答问题（QG/A）的方法来评估文本图像的忠实度。然而，当前的QG/A方法存在可靠性问题，如问题质量和答案的一致性。为此，研究人员引入了Davidsonian场景图（DSG），这是一种受形式语义启发的自动QG/A框架。DSG在依赖图中生成原子的、上下文相关的问题，以确保更好的语义覆盖和一致的答案。实验结果证明了DSG在各种模型配置上的有效性。该研究聚焦于评估文本到图像模型面临的挑战，并强调了QG/A对于评估文本图像配对的忠实度的有效性。常用的评估方法包括文本图像嵌入相似度和基于图像字幕的文本相似度。还讨论了之前的QG/A方法，如TIFA和VQ2A。DSG强调了对于语义细微差别、主观性、领域知识以及超出当前VQA（视觉问答）模型能力的语义类别的进一步研究的需求。文本到图像模型通过文本描述生成图像，引起了关注。传统的评估依赖于提示和图片之间的相似性得分。最近的方法提出了一个QG模块，从文本中创建验证问题和预期答案，然后通过一个VQA模块回答这些问题，基于生成的图像。这种被称为QGA框架的方法借鉴了机器学习中使用的基于问答的验证方法，如摘要质量评估。 DSG是一个受形式语义启发的自动图形QG/A评估框架。DSG在依赖图中生成独特的、上下文相关的问题，以确保语义覆盖和避免不一致的答案。它适用于多种QG/A模块和模型配置，并通过广泛的实验证明了其有效性。作为评估文本到图像生成模型的框架，DSG解决了QG/A中的可靠性挑战。它在依赖图中生成上下文相关的问题，并在不同的模型配置上进行了实验验证。该方法提供了DSG-1k，一个包含1,060个不同语义类别的提示的开放式评估基准，同时还提供了相应的DSG问题，用于进一步的研究和评估。总之，DSG框架是评估文本到图像模型和解决QG/A挑战的有效方法。通过使用不同的模型配置进行广泛的实验，证实了DSG的实用性。它提出了一个包含各种样本的DSG-1k开放基准。该研究强调了人类评估作为当前可靠性的黄金标准的重要性，同时承认在特定类别中语义细微差别和限制的进一步研究的必要性。未来的研究可以解决主观性和领域知识相关的问题。这些问题可能导致模型与人类之间的不一致，以及不同的人类评估者之间的不一致。该研究还强调了当前VQA模型在准确表示文本方面的局限性，强调了在模型性能的这一领域改进的必要性。

Leave a Comment

在量子世界中保守秘密

Published November 4, 2023 by 四海吧

密码学家们正在研究数据加密方案，这些方案足够强大，能够抵抗未来量子计算机的攻击

Leave a Comment

Nvidia为其工程师试用生成式人工智能技术

Published November 4, 2023 by 四海吧

英伟达的比尔·达利表示，该公司正在测试是否可以使用生成式人工智能提高其芯片设计师的生产力

Leave a Comment

2024年的18个软件开发趋势和预测

Published November 4, 2023 by 四海吧

2024年的软件开发领域将迎来技术的快速发展，同时也面临着不断演变的安全挑战

Leave a Comment

「ULTRA 知识图谱推理的基础模型」

Published November 4, 2023 by 四海吧

对于机器学习研究人员来说，训练一个通用模型来解决任意数据集的问题始终是一个梦想，尤其是在基础模型的时代虽然在感知领域实现了这样的梦想…

Leave a Comment

超越温馨的拥抱：深入解析拥抱面容

Published November 4, 2023 by 四海吧

“Hugging Face是一个提供各种自然语言处理（NLP）和自然语言理解（NLU）任务的工具和预训练模型的平台在我们之前的一篇文章中，我们介绍了一个温暖的…”

Leave a Comment

超参数调优：GridSearchCV和RandomizedSearchCV的解释

Published November 4, 2023 by 四海吧

学习如何使用网格搜索和随机搜索来调整模型的超参数还要学会使用GridSearchCV和RandomizedSearchCV在scikit-learn中实现它们

Leave a Comment

“模拟和退后提示：探秘Google DeepMind最新进展”

Published November 4, 2023 by 四海吧

通过Google DeepMind最新的研究，探索两种新的提示工程技术，深入研究类比提示和后退提示技术，以提升大型语言模型（GPT-4、PaLM等）在数学、推理、编码和STEM问题等复杂任务中的性能

Leave a Comment

基于AWS的生成型AI的无服务器图像生成应用程序

Published November 4, 2023 by 四海吧

在本教程中，了解如何使用Amazon Bedrock在Go语言中构建图像生成解决方案，并使用AWS CDK进行部署

Leave a Comment

这项来自中国的人工智能研究介绍了“啄木鸟”：一种创新的人工智能框架，旨在纠正多模态大型语言模型（MLLMs）中的幻觉

Published November 4, 2023 by 四海吧

中国的研究人员引入了一种名为Woodpecker的新型AI校正框架，以解决多模态大型语言模型（MLLMs）中的错觉问题。这些模型结合了文本和图像处理，经常生成不准确反映所提供图像内容的文本描述。这种不准确性被归类为物体级错觉（涉及不存在的物体）和属性级错觉（对物体属性的不准确描述）。目前减轻错觉的方法通常涉及使用特定数据对MLLM进行重新训练。这些基于指令的方法可能需要大量数据和计算资源。相比之下，Woodpecker提供了一种无需训练的替代方案，可应用于各种MLLM，通过其校正过程的不同阶段增强可解释性。 Woodpecker由五个关键阶段组成： 1.关键概念提取：该阶段识别所生成文本中提到的主要对象。 2.问题制定：围绕提取出的对象提出问题以诊断错觉。 3.视觉知识验证：使用专家模型回答这些问题，例如物体检测用于物体级查询，视觉问答（VQA）模型用于属性级问题。 4.视觉索赔生成：问题-答案对被转化为结构化视觉知识库，包括物体级和属性级索赔。 5.错觉校正：利用视觉知识库，系统引导MLLM修改所生成文本中的错觉，并附加边界框以确保清晰和可解释性。该框架强调透明度和可解释性，使其成为理解和校正MLLM中失真的有价值工具。研究人员在三个基准数据集（POPE、MME和LLaVA-QA90）上评估了Woodpecker。在POPE基准测试中，Woodpecker在基线模型MiniGPT-4和mPLUG-Owl上显著提高了准确性，分别实现了30.66%和24.33%的准确性改善。该框架在不同设置（包括随机、流行和对抗性场景）中表现出一致性。在MME基准测试中，Woodpecker显示出显著的改进，特别是在与计数相关的查询中，它的表现超过了MiniGPT-4 101.66个得分。对于属性级查询，Woodpecker提高了基线模型的性能，有效解决了属性级错觉。在LLaVA-QA90数据集中，Woodpecker一直提高了准确性和详细性指标，表明其能够校正MLLM生成的响应中的错觉，并丰富描述内容。总之，Woodpecker框架为解决多模态大型语言模型中的错觉提供了一种有希望的校正方法。它通过关注解释和校正而不是重新训练，为提高MLLM生成描述的可靠性和准确性提供了有价值的工具，并有潜在的在涉及文本和图像处理的各种应用中带来好处。

Leave a Comment

大型语言模型有多透明？

Published November 3, 2023 by 四海吧

斯坦福大学通过其大型语言模型（LLMs）和其他基础模型来衡量公司的透明度今年五月，许多人称之为人工智能之父的杰弗里·辛顿进行了测量…

Leave a Comment

以Kaggle的AI报告2023年为指南，畅游未来-看一看什么正热门

Published November 3, 2023 by 四海吧

深入探索世界上最大的数据科学和机器学习社区，了解他们对人工智能世界的所学所知

Leave a Comment

如何减少LLM幻觉

Published November 3, 2023 by 四海吧

AI幻觉源于训练数据的缺陷和过于复杂了解以研究支持的策略来减少幻觉

Leave a Comment

斯坦福大学的研究人员提出了“EquivAct”：一种在不同比例和方向上推广任务的机器人学习的突破性技术

Published November 3, 2023 by 四海吧

如果所涉及的物体具有不同的视觉或物理属性，人类可以通过几个示例来解决操纵任务的多种变体，并学习完成任务的方法。为了使学到的策略适用于不同的物体比例、方向和视觉外观，现有的机器人学习研究仍然需要大量的数据增强。然而，尽管有这些改进，对于未知变体的泛化并不保证。斯坦福大学的一篇新论文研究了零样本学习的视觉运动策略挑战，该策略可能以少量样本轨迹作为输入，来自单个源操作场景，并推广到具有未知对象视觉外观、大小和姿势的场景。特别重要的是学习如何处理可变形和关节化物体，例如衣物或盒子，以及刚性物体，例如拾放。为了确保学到的策略对不同的物体放置、方向和比例都具有鲁棒性，建议将等变性融入到视觉物体表示和策略架构中。他们提出了一种新的视觉运动策略学习方法——EquivAct，可以从单个源操作场景的演示中学习3D机器人操作任务的闭环策略，并将其零样本推广到未知场景。学到的策略以机器人末端执行器姿态和环境的部分点云作为输入，以机器人的动作（例如末端执行器速度和夹持器命令）作为输出。与大多数先前的工作相比，研究人员在其神经网络中使用了SIM(3)-等变网络架构。这意味着当输入的点云和末端执行器位置被平移和旋转时，输出的末端执行器速度会相应调整。由于他们的策略架构具有等变性，它可以从较小规模的桌面活动的演示中学习，然后零样本推广到包括具有不同的视觉和物理外观的演示对象的移动操作任务中。这种方法分为两个部分：学习表示和策略。为了训练代理的表示，团队首先提供了一组使用与目标任务对象相同的相机和设置捕获的合成点云，但具有不同的随机非均匀尺度。他们以这种方式补充训练数据，以适应非均匀缩放，即使所建议的架构对于均匀缩放是等变的。模拟数据不必显示机器人活动，甚至不必演示实际任务。为了从场景点云中提取全局和局部特征，他们使用模拟数据训练了一个SIM(3)-等变编码器-解码器架构。在训练过程中，对配对的点云输入使用对比学习损失，以将相关物体部分的局部特征组合在一起。在策略学习阶段，假设之前验证的任务轨迹的样本是有限的。研究人员使用数据训练了一个闭环策略，给定场景的部分点云作为输入，利用先前学习的编码器从点云中提取全局和局部特征，然后将这些特征馈入一个SIM(3)-等变行动预测网络，以预测末端执行器的移动。除了以前的工作中的标准刚性物体操作任务外，这种方法还在更复杂的任务领域中进行了评估，包括舒适被子的折叠、容器的覆盖和盒子的封口。团队展示了许多人类示例，其中一个人为每个活动操作桌面上的一个物体。在演示了该方法后，他们在移动操作平台上进行了评估，机器人需要在一个更大的尺度上解决同一个问题。研究结果表明，该方法能够从源操作演示中学习闭环机器人操作策略，并在一次运行中执行目标任务，而无需进行任何微调。进一步证明该方法比这种方法更有效，并且依赖于对超出分布范围的物体姿势和比例的显著增强。它还优于不利用等变性的作品。

Leave a Comment

苹果M2 Max GPU对比Nvidia V100、P100和T4

Published November 3, 2023 by 四海吧

将Apple Silicon M2 Max GPU与Nvidia V100、P100和T4进行比较，用于使用TensorFlow训练MLP、CNN和LSTM模型的性能

Leave a Comment

四海吧 Posts