Press "Enter" to skip to content

四海吧 Posts

数据科学的前十个Tableau项目

导言 数据科学的世界有很多具备技术专长的候选人,但只有少数人擅长解决问题。当涉及到有效地沟通和表达这些技能时,有些人天生擅长,而其他人需要随着时间的推移发展这种能力。幸运的是,随着诸如Tableau等工具的出现,您可以访问多种易于可视化的选项。在这个背景下,让我们探讨一下数据科学的前十个Tableau项目。这些项目将提升您的可视化技巧,增强您的问题解决能力,并帮助您向潜在雇主展示您的实践经验。 初学者级Tableau项目示例 如果您正在寻找一些初学者级的Tableau项目,那就不用再找了。这里是一些最简单项目的列表: 患者风险医疗信息看板 在医疗领域的候选人可以使用患者数据分析可能的风险,从而在数据科学中进行预测建模。您最好从收集与特定医院或根据其他任意选择标准相关的患者的基本信息和相关疾病开始。分析可以预测健康风险、特定疾病的发作时间或治疗时间。通过折线图、柱状图和散点图来设计患者风险医疗信息看板。 销售预测分析看板 该项目鼓励初学者级别的数据分析和数据科学,适用于Tableau项目的简历。您可以通过创建或获取关于任何公司各个团队或部门的销售数量等信息继续进行这个类别的项目。使用它来分析并预测下一时期特定物品的销售情况。使用不同的工具来预测值,并根据您的解释提供合理的想法。使用时间序列线图进行销售趋势的展示,使用柱状图进行实际可量化销售的展示,使用趋势线进行分析。 市场营销活动信息看板 您可以使用市场营销数据来分析不同市场营销活动的表现。因此,您可以建议继续某些特定市场营销活动或停止某些市场营销活动。继续使用包含不同数据类型的变量,如问题、段落类型和各种描述。找到其他相关信息,如答案和数量,并进行分析。确保使用趋势分析来描述总结信息以获得更好的理解。您可以使用饼图来展示段落分布,而柱状图则适用于市场营销活动的展示。市场营销活动相关的可视化需求很高。 航班价格分析看板 航空业利用数据可视化。在这个行业中,用于简历的最佳Tableau项目之一是预测航班价格的问题陈述。这个实践项目将是一个晋升的项目,因为它涉及多种数据类型和变量,从而导致特定结果。它还涉及到探索性数据分析和识别隐藏模式,然后实施预测模型。后者可以用散点图来描述和总结,而热力图可以用于价格变化。 犯罪分析看板 另一个涉及多个变量的初学者级项目对于分析趋势和预测是必要的。它也有助于通过了解罪犯的下一步行动来制定策略。请考虑将强度或任何其他增加数据集相关性和解决项目紧迫性的参数加入进来。在可视化数据时,采用树状图,并寻找基于时间段的模式以深入理解。用于相关性的散点图、用于趋势分析的折线图和用于犯罪分布的树状图是犯罪分析看板的常见想法。 空气质量和污染分析看板 该项目解决方案可用于展示经验,并展示环境保护行业的Tableau项目。您可以选择分析与任何特定地区的任何类型的污染或污染物相关的数据集。分析将深入探讨原因并预测适当的措施。它还专注于明确正确的行动。因此,创建的看板可以包含多个图表,如柱状图和折线图等。 中级级别的Tableau项目构思 在申请一些需要一定经验的职位时,考虑以下项目: 股票交易分析仪表板 在市场环境中使用,股票交易分析有助于决策。您可以创建一个包含特定地区当前市场趋势的详细信息的Tableau项目GitHub仪表板。呈现的信息可以通过区域图、趋势图、股票或市场分析、股权等相关信息的蜡烛图或热力图来包括。在这里需要适应经常变化的适当可视化方式。您还可以期望在此领域熟悉大数据量。 全球恐怖主义分析仪表板 通过这个项目所获得的经验和技能将有助于政府工作。创建的可视化工具可以协助制定正确的行动方案,帮助各国对抗恐怖主义,并进行模式识别来策划正确的战略。还涉及使用地图进行更好的识别,然后通过折线图和水平条形图进行表示。 COVID-19分析仪表板 这是另一个实际的、与医疗保健相关的项目,展示了您处理医疗行业的能力。Tableau项目GitHub仪表板可用于对不同地区的预测,并提供实时分析。它已经被用于实际的COVID-19描绘。该可视化工具能够分别显示不同强度和其他不同度量的大数据量的传播情况。对于其他项目构思,您可以使用地理空间图来表示传播情况的可视化效果,使用热力图来表示强度,并使用折线图来表示每日病例。 高级级别的Tableau项目构思…

Leave a Comment

通过深度生成模型的全面指标提升工程设计评估

在工程设计中,对深度生成模型(DGM)的依赖在近年来激增。然而,评估这些模型主要围绕统计相似性展开,通常忽视了设计约束、多样性和新颖性等关键方面。因此,对于开发和提出更全面、更细致的评估框架的需求变得日益显现。为了解决这个问题,一支研究团队致力于开发和提出一套完整的面向设计的度量标准,旨在更全面地了解DGM在工程设计任务中的能力和限制。 在工程设计中评估深度生成模型主要依赖统计相似性作为主要指标。然而,这种方法忽视了关键的设计约束,限制了探索多样化和新颖化设计解决方案的潜力。为了克服这些局限性,研究团队提出了一套精心挑选的针对工程设计任务的替代评估指标。这些指标涵盖了关键方面,包括约束满足性、多样性、新颖性和目标达成情况,提供了对DGM在工程设计中能力的更全面和深入的评估。 新引入的评估指标涉及工程设计任务的各个关键方面。这些指标包括约束满足性、性能、条件约束遵从性、设计探索和目标达成情况。每个指标都经过精心设计,以捕捉工程设计的复杂性和细微之处,从而更深入地理解DGM的优点和局限。通过将这些指标整合到评估过程中,研究人员和实践者可以更深入地了解设计空间,促进发现新颖和多样化的设计解决方案,并确保符合关键约束。 这些提出的度量标准经过严谨的过程开发,考虑到工程设计任务的多方面性质。它们为评估DGM的性能和能力提供了一个全面的框架,使研究人员和实践者能够做出明智的决策和工程设计的进展。整合这些指标可以促进更健全和深入的评估过程,促进发现符合严格约束并提供新颖和多样化视角的卓越设计解决方案。 该研究强调了在深度生成模型在工程设计领域中的综合评估指标的重要性。通过提供更细致和全面的方式评估DGM的能力,这些提出的度量标准为工程设计的重大进展铺平了道路。综合评估框架使研究人员和实践者能够更全面地探索设计空间,促进发现创新和多样化的解决方案,同时确保符合严格的设计约束。通过整合这些指标,工程设计领域将迎来重大的变革,鼓励探索新颖的设计可能性,打造更加创新和动态的景观。

Leave a Comment

AI中的水壶问题是什么?

介绍 水罐问题,也被称为“倒水问题”或“死硬问题”,是人工智能和计算机科学中的一个经典挑战。这个谜题围绕着使用多个不同容量的罐子测量特定数量的水。它不仅仅是一个脑筋急转弯,还是一个用来展示各种问题解决策略和算法的基本问题,尤其是搜索和优化技术。 在本文的后续部分,我们将深入研究水罐问题的复杂性。我们将探讨人工智能如何应用和解决这个谜题,揭示应用人工智能技术的方法。 定义问题 水罐问题是人工智能中的一个经典难题,涉及两个具有容量“x”升和“y”升的罐子以及一个水源。目标是使用这些罐子测量特定的“z”升水,没有体积标记。这是一个问题解决和状态空间搜索的测试,其中初始状态是两个罐子都是空的,目标是达到一个罐子装有“z”升水的状态。通过填充、倒空和在罐子之间倒水等各种操作,可以找到一系列有效的步骤来实现所需的水量测量。 使用状态空间搜索 解决水罐问题需要有系统性的方法。这就是状态空间搜索的概念发挥作用的地方。状态空间搜索是人工智能中的一个基本概念,涉及探索问题的可能状态以达到期望的目标状态。 每个状态代表罐子中水的特定配置。初始状态是两个罐子都是空的,目标状态是其中一个罐子装有“z”升水。搜索算法通过应用各种操作,如装满罐子、倒空罐子或者在罐子之间倒水,来探索不同的状态。 水罐问题的产生规则 在人工智能中,产生规则经常用于表示知识和做出决策。在水罐问题的情况下,产生规则定义了从一个状态过渡到另一个状态所能应用的操作集合。这些规则包括: 填充A罐:将A罐填满。 填充B罐:将B罐填满。 倒空A罐:倒空A罐。 倒空B罐:倒空B罐。 从A罐倒入B罐:除非A罐为空或B罐为满,否则将A罐中的水倒入B罐。 从B罐倒入A罐:直到B罐为空或A罐满为止,将B罐中的水倒入A罐。 使用这些产生规则,我们可以构建从初始状态到目标状态的解决路径。 解决水罐问题的算法 现在,我们将采用广度优先搜索(BFS)方法来解决问题: 从两个罐子都是空的初始状态开始。 创建一个队列,然后将初始状态添加到队列中。 当队列不为空时,选择以下操作: 弹出队列的前面状态。 应用所有可能的产生规则来生成新的状态。 检查是否有任何新状态与目标状态匹配。…

Leave a Comment

一项新的深度学习研究将抗疟药物确定为治疗骨质疏松症的可能方法

骨质疏松症是一种老年人长期以来面临的问题,其特点是骨量过度流失和骨折风险增加。在健康个体中,骨盖细胞和骨吸收细胞之间保持着微妙的平衡。但是,当这种平衡被打破,骨吸收细胞的“拆迁队”变得过活跃时,就会导致骨量流失,最终导致骨质疏松症。尽管目前的治疗主要专注于减缓骨吸收细胞的活动,但一群科学家一直在探索一种新的方法,以解决问题的根本原因。 传统上,骨质疏松症的治疗旨在抑制骨吸收细胞的活动。但是,人工智能领域的最新进展为一种新的策略铺平了道路。研究人员利用深度学习算法的威力,进入预测医学领域,发现了治疗骨质疏松症的潜在方法。特别是,他们将目光投向骨髓间质干细胞(BMMSCs),这些细胞是骨盖细胞的前体,即骨生成细胞。在骨质疏松症发作期间,这些多功能细胞经常走弯路,转变成产生脂肪的细胞。然而,研究人员旨在重编程这些细胞以对抗疾病的根源。 使用复杂的深度学习算法,研究团队全面分析了小鼠中不同表达的基因。他们的探索使他们发现二氢青蒿素(DHA),这是青蒿素的衍生物,青蒿素是治疗疟疾的关键成分。当DHA在经诱导产生骨质疏松症的小鼠身上连续六周给药时,结果惊人。它们的股骨骨量明显减少,骨结构几乎完全得到保护。团队进一步通过设计一个强大的递送系统来优化他们的方法,该系统涉及DHA载荷纳米颗粒,确保有效治疗。 为了评估他们新发现的解决方案的有效性,研究人员进行了细致的测试,重点关注DHA与BMMSCs的相互作用。结果是令人兴奋的:DHA不仅与这些细胞相互作用以保持其干细胞性,还促进了更多骨盖细胞的产生,从而解决了骨质疏松症的根本原因。 总之,该团队的开创性工作将DHA作为一种有希望的骨质疏松症治疗剂突显出来。通过使用深度学习算法识别这种潜在治疗方法,他们为从根本上对抗这种疾病开辟了新的途径,为那些受到骨质疏松症影响的人带来了希望。

Leave a Comment

“认识3D-GPT:一种利用大型语言模型(LLMs)进行指导驱动的三维建模的人工智能框架”

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/ezgif-4-077308ddbf.gif”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/ezgif-4-077308ddbf-150×150.gif”/><p>通过精心制作的详细模型,在元宇宙时代的3D内容制作中,重新定义了游戏、虚拟现实和电影行业的多媒体体验。然而,设计师们在繁琐的3D建模过程中经常需要帮助,从基本形状(如立方体、球体或圆柱体)开始,使用Blender等工具进行精确的轮廓、细节和纹理处理。渲染和后期处理结束这个劳动密集型的制作过程,并呈现出精致的最终模型。虽然可变参数和基于规则的系统使程序生成在自动化内容开发方面有效,但它需要对生成规则、算法框架和个体参数有全面的了解。 </p> <p>当这些流程与客户的创造愿望通过高效的沟通进行协调时,增加了复杂性的另一个因素。这强调了流程化传统3D建模方法以支持元宇宙时代的创作者的重要性。LLMs表现出了卓越的计划和工具使用技能以及语言理解能力。此外,LLMs在表征物体结构和纹理等物质特质方面显示出了出色的技能,这使它们能够从基本描述中改进细节。它们还善于理解复杂的代码功能和解析简短的文本材料,同时轻松促进有效的用户交互。它们探索了将这些卓越技能的新用途应用于程序化3D建模。 </p> <p>它们的主要目标是充分发挥LLMs的优势,根据客户需求对3D创意软件进行控制。为了实现这一目标,来自澳大利亚国立大学、牛津大学和北京人工智能学院的研究人员介绍了3D-GPT,这是一个旨在促进指令驱动的3D内容合成的框架。通过将3D建模过程分为更小、更易管理的片段,并决定何时、何地和如何完成每个片段,3D-GPT赋予LLMs行动解决问题的能力。概念化代理、3D建模代理和作业调度代理是组成3DGPT的三个主要代理人。通过调整3D生成函数,前两个代理人共同完成3D概念化和3D建模的职责。 </p> <p>第三个代理人通过接受第一个文本输入,管理后续命令,并促进第一二个代理人之间的高效沟通来控制系统。这样做有两个重要目标。首先,通过将其指向更深入和与上下文相关的形式,改善初始场景描述,然后根据进一步的指示修改文本输入。其次,它们使用程序生成,这是一种与3D软件交互的方法,不直接创建3D材料的每个组件,而是使用可变参数和基于规则的系统。他们的3D-GPT可以从增强文本中导出相关参数值,并理解过程生成例程。通过使用用户书面描述作为指南,3D-GPT提供准确和可定制的3D创作。 </p> <p>在复杂的场景中,手动指定程序化创建的每个可控参数会减少工作量。另外,3D-GPT提高了用户参与度,简化了创作过程,将用户放在首位。此外,3D-GPT与Blender无缝集成,使用户可以使用各种操作工具,包括网格编辑、物理运动模拟、对象动画、材质更改和基本元素添加等。他们声称LLMs可以根据他们的测试处理更复杂的视觉信息。 </p> <p>以下是他们的贡献总结: </p> <p>• 提出了3D-GPT,一个提供免费培训的3D场景创建框架。他们的方法利用LLMs内置的多模态推理能力来提高最终用户的程序化3D建模的生产力。 </p> <p>• 对文本到3D生成的另一种方法进行了探索,在这种方法中,他们的3D-GPT创建Python程序来操作3D软件,可能为实际应用提供了额外的灵活性。 </p> <p>• 实证研究表明,LLMs在创作3D材料时具有很大的潜力,他们具备思考、规划和使用工具的能力。 </p>

Leave a Comment

“见证GPT-4V-Act:一个将GPT-4V(视觉)和网络浏览器和谐结合的多模态人工智能助手”

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/ezgif-2-c195e4f047.gif”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/ezgif-2-c195e4f047-150×150.gif”/><p>一位机器学习研究人员最近在Reddit社区上分享了他们最新的项目GPT-4V-Act的发布。这个想法是受到了关于GPT-4V中的一种名为Mark集的视觉定位策略的最近讨论的启发。有趣的是,测试表明具有这种功能的GPT-4V可以分析用户界面截屏,并提供鼠标和键盘完成某个任务所需的准确像素坐标。</p><p>到目前为止,该代理已经显示出在Reddit上发布帖子、进行产品搜索以及启动结账过程方面的能力,尽管只经过了有限的测试。有趣的是,它还识别出了自动标注器在尝试玩游戏时的缺陷,并试图纠正这一行为。</p><p>利用GPT-4V(ision)和浏览器的完美协调,GPT-4V-Act是一个口才流畅的多模态人工智能助手。它以低级鼠标和键盘输入和输出的方式模拟人类控制。其目标是在人类和计算机之间提供流畅的工作流程,从而推动技术的发展,大大提高任何用户界面的可用性,促进工作流程的自动化,并使自动化用户界面测试成为可能。</p><p><strong>其功能</strong></p><p>通过将GPT-4V(ision)和Mark集提示与个体自动标注器结合起来,我们实现了GPT-4V-Act。此自动标注器为每个可以进行交互的用户界面元素分配了其数字ID。</p><p>GPT-4V-Act可以从任务和屏幕截图中推断完成任务所需的步骤。当使用鼠标或键盘输入时,这些数字标签可以用作指向精确像素坐标的指针。</p><p><strong>重要提示</strong></p><p>由于GPT-4V(ision)尚未向广大公众发布,因此在此项目上进行多模态提示需要当前的ChatGPT Plus订阅。值得注意的是,该项目使用的未经批准的GPT-4V API可能违反相应的ChatGPT服务条款。</p><p>包含函数调用等功能的语言模型(LMs)正在兴起。这些主要在API和文本表示的状态上运行。具有用户界面(UI)的代理在一般情况下可能更有用,因为这些情况下它们是不可行的。由于代理与计算机的交互类似于人类的交互,可以通过专家演示来进行训练,而不需要广泛的专业知识。</p>

Leave a Comment

认识Llemma:下一代超越当前标准的数学开放语言模型

训练在多样文本上的语言模型展现出了非凡的通用语言理解和生成能力,成为适用于广泛应用的基础模型。 在这项研究中,来自普林斯顿大学、EleutherAI、多伦多大学、矢量研究所、剑桥大学、卡内基梅隆大学和华盛顿大学的研究人员开发了一种针对数学的领域特定语言模型。他们明确了进行此项努力的几个动机。首先,解决数学问题需要具备识别大量专业先验知识内的模式的能力,这使得它成为领域适应性的理想背景。其次,数学推理本身代表了人工智能领域的一个核心任务,并且仍然是当代研究的一个话题。第三,具备强大数学推理能力的语言模型的发展对各个研究领域具有广泛的影响,包括奖励建模、理论推理的强化学习、算法推理等。 上述图片展示了在ProofPile-2上持续预训练后所得到的LLEMMA,一个带有改进数学推理能力的基础模型。作者们的贡献如下: 他们已经训练并提供了LLEMMA模型,包括7B和34B参数的专门针对数学任务的语言模型。这些LLEMMA模型代表了在数学基础模型公开发布领域的最新成果。 他们引入了AlgebraicStack数据集,包含11B个代码标记,与数学语境密切相关。 他们的研究展示了LLEMMA模型在使用Python解释器和形式化定理证明器等计算工具解决数学问题方面的熟练程度。 与之前的数学语言模型(如Minerva)相比,LLEMMA模型是开放可访问的,作者们还将训练数据和代码开源。这个决定促进了LLEMMA作为推动数学推理领域未来研究的平台的作用。 他们的工作扩展了Lewkowycz等人在Minerva中进行的研究,有几个显著的区别: (1)他们的模型LLEMMA在训练和评估过程中涵盖了更广泛的数据和任务。这包括包含代码数据(如AlgebraicStack)、利用各种工具以及参与形式化数学任务。 (2)作者们的方法仅依赖于公开可访问的工具和数据源。 (3)他们引入了与训练数据混合物成分、记忆模式和辅助监督微调等方面相关的新分析。 (4)重要的是,他们的工作相关资料全部向公众开放。 研究人员预计,LLEMMA和Proof-Pile-2将为未来的研究提供坚实的基础。这些资源有望支持语言模型泛化、数据集组成分析、领域特定语言模型的扩展、将语言模型用作数学工具以及增强语言模型的数学能力等领域的研究工作。

Leave a Comment

人工智能AI的非营利研究人员的进展列表’ (Rén gōng zhì néng AI de fēi yílì yánjiū rényuán de jìnzhǎn lièbiǎo)

去年底到目前为止,2023年对于AI人士来说是一个创造AI应用的好时机,这要归功于非营利性研究人员的一系列AI进展。以下是其中的一些: ALiBi ALiBi是一种有效解决文本外推问题的方法,当涉及到Transformers时,可以在推理时外推比其训练时更长的文本序列。ALiBi是一种简单易实现的方法,不影响运行时或需要额外参数,并允许通过改变现有Transformer代码的几行来实现外推。 基于RoPE的外推的扩展法则 这种方法是提升Transformer的外推能力的框架。研究人员发现,在预训练上下文长度中通过微调基于Rotary Position Embedding (RoPe)的LLM,可以获得更好的性能。 FlashAttention Transformers是处理文本信息的强大模型。然而,在处理大型文本序列时,它们需要大量的内存。FlashAttention是一种IO-aware算法,可以比现有基准线快速训练Transformers。 Branchformer Conformers(Transformers的一种变体)在语音处理方面非常有效。它们依次使用卷积和自注意力层,这使得其架构难以解释。Branchformer是一种灵活且可解释的编码器替代方案,具有并行分支以建模端到端语音处理任务中的依赖关系。 潜在扩散 虽然扩散模型在许多图像处理任务中实现了最先进的性能,但它们计算上非常昂贵,通常需要数百个GPU天。潜在扩散模型是扩散模型的一个变种,能够在需要更少资源的情况下,在各种基于图像的任务上实现高性能。 CLIP-Guidance CLIP-Guidance是一种新的文本到三维生成方法,不需要大规模标记数据集。它通过利用(或借助)预训练的视觉-语言模型,如CLIP,可以学习将文本描述与图像关联起来,研究人员使用它来从3D对象的文本描述生成图像。 GPT-NeoX GPT-NeoX是由200亿参数构成的自回归语言模型。它在各种基于知识和数学的任务上表现得相当好。它的模型权重已公开提供,以促进在各种领域的研究。 QLoRA QLoRA是一种高效减少内存使用的微调方法,它可以在单个48GB GPU上微调650亿参数的模型,并保持全16位精度的最佳任务性能。通过QLoRA微调,模型能够取得最先进的结果,超越之前的最佳模型,即使使用较小的模型架构。 RMKV Receptance Weighted Key…

Leave a Comment

通过人工智能,向AskEllyn Bridges支持乳腺癌患者弥合差距

在一个越来越依赖科技的世界中,医疗领域正见证着创新和同情心的前所未有的融合这就是AskEllyn,一款具有突破性的人工智能对话工具,专门为受乳腺癌影响的人士的多方面需求提供服务虽然存在许多技术解决方案,但AskEllyn通过不仅解决信息性问题,而且还关注病人的情感和心理需求,从而使自己得以与众不同

Leave a Comment

自动化、数字化转型、网络安全以及IT角色的未来上的Shyam Bhojwani

Shyam Bhojwani,Workato公司的业务技术与网络安全主管,在利用自动化与人工智能提升员工体验和网络安全运营方面起到了关键作用他拥有IT领域、解决方案设计、网络安全和内部人工智能与自动化方面的领导经验,负责推动公民开发者文化的发展,实现技术和非技术人员的互通……Shyam Bhojwani谈自动化、数字化转型、网络安全以及IT角色的未来 阅读更多 »

Leave a Comment

源智AI推出了Habitat 3.0、Habitat合成场景数据集和HomeRobot:社交具身AI代理开发的三项重要进展

Facebook AI Research (FAIR)致力于推动社交智能机器人领域的发展。主要目标是开发能够适应人类伙伴独特偏好的机器人,协助日常任务。工作涉及深入嵌入式系统,为下一代增强现实(AR)和虚拟现实(VR)体验奠定基础。目标是使机器人成为我们生活的重要组成部分,减轻例行琐事的负担,提高个人生活质量。FAIR的多面方法强调将人工智能(AI)、增强现实(AR)、虚拟现实(VR)和机器人技术融合,创造出科技无缝融合日常体验的未来,为我们提供前所未有的力量。 FAIR在训练和测试AI代理在物理环境中的可扩展性和安全挑战方面取得了三个重大进展: Habitat 3.0是一个高质量的机器人和虚拟形象模拟器,为家庭环境下的人机合作提供便利。 家庭情景综合数据集(HSSD-200)是由艺术家设计的3D数据集,用于培养导航代理时提供出色的泛化能力。 HomeRobot平台提供了一个价格实惠的家庭机器人助手,用于模拟和真实环境下的开放词汇任务,从而加速能够协助人类的AI代理的开发。 Habitat 3.0是一个旨在促进机器人研究的模拟器,使算法在虚拟环境中进行快速和安全的测试,然后再部署到实际机器人上。它允许人类和机器人在执行日常任务时进行合作,并包括逼真的人形化身,以便在类似家庭环境的多样设置中进行AI训练。Habitat 3.0提供了一系列基准任务,促进真实室内场景中协作的机器人-人类行为,如清洁和导航,从而引入了探索社交体验型AI的新途径。 HSSD-200是一个合成的3D场景数据集,为在模拟环境中训练机器人提供了更真实和紧凑的选择。它包括211个高质量的3D集,复制物理内部,包含来自466个语义类别的18,656个模型。尽管规模较小,但在HSSD-200场景上训练的ObjectGoal导航代理与以前更大数据集上介绍的代理具有可比性。在某些情况下,仅在122个HSSD-200场景上进行的训练就能超过以前数据集中的10,000个场景上训练的代理,显示出其在泛化至真实世界场景方面的效率。 在机器人研究领域,拥有共享平台至关重要。HomeRobot通过定义激励任务、提供多功能软件接口和促进社区参与来满足这种需求。开放词汇的移动操纵作为激励任务,挑战机器人在不同环境中操纵对象。HomeRobot库支持Hello Robot的Stretch和Boston Dynamics的Spot在模拟和真实环境中的导航和操作,从而促进实验的重复性。该平台强调可转移性、模块化和基准代理,其基准测试显示了在真实世界测试中的20%成功率。 体验型AI研究领域不断发展,以适应涉及人机交互的动态环境。Facebook AI发展社交智能机器人的愿景并不仅限于静态场景。相反,他们的重点是在动态环境中的协作、沟通和预测未来状态。为了实现这一目标,研究人员使用Habitat 3.0和HSSD-200作为在模拟中训练AI模型的工具。他们的目标是在将这些训练过的模型部署到物理世界中评估其真实世界性能和能力时,协助和适应人类偏好。

Leave a Comment

“遇见FreeU:一种新的人工智能技术,可以提升生成质量,无需额外训练或微调”

概率扩散模型是一种前沿的生成模型类别,在计算机视觉相关任务中成为研究领域的关键点。与其他类别的生成模型(如变分自动编码器、生成对抗网络和向量量化方法)不同,扩散模型引入了一种新的生成范式。这些模型利用固定的马尔可夫链映射潜在空间,实现了捕捉数据集内潜在结构复杂性的复杂映射。最近,它们令人印象深刻的生成能力,从高度细节的生成示例到多样性,推动了在图像合成、图像编辑、图像到图像的翻译和文本到视频生成等各种计算机视觉应用中的突破性进展。 扩散模型由两个主要组成部分组成:扩散过程和去噪过程。在扩散过程中,高斯噪声逐渐加入输入数据,逐渐将其转化为几乎纯高斯噪声。相反,去噪过程旨在使用一系列学习到的逆扩散操作,从噪声状态中恢复原始输入数据。通常,一个U-Net用于在每个去噪步骤中迭代预测噪声去除。现有的研究主要集中在使用预训练的扩散U-Net进行下游应用,对扩散U-Net的内部特性探索有限。 来自S实验室和南洋理工大学的一项联合研究离开了传统的扩散模型应用,研究了扩散U-Net在去噪过程中的有效性。为了对去噪过程有更深入的理解,研究人员引入了一个重点关注傅立叶域的新思路,观察扩散模型的生成过程——这是一个相对未被探索的研究领域。 上图显示了顶部行中的逐步去噪过程,展示了连续迭代中生成的图像。相反,下面的两行展示了对应每个步骤的逆傅里叶变换后的低频和高频空间域信息。这个图表展示了低频分量的逐渐调制,表明了一个抑制的变化速率,而高频分量在整个去噪过程中表现出更明显的动态。这些发现可以直观地解释:低频分量固有地代表了图像的全局结构和特征,包括全局布局和平滑的颜色。对这些分量的剧烈改变通常在去噪过程中是不合适的,因为它们可以从根本上改变图像的本质。另一方面,高频分量捕捉图像中的快速变化,如边缘和纹理,并且对噪声非常敏感。去噪过程必须去除噪声同时保留这些复杂的细节。 考虑到关于低频和高频分量在去噪过程中的观察,该研究扩展到确定扩散框架中U-Net架构的具体贡献。在U-Net解码器的每个阶段,通过跳跃连接和主干特征组合跳过特征。研究表明,U-Net的主干在去噪过程中起着重要作用,而跳跃连接在解码器模块中引入了高频特征,有助于恢复细粒度的语义信息。然而,这种高频特征的传播可能会在推断阶段无意中削弱主干的本质去噪能力,可能导致生成异常图像细节,如图1的第一行所示。 基于这一发现,研究人员提出了一种新的方法,称为 “FreeU”,可以在不需要额外的训练或微调的情况下提高生成样本的质量。下面是该框架的概述。 在推理阶段,引入了两个专门的调制因子来平衡来自主要主干和U-Net架构的跳跃连接的特征的贡献。第一个因子被称为“主干特征因子”,旨在放大主要主干的特征图,从而加强去噪过程。然而,观察到,包括主干特征缩放因子时,虽然在改善方面取得了显著的改进,但有时会导致不希望的纹理过度平滑化。为了解决这个问题,引入了第二个因子“跳跃特征缩放因子”,以减轻纹理过度平滑化问题。 FreeU框架在与现有的扩散模型集成时表现出无缝适应性,包括文本到图像生成和文本到视频生成等应用。使用基础模型,如稳定扩散、DreamBooth、ReVersion、ModelScope和Rerender进行了全面的实验评估,以进行基准比较。当在推理阶段应用FreeU时,这些模型在生成的输出质量上显示出显着的提高。下面的插图提供了FreeU在显著改进生成图像的复杂细节和整体视觉保真度方面的有效性的证据。 这是FreeU的概述,这是一种新颖的人工智能技术,可以在没有额外训练或微调的情况下提高生成模型的输出质量。如果您感兴趣并且想了解更多信息,请随时参考下面列出的链接。

Leave a Comment

使用亚马逊肯德拉智能地搜索Drupal内容

亚马逊肯德拉(Amazon Kendra)是由机器学习(ML)提供支持的智能搜索服务亚马逊肯德拉可以帮助您轻松地从各种内容库中聚合内容到一个集中的索引中,以便您快速搜索所有企业数据并找到最准确的答案Drupal是一种内容管理软件它被用来创建许多[…]

Leave a Comment

云端无限:本周在GeForce NOW上直播《城市:天际线II》

本周GFN星期四,云端为我们带来了一系列好礼,其中包括《城市:天际线II》的直播和新增支持的15款游戏。游戏的发行商Paradox Interactive,为那些第一时间购买游戏的玩家提供了一个月的GFN优先会员资格,因此一定要在它们消失之前抓紧时间领取。 在新增的GFN图书馆中,还增加了来自PC游戏通行证目录的更多游戏,包括《幽灵线:东京》、《末日之国》和《耻辱系列》。会员们还可以期待很快就会有《艾伦·韦克2》游戏开播。 云端之城 若你建造了它,他们自然会来。 本周会员们可以在《城市:天际线II》中实现他们梦想中的大都市,这是Paradox Interactive屡获殊荣的城市模拟游戏的续作。白手起家建设一个城市,并将其转变成一个繁荣的都市景观。在管理复杂模拟和活力经济的同时,发挥你的创造力,在前所未有的规模上建造。 游戏的人工智能和复杂经济意味着每个选择都会对玩家城市的结构产生影响,因此玩家们必须保持警惕,制定战略、解决问题并应对挑战。高耸入云,横斑地图,以前所未有的规模建造。新的动态地图特性会影响城市在日益严重的污染、变化的天气和季节性挑战中的扩张。 Paradox为前10万购买该游戏的玩家提供一个月的GeForce NOW优先会员资格,因此那些正在崭露头角的城市规划者可以在几乎任何设备上优化他们的游戏体验。访问城市:天际线II以获取更多信息。 云端的新崛起 为了一个充满恐怖的夜晚,云端新增了两款PC游戏通行证:《末日之国2》和《耻辱系列》。 “正确的选择是能让我们活下来的选择。” 在Undead Labs和Xbox Game Studios的《末日之国2:巨人版》中,你将进入一个末日世界,抵御僵尸的侵袭。与一小群幸存者团结在一起,重建这个动态的开放世界沙盒中的一角文明。加固家园基地,进行大胆的寻食和供应品抢劫,并拯救其他可能具有独特才能的幸存者。与朋友们一起在线玩,享受高达四人的在线合作模式,访问他们的社区,帮助保护他们并获得奖励。没有两个玩家的经历会完全相同。 对不起,对你不敬,谈不上对云端的《耻辱》。 与《耻辱》系列一起,进入一个设定在蒸汽朋克洛夫克拉夫世界的第一人称动作游戏。在《耻辱》中,跟随 Corvo Attano 的故事,他曾是一名护卫,但后来被陷害谋杀了Dunwall女皇,从而被推上复仇之路。选择潜行或暴力,体验《耻辱》拥有灵活战斗系统和Corvo的超自然能力。 《Definitive Edition》包含原版《耻辱》游戏和更新的图形,以及“Void Walker’s…

Leave a Comment