Press "Enter" to skip to content

Tag: Country

2023年的15个人工智能(AI)和机器学习相关的Subreddit社区

在快节奏的人工智能(AI)和机器学习领域,及时了解最新的趋势、突破和讨论至关重要。作为互联网的首页,Reddit成为专家和爱好者的中心。这是我们精心挑选的2023年关注的顶级AI和机器学习相关subreddit列表,让您始终保持关注。 r/MachineLearning 这个subreddit专注于机器学习,定期发布技术和引人入胜的帖子和讨论。对于这个拥有超过250万成员的群体来说,有几个基本的行为规则。这是机器学习爱好者必加的群组。 r/artificial r/artificial是最大的专门讨论人工智能或AI相关问题的subreddit。拥有超过16.7万成员,人们可以在这里找到最新的新闻,实际应用中的AI示例,以及那些从事AI工作或研究的人们的讨论和问题。AI是一个广阔的领域,涉及许多学科和子领域。许多这些子领域也有专门的subreddit。r/artificial涵盖了所有这些内容。它是一个平台,供任何对AI以任何形式进行智能和尊重的讨论感兴趣的人。 r/ArtificialInteligence r/ArtificialInteligence是最流行的AI subreddit之一,您不需要选择内容标签。这个subreddit拥有超过8.8万成员。您可以加入这个subreddit,了解最新的AI动态。 r/Machinelearningnews r/machinelearningnews是一个机器学习爱好者/研究者/记者/作者的社区,他们分享有关AI应用的有趣新闻和文章。因为这些内容每天都会发布,并且经过高度审核以避免任何垃圾信息,所以您不会错过任何关于ML/AI/CV/NLP领域的更新。 r/Automate 这个subreddit有超过7.5万成员参与讨论和帖子,专注于自动化。在r/Automate subreddit上可以找到关于自动化、增材制造、机器人、AI以及其他我们开发的技术的讨论。 r/singularity 这个subreddit致力于对一个假设时期的深思研究,即人工智能发展到超越人类的卓越智能程度,从而从根本上改变文明。拥有超过16.1万成员,这个subreddit上的帖子质量和相关性都很高。它涵盖了技术奇点和相关主题的所有方面,比如人工智能(AI)、人类增强等。 r/agi 这个subreddit拥有约1.25万成员,专注于人工通用智能。人工通用智能(AGI)是指能够完成任何人类可以完成的智力工作的机器。这里的帖子定期发布,内容丰富,讨论富有创意。 r/compsci 任何对计算机科学家们发现的信息感到着迷并愿意分享和讨论的人都应该访问r/compsci subreddit。其中包含了许多关于人工智能的帖子。作为成员,有几个简单的规则需要遵守。这个subreddit拥有超过210万成员。 r/AIethics 伦理在AI中是基础。r/AIethics上有关于如何使用和创造各种AI工具的最新内容。规则很简单。它拥有超过3.2k成员。这个subreddit讨论了人工智能代理应该如何行为以及我们应该如何对待它们。 r/cogsci 尽管认知科学是一个庞大的领域,但这个subreddit的帖子在某种程度上与从科学角度研究心智有关,同时也涉及最新的人工智能。它涵盖了跨学科研究心智和智能的领域,包括哲学、心理学、人工智能、神经科学、语言学和人类学。作为用户,有几个广泛的行为准则需要遵守,它拥有超过10.7万成员。 r/computervision…

Leave a Comment

这篇来自韩国的人工智能(AI)论文提出了FFNeRV:一种使用帧间流图和多分辨率时间网格的新型逐帧视频表示方法

最近,对于通过神经网络将坐标映射到其数量(如标量或向量)来表示信号的神经场的研究已经迅速增长。这引发了对利用这项技术处理各种信号(包括音频、图像、3D形状和视频)的兴趣增加。通用逼近定理和坐标编码技术为大脑场的准确信号表示提供了理论基础。最近的研究表明,它在数据压缩、生成模型、信号操作和基本信号表示方面具有适应性。 图1显示了(a)所提出的流引导的逐帧表示的一般结构,(b)逐帧视频表示,(c)像素级视频表示(FFNeRV) 最近,对于通过神经网络将坐标映射到其数量(如标量或向量)来表示信号的神经场的研究已经迅速增长。这引发了对利用这项技术处理各种信号(包括音频、图像、3D形状和视频)的兴趣增加。通用逼近定理和坐标编码技术为大脑场的准确信号表示提供了理论基础。最近的研究表明,它在数据压缩、生成模型、信号操作和基本信号表示方面具有适应性。 每个时间坐标由由多层感知机(MLP)和卷积层堆叠创建的视频帧来表示。与基本神经场设计相比,我们的方法大大减少了编码时间,并且在视频压缩技术方面表现出色。这种范式遵循了最近提出的E-NeRV,同时也提升了视频质量。如图1所示,它们提供了用于电影的流引导的逐帧神经表示(FFNeRV)。它们将光流嵌入到逐帧表示中,利用时间冗余,借鉴了常见的视频编解码器。通过组合由光流引导的附近帧,FFNeRV创建了一个视频帧,强制重用先前帧的像素。鼓励网络避免在帧之间再次记住相同的像素值,极大地提高了参数效率。 根据对UVG数据集的实验结果,FFNeRV在视频压缩和帧插值方面击败了其他逐帧算法。他们建议使用多分辨率时间网格,以固定空间分辨率代替MLP,将连续的时间坐标映射到相应的潜在特征,以进一步提高压缩性能。这受到基于网格的神经表示的启发。此外,他们建议使用更简洁的卷积结构。他们在推荐的逐帧流表示中使用群组和逐点卷积,由生成模型驱动,生成高质量的图片和轻量级神经网络。通过量化感知训练和熵编码,FFNeRV击败了流行的视频编解码器(H.264和HEVC),并与最先进的视频压缩算法表现相当。代码实现基于NeRV,可在GitHub上获得。

Leave a Comment

“认识罗丹:一种新颖的人工智能(AI)框架,可以从各种输入源生成3D数字化身”

生成模型正在成为计算机科学中许多具有挑战性任务的事实解决方案。它们代表了分析和合成视觉数据最有前景的方法之一。稳定扩散是目前最知名的生成模型,可以从复杂的输入提示生成美丽而逼真的图像。该架构基于扩散模型(DMs),已经展现出图像和视频的惊人生成能力。扩散和生成模型的快速发展正在推动二维内容创作的革命。这个口号非常简单:“如果你能描述它,你就能可视化它。”或者更好的说,“如果你能描述它,模型就能为你绘制出来。”确实令人难以置信,生成模型的能力。 虽然二维内容已被证明是对DMs的一种压力测试,但三维内容由于包括但不限于额外的维度而带来了几个挑战。生成与2D内容相同质量的三维内容,例如头像,是一项艰巨的任务,由于内存和处理成本可能会限制为高质量头像生成所需的丰富细节。 随着技术推动数字头像在电影、游戏、元宇宙和3D行业中的使用,允许任何人创建数字头像可能是有益的。这是推动该工作开发的动力。 作者提出了Roll-out扩散网络(Rodin)来解决创建数字头像的问题。下图给出了该模型的概述。 模型的输入可以是图像、随机噪声或所需头像的文本描述。然后从给定的输入中派生潜在向量z,并在扩散过程中使用它。扩散过程包括多个噪声去噪步骤。首先,随机噪声被添加到起始状态或图像中,并进行去噪以获得更清晰的图像。 这里的不同之处在于所需内容的三维性质。扩散过程与通常运行一样,但扩散模型生成头像的粗略几何形状,随后使用扩散上采样器进行细节合成。 计算和内存效率是该工作的目标之一。为了实现这一目标,作者利用了神经辐射场的三平面(三个轴)表示,与体素网格相比,它具有更小的内存占用,而不会损失表达能力。 然后,训练另一个扩散模型,将产生的三平面表示上采样以匹配所需分辨率。最后,利用由4个全连接层组成的轻量级MLP解码器生成RGB体积图像。 下面报告了一些结果。 与提到的最先进方法相比,Rodin提供了最清晰的数字头像。对于该模型,在共享样本中没有可见的伪影,与其他技术相反。 这是Rodin的摘要,一个能够轻松从各种输入源生成3D数字化身的新颖框架。如果您有兴趣,可以在下面的链接中找到更多信息。

Leave a Comment

法国国家科学研究中心(CNRS)的人工智能研究提出了一种噪声自适应智能可编程元成像器:一种及时应对特定任务、噪声自适应感知的方法

法国国家科学研究中心的研究人员提出了一种噪声自适应智能可编程元成像器。感知系统在我们生活的许多方面中越来越广泛地使用,包括非接触式人机界面、无人驾驶车辆和环境支持的医疗保健。然而,这些系统通常缺乏智能,因为它们有收集所有信息的倾向,而不管其是否相关。这可能导致隐私侵犯,同时在处理数据时也会浪费时间、精力和计算资源。 然而,在实际应用中,测量过程总是受到不同类型的噪声的影响。每个测量都伴随着噪声。特别是在室内环境中,传输的电磁信号必须保持适度,信噪比可能较低。为了推进先前的研究,法国国家科学研究中心的研究人员现已开发了一种智能可编程计算元成像器,不仅可以根据特定的信息提取任务(如物体识别)调整其照明模式,还可以适应各种类型和水平的噪声。 某种类型和强度的噪声不可避免地影响测量过程。我们假设噪声的类型和数量将影响智能可编程元成像器应该使用的最佳相干照明模式,以有效地从图像中提取特定任务的信息。该系统被认为是一种单发射器、单探测器多次拍摄的可编程计算成像系统。这些系统在微波领域尤为重要,因为昂贵的收发器可以被可编程的元表面孔径所取代,后者可以从单个射频链合成相干波前。 研究人员根据研究仔细探讨了延迟限制和噪声对智能多次拍摄可编程元成像器的影响。研究人员研究了一个常见的物体识别问题,并提出了一个微波计算可编程元成像器系统来测试他们的理论。这些系统可以用于地球观测、室内监控等领域。 在他们的模型中,一个微波动态元表面天线(DMA)使用单个发射器向场景发送一系列相干波前,而第二个DMA使用单个探测器相干地收集反射波。他们开发了一个可微分的端到端信息流管道,包括未来的数字处理阶段以及带有噪声的可编程物理测量过程。 这种联合优化,涉及对可训练的物理参数和可训练的数字参数进行任务特定的端到端联合优化,使测量过程具有任务意识,使其能够区分与手头任务相关的模拟域信息和与任务无关的信息。 科学家发现,在信息受到延迟约束和/或噪声约束的情况下,这种可编程元成像器生成一系列与任务和噪声相关的场景照明,比传统的具有随机配置的压缩感知方法表现更好。 这种方法虽然具有“黑盒”特性,但研究人员发现,学习到的光照模式的“宏观”方面,尤其是它们的互相重叠和强度,是直观可理解的。 根据研究人员的说法,向一个能够自动识别噪声类型和数量并相应地修改其DMA设置的系统过渡是简单的,而无需额外的人类输入。

Leave a Comment

马里兰大学的新人工智能研究探讨了在一天内使用单个GPU训练语言模型的压缩挑战

在自然语言处理的许多领域中,包括语言解释和自然语言合成,利用变压器拓扑的大规模机器学习模型的训练取得了突破性的进展。这些系统的广泛认可行为是它们在模型参数数量和数据量增加时能够稳定扩展或继续表现更好的能力。 虽然大多数研究都集中在寻找推动极端计算边界的新方法上,但马里兰大学的研究人员正在研究最佳的语言模型训练规模缩减方式和可能出现的权衡。 研究人员认为,由于规模效应带来的竞争,他们可以训练一个语言模型。最初的BERT模型在自然语言处理的许多实际应用中得到了使用。然而,这个模型已经需要大量计算才能训练。 在资源相对有限的情况下,有可能训练一个接近BERT性能水平的语言模型,这带来了许多有趣的后果。一个原因是,如果缩减模型的预训练是大规模计算预训练的有效替代品,那么它将开辟一系列目前难以实现的额外学术研究。研究人员表示,可能会出现一些场景,从业者有兴趣利用专门的或可靠的数据源重新训练他们的语言模型,但法律因素使得不确定是否可以接受在具有可疑来源的公共数据上训练的模型。 马里兰大学的研究人员进行了一项新研究,探索了“挤压”挑战——在考试前一天学习整个语言模型。他们的研究证明,在这种受限情况下,性能与大规模计算环境中发现的缩放规律密切相符。为了确定对训练流程的更改是否会导致缩小的情况下性能的提高,该研究首先研究了各种训练流程方面。 缩小规模是具有挑战性的。虽然较小的模型设计可以实现更快的梯度计算,但随时间的推移,模型改进的整体速率几乎保持不变。然而,利用缩放定律的训练配方修改可以通过增加梯度计算的有效速率而获得收益,而不需要减小模型的大小。最终,团队能够在有限的预算下训练模型并提供可观的性能,在GLUE任务中经常接近甚至超过BERT。 团队评估了将基于变压器的语言模型放入计算资源非常有限的情况下的性能。他们发现,多个变化方面导致在GLUE上可观的下游性能。团队希望这项工作可以作为对挤压问题进行调查的起点,并对多种改进和策略提供额外的见解。

Leave a Comment

认识Powderworld:一个轻量级的模拟环境,用于理解人工智能的泛化

尽管强化学习(RL)和决策过程中取得了最近的进展,但对新任务的概括能力仍然是最主要的问题之一。 RL代理在单任务设置下表现出色,但在面对意外障碍时经常犯错误。此外,单任务RL代理可以在训练时过度拟合任务,使其不适用于实际应用。这就是通用代理的用处所在,它可以成功处理各种前所未有的任务和意外困难。 大多数通用代理都是通过多样化的任务进行训练的。最近的深度学习研究表明,模型的概括能力与使用的训练数据量密切相关。然而,主要问题在于开发训练任务是昂贵且困难的。因此,大多数典型设置在本质上过于具体和狭窄,只关注单一任务类型。这个领域的大部分先前研究都集中在多任务训练的专门任务分布上,特别关注特定的决策问题。强化学习社区将从“基础环境”中获得巨大的好处,该环境允许各种任务源自相同的核心规则,因为越来越需要研究训练任务和概括之间的联系。此外,一个简单比较不同训练任务变化的设置也将是有利的。 为了支持代理学习和多任务概括,麻省理工学院计算机科学与人工智能实验室(CSAIL)的两位研究人员设计了Powderworld,一个仿真环境。这个简单的仿真环境直接在GPU上运行,有效地提供环境动力学。在目前的Powderworld中,还包括两个用于指定世界建模和强化学习任务的框架。虽然在强化学习实例中发现,任务复杂性的增加促进了概括,直到达到特定的拐点后表现下降,但在越来越复杂的环境中训练的世界模型展示了改进的传递性能。团队认为这些结果可以作为进一步社区研究的绝佳跳板,利用Powderworld作为调查概括的初始模型。 Powderworld的开发旨在具有模块化和支持新兴交互的能力,同时又不损失其表达设计的能力。规定附近两个元素应该如何相互作用的基本原则构成了Powderworld的核心。这些规范的一致性为代理的概括能力提供了基础。此外,这些局部互动可以扩展为产生新兴的大规模现象。因此,代理可以通过使用这些基本的Powderworld先验知识进行概括。 RL概括的另一个重要障碍是任务经常是不可调整的。理想的环境应该提供一个空间,可以探索并代表有趣的目标和挑战的任务。每个任务都由Powderworld表示为一个二维元素数组,允许使用各种程序化创建技术。代理更有可能面对这些障碍,因为评估特定代理能力的方式有很多种。由于Powderworld是在GPU上运行的,它可以并行执行大规模的仿真批处理,从而实现高效的运行时。这个优势变得至关重要,因为多任务学习可能非常计算密集。此外,Powderworld使用与神经网络兼容的矩阵形式进行任务设计和代理观察。 在最新版本中,团队为在Powderworld内训练世界模型提供了初步的基础。世界模型的目标是预测在一定数量的仿真时间步骤之后的状态。由于Powderworld实验应该关注概括,所以世界模型的性能是在一组保留的测试状态上报告的。基于多个研究,团队还发现,使用更复杂的训练数据的模型在概括方面表现更好。在训练过程中暴露给模型的元素越多,性能越好,这表明Powderworld的逼真仿真足够丰富,可以改变世界模型的表示。 团队专注于探索用于强化学习的随机多样性任务,其中代理在测试中必须克服未知的障碍。实验评估显示,增加训练任务的复杂性有助于概括,直到任务特定的拐点后,过于复杂的训练任务会在强化学习过程中导致不稳定性。这种复杂性对Powderworld世界建模和强化学习任务中训练的影响的区别引起了有趣的研究问题,这是未来的研究重点。 强化学习的一个主要问题是对新的未经测试的任务进行概括。为了解决这个问题,麻省理工学院的研究人员开发了Powderworld,一个可以为监督学习和强化学习产生任务分布的仿真环境。Powderworld的创建者期望他们的轻量级仿真环境能够促进进一步的研究,以开发一个既强大又计算有效的任务复杂性和代理概括的框架。他们预计未来的研究将利用Powderworld来研究无监督环境设计策略和开放式代理学习以及其他各种主题。

Leave a Comment

介绍DiffusionDet:一种利用扩散进行目标检测的人工智能(AI)模型

目标检测是一种强大的技术,用于识别图像和视频中的物体。借助深度学习和计算机视觉的进展,它近年来取得了长足的发展。它有潜力在从交通和安全到医疗和零售的各个行业中引发革命。随着技术的不断改进,我们可以期待在目标检测领域看到更多令人兴奋的发展。 目标检测中的一个关键挑战是准确地定位图像中的物体。这涉及到确定物体是否存在以及确定其精确的位置和大小。 大多数目标检测器使用回归和分类技术的组合来识别图像中的物体。通常通过查看图像的特定区域,如滑动窗口或区域建议,并使用这些作为“引导”来帮助识别物体。其他方法,如锚框或参考点,也可以帮助目标检测。 尽管这些目标检测技术相对简单且有效,但它们依赖于一组固定的预定搜索条件。大多数情况下需要定义一组候选物体。然而,定义所有这些预定条件可能很繁琐。是否有一种更简化这个过程而无需这些预定搜索准则的方法? 腾讯的研究人员提出了DiffusionDet,这是一种在目标检测中使用的扩散模型。 在过去几个月中,扩散模型一直是人工智能界的关注中心,主要得益于稳定扩散模型的公开发布。简单来说,扩散模型将输入作为噪声,并逐渐去噪,遵循一定的规则,直到得到期望的输出。在稳定扩散的背景下,输入是通过文本提示获得的噪声图像,并且在逐渐去噪,直到获得与给定文本提示类似的图像。 那么,扩散方法如何用于目标检测?我们不是在生成新的东西,而是想知道给定图像中的物体。他们是如何做到的? DiffusionDet的概览。来源:https://arxiv.org/pdf/2211.09788.pdf 在DiffusionDet中,设计了一种新颖的框架,用于直接从一组随机框中检测物体。这些框在训练期间不包含需要优化的可学习参数,预期通过噪声到框的方法逐渐精确地覆盖目标物体。 将这些框想象成输入噪声,这里的约束是它们应该包含一个物体。因此,最终我们希望得到一组包含不同物体的框。去噪步骤是逐渐改变框的大小和位置。这种方法不需要启发式的对象先验和可学习的查询,简化了物体候选的识别,并推动了检测流水线的发展。 DiffusionDet的框架。来源:https://arxiv.org/pdf/2211.09788.pdf DiffusionDet将目标检测视为涉及图像中边界框位置和大小的生成任务。在训练过程中,通过方差调度控制的噪声被添加到地面实况框中,创建了带有噪声的框,然后使用这些框从骨干编码器的输出特征图中裁剪特征。然后,将这些特征发送到检测解码器,该解码器被训练以无噪声地预测地面实况框。这使得DiffusionDet能够从随机框中预测地面实况框。在推理时,DiffusionDet通过反向学习扩散过程并调整噪声先验分布到学习到的边界框分布来生成边界框。

Leave a Comment

部署机器学习模型意味着什么?

数据科学是一个有前景的领域,吸引着越来越多的公司,但它在工业化过程中的整合仍然面临困难。在大多数情况下,机器学习(ML)模型在科学研究环境中离线实现。创建的模型中有近90%从未在生产条件下部署。部署可以定义为将ML模型集成到现有生产环境中以实现有效的数据驱动业务决策的过程。这是机器学习生命周期的最后阶段之一。然而,近年来,ML已经从纯粹的学术研究领域发展为可以解决实际业务问题的领域。然而,在操作系统中使用机器学习模型可能会面临各种问题和担忧。 在生产环境中定义ML模型有几种方法,具体取决于范围的不同优势。大多数数据科学家认为,部署模型是软件工程任务,应由软件工程师处理,因为所需的所有技能更与他们的日常工作密切相关。 像Kubeflow和TFX这样的工具可以解释整个模型部署过程,数据科学家应该使用它们。使用Dataflow等工具可以与工程团队密切合作。它可以设置临时环境,在部署之前可以测试数据管道的部分。 部署过程可以分为四个主要步骤: 1)准备和配置数据管道 第一项任务是确保数据管道结构高效,并能提供相关且高质量的数据。确定如何在部署后扩展数据管道和模型非常重要。 2)访问相关的外部数据 在部署生产预测模型时,必须注意使用最佳的数据,从合适的来源从概念到发布。即使仔细设计,一个破损的模型也是无用的。此外,此挑战的另一个要素是捕获足够的历史数据以获得稳健且具有普适性的模型。一些公司会内部收集所需的所有数据。为了全面了解和洞察,考虑包括外部数据源。 3)构建强大的测试和训练自动化工具 在进入预测模型部署阶段之前,严密且无妥协的测试和训练是必不可少的,但可能需要时间。因此,为了避免减慢速度,尽可能自动化。除了研究一些节省时间的技巧或工具,还需要生成可以无需工程师任何努力或操作就能工作的模型。 4)规划和设计强大的监控、审计和回收协议 在部署和运行ML模型之前,必须检查它是否实际产生了预期类型的结果。必须验证这些结果是否准确,并且提供给模型的数据能够保持这些模型的一致性和相关性。此外,弱旧数据可能导致不准确的结果。 如果我们更详细地观察机器学习实验,我们会意识到这些实验是在时间上冻结的数据上进行的,也就是说,用于训练模型的数据通常是固定的。换句话说,这些数据不会改变或在实验期间变化很小。在这种情况下,我们称之为封闭模型。在真实世界条件下,模型不断遇到与创建模型时使用的数据相当不同的新数据。因此,模型继续学习并更新其参数非常重要。迅速而轻松地使用新数据重新训练模型非常有趣。模型重新训练是指开发具有与原始模型不同属性的新模型。重要的是能够重新部署此模型以获得其新功能的好处。 总之,部署ML模型是一个具有挑战性的过程,要成功完成,需要对ML模型的使用和利用周围的所有关注点有全面的理解。一个人很少具备完成所有这些过程所需的必要才能: 了解公司的需求 创建ML模型。 使模型工业化 批量或实时收集数据 在数据上使用部署的模型 因此,数据科学家很难独自完成所有这些过程。 数据工程师、软件工程师和数据科学家之间的合作至关重要。 总之,数据科学项目的成功受到所需才能的多样性和每个团队对问题的全面理解的影响。

Leave a Comment

遇见FathomNet:一个使用人工智能和机器学习算法的开源图像数据库,以帮助处理视觉数据积压,以理解我们的海洋及其居民

海洋正在以前所未有的速度发生变化,使得在视觉监测大量海洋数据的同时保持负责任的管理变得具有挑战性。由于研究界正在寻求基线,所需数据的数量和速度正在超过我们快速处理和分析它们的能力。数据一致性的缺乏、不充分的格式以及对重要标记数据集的需求,这些都导致了最近机器学习的进展在快速和更复杂的视觉数据分析方面取得的有限成功。 为了满足这一需求,几个研究机构与MBARI合作,利用人工智能和机器学习的能力加速海洋研究。这种合作的一个结果是FathomNet,这是一个开源的图像数据库,利用先进的数据处理算法来标准化和聚合精心策划的标记数据。团队认为,使用人工智能和机器学习将是加速海洋健康关键研究并消除处理水下图像的瓶颈的唯一途径。关于这个新图像数据库背后的开发过程的详细信息可以在《Scientific Reports》杂志的最近一篇研究论文中找到。 机器学习在历史上在自动化视觉分析领域产生了转变,部分原因在于大量的注释数据。对于陆地应用来说,机器学习和计算机视觉研究人员争相使用的基准数据集是ImageNet和Microsoft COCO。为了给研究人员提供一个丰富、引人入胜的水下视觉分析标准,团队创建了FathomNet。为了建立一个自由可访问、高度维护的水下图像训练资源,FathomNet结合了来自许多不同来源的图像和记录。 MBARI的视频实验室的研究人员精心注释了近28,000小时的深海视频和超过1百万张MBARI在35年间收集到的深海照片。MBARI的视频库中有约820万个关于动物、生态系统和物体观察的注释。探险技术实验室从各种海洋栖息地和所有海洋盆地的各个地方收集了超过1,000小时的视频数据。这些录像还被CVision AI开发的基于云的协作分析平台使用,并由夏威夷大学和OceansTurn的专家进行了注释。 此外,2010年,美国国家海洋和大气管理局(NOAA)海洋探索团队在NOAA Okeanos Explorer船上使用双重远程操作车系统收集了视频数据。为了更广泛地注释收集到的视频,他们从2015年开始资助专业分类学家。最初,他们通过志愿参与的科学家众包注释。MBARI的一部分数据集,以及国家地理和NOAA的材料都包含在FathomNet中。 由于FathomNet是开源的,其他机构可以随时为其做出贡献,并将其用作处理和分析视觉数据的更耗时和资源消耗大的传统方法的替代品。此外,MBARI启动了一个试点计划,使用从FathomNet训练的机器学习模型分析由远程控制水下车辆(ROVs)拍摄的视频。使用AI算法使标记速度提高了十倍,同时减少了人力成本81%。基于FathomNet数据的机器学习算法可能会改变海洋探索和监测领域。其中一个例子包括使用配备摄像头和增强的机器学习算法的机器人车辆自动搜索和监测海洋生物和其他水下物体。 通过不断的贡献,FathomNet目前拥有84,454张图像,反映了来自81个不同收藏的175,875个定位,涉及2,243个概念。在各种位置和成像设置中,该数据集将很快获得超过2亿次观察,为超过20万种动物物种获得1,000次独立观察。四年前,由于缺乏注释照片,机器学习无法检查数千小时的海洋电影。通过解锁发现和提供工具,探险家、科学家和普通公众可以利用这些工具加快海洋研究的步伐,FathomNet将这一愿景变为现实。 FathomNet是协作和社区科学如何促进我们对海洋的认识的巨大例证。团队认为,该数据集可以在理解海洋变得比以往任何时候都更重要的情况下加速海洋研究,以MBARI和其他合作伙伴的数据为基础。研究人员还强调他们希望FathomNet成为一个社区,在这个社区中,来自各个领域的海洋爱好者和探险家可以分享他们的知识和技能。这将成为解决海洋视觉数据问题的跳板,否则这是不可能没有广泛参与的。为了加快视觉数据的处理并创建一个可持续和健康的海洋,FathomNet不断改进,包括来自社区的更多标记数据。 这篇文章是由Marktechpost工作人员撰写的研究摘要,基于研究论文《FathomNet:一个用于在海洋中实现人工智能的全球图像数据库》。这项研究的所有功劳归功于该项目的研究人员。请查看论文、工具和参考文章。此外,别忘了加入我们的26k+ ML SubReddit、Discord频道和电子邮件通讯,我们会分享最新的人工智能研究新闻、酷炫的人工智能项目等等。 这篇文章介绍了FathomNet:一个开源的图像数据库,利用人工智能和机器学习算法来帮助处理我们的海洋和其生物居民的视觉数据积压问题。 本文首发于MarkTechPost。

Leave a Comment

密歇根州立大学的研究人员开发了名为“DANCE”的Python库,用于支持大规模分析单细胞基因表达的深度学习模型

从单模态分析(RNA、蛋白质和开放染色质)到多模态分析和空间转录组学,近年来,分析单个细胞的技术发展迅速。机器学习为基础的大量计算方法应运而生,这是由于该领域的迅速扩展所推动的。 研究人员指出,由于当前方法的多样性和复杂性,很难复制原始文章中显示的结果。超参数调整、编程语言之间的不兼容以及缺乏公开可用的代码库都提供了重大障碍。由于大多数现有作品仅在有限的数据集上报告了其性能,并与不足的方法进行了比较,因此需要进行系统的基准测试程序来全面评估方法。 作为最近一项研究的一部分,来自密歇根州立大学、华盛顿大学、浙江工业大学、斯坦福大学和强生公司的研究人员介绍了DANCE,这是一个用于加速单个细胞分析进展的深度学习库和基准。 DANCE提供了一套全面的工具,用于大规模分析单个细胞的数据,使开发者能够更轻松高效地创建他们的深度学习模型。此外,它还可以用作比较各种计算模型在单个细胞分析中性能的基准。DANCE目前包括对3个模块、8个任务、32个模型和21个数据集的支持。 目前,DANCE提供以下功能: 单模态分析。 多模态分析。 空间转录组学分析。 自动编码器和GNN是广泛使用的深度学习框架,适用于各个领域。根据他们的论文,DANCE是第一个全面的单细胞分析基准平台。 在这项工作中,研究人员使用了创新的组件。他们通过编制任务特定的标准基准数据集并通过单个参数调整使其可立即使用来开始工作。为每个任务实现了基线的经典和深度学习算法。所有收集到的基准数据集都被用于微调基线,直到它们达到与原始研究相同或更好的结果。最终用户只需运行一条命令行,其中预先包装了所有超参数,就可以获得微调模型的性能。 团队使用PyTorch Geometric (PSG)框架作为基础。此外,他们通过将其转化为适应-预测-评分的框架,使其基线标准化。对于每个任务,通过网格搜索在所有收集到的标准基准上对所有实现的算法进行微调,以获得最佳模型。相关的超参数存储在单个命令行中,以便用户能够重现实验结果。 团队认为他们的工作使整个单细胞社区受益于DANCE平台。最终用户不需要花费太多时间和精力来实现和微调模型。相反,为了复制他们的结果,他们只需要运行一条命令行。此外,研究人员还为基于深度学习的模型的快速训练提供了图形处理单元(GPU)的支持。 目前,DANCE缺乏用于预处理和图形创建的统一工具集。团队计划在未来进行改进。他们还表示,DANCE将作为一项SaaS服务提供,这样用户就不必完全依赖自己设备的处理能力和存储容量。 本文是MarkTechPost员工根据研究论文“DANCE:用于单细胞分析的深度学习库和基准”的研究摘要文章编写的。所有关于这项研究的荣誉归功于这个项目的研究人员。查看论文、代码和工具。 请别忘记加入我们的机器学习Subreddit 这篇文章最初发表于MarkTechPost网站,标题为《密歇根州立大学的研究人员开发了一种名为“DANCE”的Python库,支持单细胞基因表达大规模分析的深度学习模型》。

Leave a Comment

字节跳动人工智能研究提出了一种新颖的自监督学习框架,用于创建具有连续和离散参数混合的高质量风格化3D头像

数字世界的一个关键入口,更普遍地存在于社交、购物、游戏和其他活动中,是一个外观吸引人且有动画效果的3D头像。一个合适的头像应该吸引人,并且可以根据用户的外貌进行定制。许多著名的头像系统,如Zepeto1和ReadyPlayer2,采用卡通和风格化的外观,因为它们有趣且用户友好。然而,手动选择和修改头像通常需要从许多图形元素中进行繁琐的修改,这对于初学者用户来说既耗时又具有挑战性。在这项研究中,他们研究了从正面拍摄的一张自拍照片自动生成风格化3D头像的自动化方法。 具体而言,给定一张自拍照片,他们的算法预测一个头像向量作为图形引擎生成3D头像并从预定义的3D资源中渲染头像图像的完整配置。头像向量包含特定于预定义资源的参数,可以是连续的(例如头部长度)或离散的(例如发型类型)。一种简单的解决方案是标注一组自拍照片,并训练一个模型通过监督学习来预测头像向量。然而,需要大规模的标注来处理大量的资源(通常是数百个)。建议使用自监督方法训练一个可微分的模拟器,通过不同的识别和语义分割损失来复制图形引擎的渲染,从而自动地将生成的头像图片与自拍照片进行匹配,从而减少标注成本。 更准确地说,给定一张自拍照片,他们的系统将预测一个头像向量作为图形引擎生成3D头像并从指定的3D资源中渲染头像图像的完整设置。构成头像向量的特征是特定于预设资源的,可以是连续的(如头部长度)或离散的(如发型类型)。一种简单的方法是标注一系列自拍照片,并使用监督学习构建模型来预测头像向量。然而,需要大规模的标注来处理各种各样的资源(通常是数百个)。 头像向量转换、自监督头像参数化和肖像风格化是他们创新架构的三个步骤。根据图1所示,在整个流程中,识别信息(发型、肤色、眼镜等)在三个阶段逐渐关闭域差距的同时保留。肖像风格化阶段首先关注2D真实到风格化视觉外观的域交叉。这一步保持了图像空间,同时将输入的自拍照片转换为风格化头像。对于翻译的当前风格化技术的粗略使用将保留诸如表情之类的元素,这将在流水线的后续阶段中引起明显的复杂性。 图1 因此,他们开发了一种修改版的AgileGAN,以确保表情的一致性,同时保持用户的识别。然后,自监督头像参数化步骤关注的是从基于像素的图片到基于向量的头像的过渡。他们发现强制执行参数离散性会阻止优化达到收敛行为。他们采用一种宽松的形式,称为放松的头像向量,以克服这个问题,将离散参数编码为连续的独热向量。他们教授一个模拟器像不可微分的引擎一样行为,以实现训练中的可微性。在头像向量转换步骤中,所有离散参数都被转换为独热向量。从放松的头像向量空间到严格的头像向量空间进行域交叉。然后,图形引擎可以构建最终的头像并使用严格的头像向量进行渲染。他们使用一种独特的搜索技术,产生的结果优于直接量化。他们利用人类喜好研究评估他们的发现,并将结果与基线方法(如F2P和手工制作)进行比较,以查看他们的方法如何有效地保护个人独特性。他们的结果得分明显高于基线技术,并与手工制作的结果非常相似。 他们还提供了一个消融研究来支持他们的流水线设计决策。他们的技术贡献包括以下要点: • 一种新颖的自监督学习框架,结合连续和离散参数生成高质量的风格化3D头像 • 一种通过肖像风格化来弥合风格域差异的新方法,用于创建风格化的3D头像 • 一种级联的松弛和搜索流水线,用于解决离散头像参数优化中的收敛问题。 您可以在他们的网站上找到该论文的视频演示。

Leave a Comment