Press "Enter" to skip to content

Tag: USA

2023年的15个人工智能(AI)和机器学习相关的Subreddit社区

在快节奏的人工智能(AI)和机器学习领域,及时了解最新的趋势、突破和讨论至关重要。作为互联网的首页,Reddit成为专家和爱好者的中心。这是我们精心挑选的2023年关注的顶级AI和机器学习相关subreddit列表,让您始终保持关注。 r/MachineLearning 这个subreddit专注于机器学习,定期发布技术和引人入胜的帖子和讨论。对于这个拥有超过250万成员的群体来说,有几个基本的行为规则。这是机器学习爱好者必加的群组。 r/artificial r/artificial是最大的专门讨论人工智能或AI相关问题的subreddit。拥有超过16.7万成员,人们可以在这里找到最新的新闻,实际应用中的AI示例,以及那些从事AI工作或研究的人们的讨论和问题。AI是一个广阔的领域,涉及许多学科和子领域。许多这些子领域也有专门的subreddit。r/artificial涵盖了所有这些内容。它是一个平台,供任何对AI以任何形式进行智能和尊重的讨论感兴趣的人。 r/ArtificialInteligence r/ArtificialInteligence是最流行的AI subreddit之一,您不需要选择内容标签。这个subreddit拥有超过8.8万成员。您可以加入这个subreddit,了解最新的AI动态。 r/Machinelearningnews r/machinelearningnews是一个机器学习爱好者/研究者/记者/作者的社区,他们分享有关AI应用的有趣新闻和文章。因为这些内容每天都会发布,并且经过高度审核以避免任何垃圾信息,所以您不会错过任何关于ML/AI/CV/NLP领域的更新。 r/Automate 这个subreddit有超过7.5万成员参与讨论和帖子,专注于自动化。在r/Automate subreddit上可以找到关于自动化、增材制造、机器人、AI以及其他我们开发的技术的讨论。 r/singularity 这个subreddit致力于对一个假设时期的深思研究,即人工智能发展到超越人类的卓越智能程度,从而从根本上改变文明。拥有超过16.1万成员,这个subreddit上的帖子质量和相关性都很高。它涵盖了技术奇点和相关主题的所有方面,比如人工智能(AI)、人类增强等。 r/agi 这个subreddit拥有约1.25万成员,专注于人工通用智能。人工通用智能(AGI)是指能够完成任何人类可以完成的智力工作的机器。这里的帖子定期发布,内容丰富,讨论富有创意。 r/compsci 任何对计算机科学家们发现的信息感到着迷并愿意分享和讨论的人都应该访问r/compsci subreddit。其中包含了许多关于人工智能的帖子。作为成员,有几个简单的规则需要遵守。这个subreddit拥有超过210万成员。 r/AIethics 伦理在AI中是基础。r/AIethics上有关于如何使用和创造各种AI工具的最新内容。规则很简单。它拥有超过3.2k成员。这个subreddit讨论了人工智能代理应该如何行为以及我们应该如何对待它们。 r/cogsci 尽管认知科学是一个庞大的领域,但这个subreddit的帖子在某种程度上与从科学角度研究心智有关,同时也涉及最新的人工智能。它涵盖了跨学科研究心智和智能的领域,包括哲学、心理学、人工智能、神经科学、语言学和人类学。作为用户,有几个广泛的行为准则需要遵守,它拥有超过10.7万成员。 r/computervision…

Leave a Comment

马里兰大学的新人工智能研究探讨了在一天内使用单个GPU训练语言模型的压缩挑战

在自然语言处理的许多领域中,包括语言解释和自然语言合成,利用变压器拓扑的大规模机器学习模型的训练取得了突破性的进展。这些系统的广泛认可行为是它们在模型参数数量和数据量增加时能够稳定扩展或继续表现更好的能力。 虽然大多数研究都集中在寻找推动极端计算边界的新方法上,但马里兰大学的研究人员正在研究最佳的语言模型训练规模缩减方式和可能出现的权衡。 研究人员认为,由于规模效应带来的竞争,他们可以训练一个语言模型。最初的BERT模型在自然语言处理的许多实际应用中得到了使用。然而,这个模型已经需要大量计算才能训练。 在资源相对有限的情况下,有可能训练一个接近BERT性能水平的语言模型,这带来了许多有趣的后果。一个原因是,如果缩减模型的预训练是大规模计算预训练的有效替代品,那么它将开辟一系列目前难以实现的额外学术研究。研究人员表示,可能会出现一些场景,从业者有兴趣利用专门的或可靠的数据源重新训练他们的语言模型,但法律因素使得不确定是否可以接受在具有可疑来源的公共数据上训练的模型。 马里兰大学的研究人员进行了一项新研究,探索了“挤压”挑战——在考试前一天学习整个语言模型。他们的研究证明,在这种受限情况下,性能与大规模计算环境中发现的缩放规律密切相符。为了确定对训练流程的更改是否会导致缩小的情况下性能的提高,该研究首先研究了各种训练流程方面。 缩小规模是具有挑战性的。虽然较小的模型设计可以实现更快的梯度计算,但随时间的推移,模型改进的整体速率几乎保持不变。然而,利用缩放定律的训练配方修改可以通过增加梯度计算的有效速率而获得收益,而不需要减小模型的大小。最终,团队能够在有限的预算下训练模型并提供可观的性能,在GLUE任务中经常接近甚至超过BERT。 团队评估了将基于变压器的语言模型放入计算资源非常有限的情况下的性能。他们发现,多个变化方面导致在GLUE上可观的下游性能。团队希望这项工作可以作为对挤压问题进行调查的起点,并对多种改进和策略提供额外的见解。

Leave a Comment

认识Powderworld:一个轻量级的模拟环境,用于理解人工智能的泛化

尽管强化学习(RL)和决策过程中取得了最近的进展,但对新任务的概括能力仍然是最主要的问题之一。 RL代理在单任务设置下表现出色,但在面对意外障碍时经常犯错误。此外,单任务RL代理可以在训练时过度拟合任务,使其不适用于实际应用。这就是通用代理的用处所在,它可以成功处理各种前所未有的任务和意外困难。 大多数通用代理都是通过多样化的任务进行训练的。最近的深度学习研究表明,模型的概括能力与使用的训练数据量密切相关。然而,主要问题在于开发训练任务是昂贵且困难的。因此,大多数典型设置在本质上过于具体和狭窄,只关注单一任务类型。这个领域的大部分先前研究都集中在多任务训练的专门任务分布上,特别关注特定的决策问题。强化学习社区将从“基础环境”中获得巨大的好处,该环境允许各种任务源自相同的核心规则,因为越来越需要研究训练任务和概括之间的联系。此外,一个简单比较不同训练任务变化的设置也将是有利的。 为了支持代理学习和多任务概括,麻省理工学院计算机科学与人工智能实验室(CSAIL)的两位研究人员设计了Powderworld,一个仿真环境。这个简单的仿真环境直接在GPU上运行,有效地提供环境动力学。在目前的Powderworld中,还包括两个用于指定世界建模和强化学习任务的框架。虽然在强化学习实例中发现,任务复杂性的增加促进了概括,直到达到特定的拐点后表现下降,但在越来越复杂的环境中训练的世界模型展示了改进的传递性能。团队认为这些结果可以作为进一步社区研究的绝佳跳板,利用Powderworld作为调查概括的初始模型。 Powderworld的开发旨在具有模块化和支持新兴交互的能力,同时又不损失其表达设计的能力。规定附近两个元素应该如何相互作用的基本原则构成了Powderworld的核心。这些规范的一致性为代理的概括能力提供了基础。此外,这些局部互动可以扩展为产生新兴的大规模现象。因此,代理可以通过使用这些基本的Powderworld先验知识进行概括。 RL概括的另一个重要障碍是任务经常是不可调整的。理想的环境应该提供一个空间,可以探索并代表有趣的目标和挑战的任务。每个任务都由Powderworld表示为一个二维元素数组,允许使用各种程序化创建技术。代理更有可能面对这些障碍,因为评估特定代理能力的方式有很多种。由于Powderworld是在GPU上运行的,它可以并行执行大规模的仿真批处理,从而实现高效的运行时。这个优势变得至关重要,因为多任务学习可能非常计算密集。此外,Powderworld使用与神经网络兼容的矩阵形式进行任务设计和代理观察。 在最新版本中,团队为在Powderworld内训练世界模型提供了初步的基础。世界模型的目标是预测在一定数量的仿真时间步骤之后的状态。由于Powderworld实验应该关注概括,所以世界模型的性能是在一组保留的测试状态上报告的。基于多个研究,团队还发现,使用更复杂的训练数据的模型在概括方面表现更好。在训练过程中暴露给模型的元素越多,性能越好,这表明Powderworld的逼真仿真足够丰富,可以改变世界模型的表示。 团队专注于探索用于强化学习的随机多样性任务,其中代理在测试中必须克服未知的障碍。实验评估显示,增加训练任务的复杂性有助于概括,直到任务特定的拐点后,过于复杂的训练任务会在强化学习过程中导致不稳定性。这种复杂性对Powderworld世界建模和强化学习任务中训练的影响的区别引起了有趣的研究问题,这是未来的研究重点。 强化学习的一个主要问题是对新的未经测试的任务进行概括。为了解决这个问题,麻省理工学院的研究人员开发了Powderworld,一个可以为监督学习和强化学习产生任务分布的仿真环境。Powderworld的创建者期望他们的轻量级仿真环境能够促进进一步的研究,以开发一个既强大又计算有效的任务复杂性和代理概括的框架。他们预计未来的研究将利用Powderworld来研究无监督环境设计策略和开放式代理学习以及其他各种主题。

Leave a Comment

遇见FathomNet:一个使用人工智能和机器学习算法的开源图像数据库,以帮助处理视觉数据积压,以理解我们的海洋及其居民

海洋正在以前所未有的速度发生变化,使得在视觉监测大量海洋数据的同时保持负责任的管理变得具有挑战性。由于研究界正在寻求基线,所需数据的数量和速度正在超过我们快速处理和分析它们的能力。数据一致性的缺乏、不充分的格式以及对重要标记数据集的需求,这些都导致了最近机器学习的进展在快速和更复杂的视觉数据分析方面取得的有限成功。 为了满足这一需求,几个研究机构与MBARI合作,利用人工智能和机器学习的能力加速海洋研究。这种合作的一个结果是FathomNet,这是一个开源的图像数据库,利用先进的数据处理算法来标准化和聚合精心策划的标记数据。团队认为,使用人工智能和机器学习将是加速海洋健康关键研究并消除处理水下图像的瓶颈的唯一途径。关于这个新图像数据库背后的开发过程的详细信息可以在《Scientific Reports》杂志的最近一篇研究论文中找到。 机器学习在历史上在自动化视觉分析领域产生了转变,部分原因在于大量的注释数据。对于陆地应用来说,机器学习和计算机视觉研究人员争相使用的基准数据集是ImageNet和Microsoft COCO。为了给研究人员提供一个丰富、引人入胜的水下视觉分析标准,团队创建了FathomNet。为了建立一个自由可访问、高度维护的水下图像训练资源,FathomNet结合了来自许多不同来源的图像和记录。 MBARI的视频实验室的研究人员精心注释了近28,000小时的深海视频和超过1百万张MBARI在35年间收集到的深海照片。MBARI的视频库中有约820万个关于动物、生态系统和物体观察的注释。探险技术实验室从各种海洋栖息地和所有海洋盆地的各个地方收集了超过1,000小时的视频数据。这些录像还被CVision AI开发的基于云的协作分析平台使用,并由夏威夷大学和OceansTurn的专家进行了注释。 此外,2010年,美国国家海洋和大气管理局(NOAA)海洋探索团队在NOAA Okeanos Explorer船上使用双重远程操作车系统收集了视频数据。为了更广泛地注释收集到的视频,他们从2015年开始资助专业分类学家。最初,他们通过志愿参与的科学家众包注释。MBARI的一部分数据集,以及国家地理和NOAA的材料都包含在FathomNet中。 由于FathomNet是开源的,其他机构可以随时为其做出贡献,并将其用作处理和分析视觉数据的更耗时和资源消耗大的传统方法的替代品。此外,MBARI启动了一个试点计划,使用从FathomNet训练的机器学习模型分析由远程控制水下车辆(ROVs)拍摄的视频。使用AI算法使标记速度提高了十倍,同时减少了人力成本81%。基于FathomNet数据的机器学习算法可能会改变海洋探索和监测领域。其中一个例子包括使用配备摄像头和增强的机器学习算法的机器人车辆自动搜索和监测海洋生物和其他水下物体。 通过不断的贡献,FathomNet目前拥有84,454张图像,反映了来自81个不同收藏的175,875个定位,涉及2,243个概念。在各种位置和成像设置中,该数据集将很快获得超过2亿次观察,为超过20万种动物物种获得1,000次独立观察。四年前,由于缺乏注释照片,机器学习无法检查数千小时的海洋电影。通过解锁发现和提供工具,探险家、科学家和普通公众可以利用这些工具加快海洋研究的步伐,FathomNet将这一愿景变为现实。 FathomNet是协作和社区科学如何促进我们对海洋的认识的巨大例证。团队认为,该数据集可以在理解海洋变得比以往任何时候都更重要的情况下加速海洋研究,以MBARI和其他合作伙伴的数据为基础。研究人员还强调他们希望FathomNet成为一个社区,在这个社区中,来自各个领域的海洋爱好者和探险家可以分享他们的知识和技能。这将成为解决海洋视觉数据问题的跳板,否则这是不可能没有广泛参与的。为了加快视觉数据的处理并创建一个可持续和健康的海洋,FathomNet不断改进,包括来自社区的更多标记数据。 这篇文章是由Marktechpost工作人员撰写的研究摘要,基于研究论文《FathomNet:一个用于在海洋中实现人工智能的全球图像数据库》。这项研究的所有功劳归功于该项目的研究人员。请查看论文、工具和参考文章。此外,别忘了加入我们的26k+ ML SubReddit、Discord频道和电子邮件通讯,我们会分享最新的人工智能研究新闻、酷炫的人工智能项目等等。 这篇文章介绍了FathomNet:一个开源的图像数据库,利用人工智能和机器学习算法来帮助处理我们的海洋和其生物居民的视觉数据积压问题。 本文首发于MarkTechPost。

Leave a Comment

密歇根州立大学的研究人员开发了名为“DANCE”的Python库,用于支持大规模分析单细胞基因表达的深度学习模型

从单模态分析(RNA、蛋白质和开放染色质)到多模态分析和空间转录组学,近年来,分析单个细胞的技术发展迅速。机器学习为基础的大量计算方法应运而生,这是由于该领域的迅速扩展所推动的。 研究人员指出,由于当前方法的多样性和复杂性,很难复制原始文章中显示的结果。超参数调整、编程语言之间的不兼容以及缺乏公开可用的代码库都提供了重大障碍。由于大多数现有作品仅在有限的数据集上报告了其性能,并与不足的方法进行了比较,因此需要进行系统的基准测试程序来全面评估方法。 作为最近一项研究的一部分,来自密歇根州立大学、华盛顿大学、浙江工业大学、斯坦福大学和强生公司的研究人员介绍了DANCE,这是一个用于加速单个细胞分析进展的深度学习库和基准。 DANCE提供了一套全面的工具,用于大规模分析单个细胞的数据,使开发者能够更轻松高效地创建他们的深度学习模型。此外,它还可以用作比较各种计算模型在单个细胞分析中性能的基准。DANCE目前包括对3个模块、8个任务、32个模型和21个数据集的支持。 目前,DANCE提供以下功能: 单模态分析。 多模态分析。 空间转录组学分析。 自动编码器和GNN是广泛使用的深度学习框架,适用于各个领域。根据他们的论文,DANCE是第一个全面的单细胞分析基准平台。 在这项工作中,研究人员使用了创新的组件。他们通过编制任务特定的标准基准数据集并通过单个参数调整使其可立即使用来开始工作。为每个任务实现了基线的经典和深度学习算法。所有收集到的基准数据集都被用于微调基线,直到它们达到与原始研究相同或更好的结果。最终用户只需运行一条命令行,其中预先包装了所有超参数,就可以获得微调模型的性能。 团队使用PyTorch Geometric (PSG)框架作为基础。此外,他们通过将其转化为适应-预测-评分的框架,使其基线标准化。对于每个任务,通过网格搜索在所有收集到的标准基准上对所有实现的算法进行微调,以获得最佳模型。相关的超参数存储在单个命令行中,以便用户能够重现实验结果。 团队认为他们的工作使整个单细胞社区受益于DANCE平台。最终用户不需要花费太多时间和精力来实现和微调模型。相反,为了复制他们的结果,他们只需要运行一条命令行。此外,研究人员还为基于深度学习的模型的快速训练提供了图形处理单元(GPU)的支持。 目前,DANCE缺乏用于预处理和图形创建的统一工具集。团队计划在未来进行改进。他们还表示,DANCE将作为一项SaaS服务提供,这样用户就不必完全依赖自己设备的处理能力和存储容量。 本文是MarkTechPost员工根据研究论文“DANCE:用于单细胞分析的深度学习库和基准”的研究摘要文章编写的。所有关于这项研究的荣誉归功于这个项目的研究人员。查看论文、代码和工具。 请别忘记加入我们的机器学习Subreddit 这篇文章最初发表于MarkTechPost网站,标题为《密歇根州立大学的研究人员开发了一种名为“DANCE”的Python库,支持单细胞基因表达大规模分析的深度学习模型》。

Leave a Comment