编辑注:本文是一系列采访使用高性能计算推进科学研究的研究人员的文章之一。 Maria Girone正在利用加速计算和人工智能扩展世界上最大的科学计算机网络。 自2002年以来,这位物理学博士一直在为跨越40多个国家的170个站点的系统网格工作,支持欧洲核子研究组织(CERN)的大型强子对撞机(LHC),该机本身即将进行重大升级。 巨型加速器的高亮度版本(HL-LHC)将产生10倍于质子碰撞,每年产生的数据量将达到艾克斯字节级别。这比2012年它两个实验中发现希格斯玻色子时产生的数据量高一个数量级,这个亚原子粒子验证了科学家对宇宙的理解。 日内瓦的召唤 Girone从小就热爱科学。 “在大学里,我想学习统治宇宙的基本力量,所以我专注于物理学。”她说,“我被CERN吸引,因为那里来自世界各地的人们共同热爱科学。” 欧洲核子研究组织坐落在日内瓦湖和朱拉山之间,是超过12,000名物理学家的中心。 CERN及其下方的LHC地图(图像由CERN提供) 它的27公里环形被称为世界上最快的赛道,因为质子以99.9999991%的光速绕过它。它的超导磁体在接近绝对零度时运行,产生的碰撞瞬间比太阳还热数百万倍。 开放实验室的大门 2016年,Girone被任命为CERN开放实验室的首席技术官,该组织聚集了学术和工业研究人员,加速创新并应对未来的计算挑战。它与位于意大利的HPC和AI专家E4计算机工程紧密合作,并通过该合作与NVIDIA合作。 在最初的工作中,Girone组织了CERN开放实验室的第一个人工智能研讨会。 工业界的参与度很高,对技术充满热情。物理学家在他们的演示中解释了面临的挑战。 “到了晚上,我们意识到我们来自两个不同的世界,但是人们在互相倾听,并热情地提出了下一步要做什么的建议,”她说。 物理AI的崛起 Girone表示,如今,高能物理中应用AI的出版物数量正在增加。她说,这项工作吸引了看到用AI解决复杂问题的机会的年轻研究人员。 与此同时,研究人员也正在将物理软件移植到GPU加速器上,并使用现有的在GPU上运行的AI程序。 “如果没有NVIDIA与我们的研究人员合作解决问题、回答问题和撰写文章的支持,这不会发生得如此迅速,”她说。“拥有NVIDIA的人能够欣赏科学需要与技术同时发展以及我们如何利用GPU进行加速的重要性。” 能源效率是Girone团队的另一个重点。 “我们正在进行多个项目的实验,例如移植到低功耗架构,并期待评估下一代低功耗处理器。”她说。 数字孪生和量子计算机 为了为HL-LHC做准备,三月份被任命为CERN开放实验室负责人的Girone正在寻找利用机器学习和加速计算加速科学的新方法。还有其他工具即将到来。 该组最近获得了原型数字孪生引擎的资金。它将为物理学家以及从天文学到环境科学的研究人员提供服务。…
Leave a Comment四海吧 Posts
在NVIDIA AI播客的最新一期中,edX创始人、2U首席平台官Anant Agarwal分享了他对在线教育未来的愿景以及AI如何革新学习体验。 作为大规模开放在线课程(MOOCs)的坚定支持者,Agarwal讨论了教育的可及性和质量的重要性。这位麻省理工学院教授和著名的教育科技先锋还强调了在edX平台中实现AI动力功能的重要性,包括ChatGPT插件和edX Xpert,一款AI动力的学习助手。 你可能还喜欢 Jules Anh Tuan Nguyen解释了AI如何让截肢者控制义肢手和视频游戏 明尼苏达大学的博士后研究员讨论了他的努力,让截肢者可以用大脑控制他们的义肢,甚至是手指的动作。 Overjet的Ai Wardah Inam谈论将AI引入牙科 作为NVIDIA Inception的成员,Overjet正在迅速将AI引入牙科诊所。该公司的首席执行官Wardah Inam博士讨论了使用AI来改善患者护理。 Immunai的CTO和联合创始人Luis Voloch谈论使用深度学习开发新药 Immunai的联合创始人兼首席技术官Luis Voloch谈论了如何以机器学习和数据科学的思维方式应对免疫系统的挑战。 订阅AI播客:现在可在Amazon Music上获取 AI播客现在可通过Amazon Music获取。…
Leave a Comment将 GeForce NOW 与 Steam、Epic Games Store 和 Ubisoft 账户链接,更快地进入你喜爱的游戏。 并通过观看于 6 月 12 日星期一举行的 Ubisoft Forward 活动,一窥 GeForce NOW 这一年后即将推出的更多游戏内容,届时这家游戏发行商将揭示最新的消息和公告。 此外,本周还有两款新游戏可以从云端进行流媒体游玩,以及来自 Ubisoft 的《汤姆·克兰西:全境封锁2》的最新赛季。 链接账户…
Leave a Comment通过使用户连接工具和服务,能够遵循图形用户界面(GUI)指令的系统可以自动化繁琐的工作,增加可访问性,并增加数字助手的实用性。 许多基于GUI的数字代理实现都依赖于HTML衍生的文本表示,这些表示并不总是容易获取。人们通过感知视觉输入并使用标准的鼠标和键盘快捷键来使用GUI;他们不需要查看应用程序的源代码来弄清楚程序的工作原理。无论底层技术如何,他们都可以通过直观的图形用户界面快速掌握新的程序。 雅达利游戏系统只是一个例子,说明了一个从仅像素输入中学习的系统可以表现得多么出色。然而,在尝试基于GUI的指令跟随任务时,从仅像素输入中学习时会面临许多障碍,这与通用的低级动作相结合。要对GUI进行视觉解释,必须熟悉界面的结构,能够识别和解释视觉定位的自然语言,识别和识别视觉元素,并预测这些元素的功能和交互方法。 谷歌DeepMind和谷歌介绍了PIX2ACT,这是一个模型,它以基于像素的截屏作为输入,并选择与基本鼠标和键盘控件匹配的操作。研究小组首次证明,一个只有像素输入和通用操作空间的代理可以超过人类众包工作者,并达到使用DOM信息和相当数量的人类演示的最先进代理的性能。 为此,研究人员扩展了PIX2STRUCT。这个基于Transformer的图像到文本模型已经通过大规模在线数据进行了训练,将截图转换为基于HTML的结构化表示。PIX2ACT应用树搜索来反复构建新的专家轨迹进行训练,采用人类演示和与环境的交互的组合。 团队在这里的努力包括创建一个通用的基于浏览器的环境框架,并使用标准的跨域观察和操作格式调整了两个基准数据集MiniWob++和WebShop,以在其环境中使用。使用他们提出的选项(不带DOM的CC-Net),PIX2ACT在MiniWob++上的表现比人类众包工作者高出约四倍。削减实验表明,PIX2STRUCT的基于像素的预训练对PIX2ACT的性能至关重要。 对于基于GUI的指令跟随像素输入,研究结果表明PIX2STRUCT通过屏幕截图解析的预训练的有效性。在行为克隆环境中进行预训练将MiniWob++和WebShop任务得分分别提高了17.1和46.7。尽管与使用基于HTML的输入和任务特定操作的较大语言模型相比仍存在性能劣势,但这项工作为这个环境设置了第一个基准。
Leave a Comment准确地分割多个对象对于各种场景理解应用非常重要,例如图像/视频处理、机器人感知和AR/VR。最近发布了Segment Anything Model (SAM),这是一个广泛的图像分割基本视觉模型。它使用十亿级别的掩码标签进行训练。SAM可以使用一系列点、边界框或粗略掩码作为输入,在多个上下文中分割各种对象、组件和可视结构。它的零-shot分割能力引发了快速的范式变化,因为它们可以在许多应用程序中仅使用一些基本提示。 尽管其表现出色,但SAM的分割结果仍然需要改进。SAM存在两个重要问题:1)粗糙的掩码边缘,经常遗漏细小物体结构的分割,如图1所示。2)在困难情况下,错误的预测、损坏的掩码或显著的不准确性。这通常与SAM的误读细小结构有关,例如图中右上角的风筝线。基本分割方法(如SAM)的应用和效果受到这些错误的严重限制,特别是对于自动注释和图像/视频编辑作业,其中极其精确的图像掩码至关重要。 图1:比较了SAM和我们的HQ-SAM的预测掩码,使用了单个红色框或对象上的多个点的输入提示。具有极其精确边界的HQ-SAM生成明显更详细的结果。在最右边的一列中,SAM误读了风筝线的细小结构,并为输入框提示生成了大量的错误和破损孔。 来自苏黎世联邦理工学院和香港科技大学的研究人员建议HQ-SAM,它保持了原始SAM的强大零-shot能力和灵活性,同时能够预测非常准确的分割掩码,即使在极其困难的情况下(参见图1)。他们建议对SAM进行小的调整,添加少于0.5%的参数,以增加其高质量分割的能力,同时保持效率和零-shot性能。直接调整SAM解码器或添加新的解码器模块会对零-shot分割的一般布局造成严重的影响。因此,他们建议HQ-SAM设计完全保留零-shot效率,与并重用当前学习的SAM结构相集成。 除了原始提示和输出令牌外,他们还创建了一个可学习的HQ-Output Token,馈送到SAM的掩码解码器中。与原始输出令牌相比,他们的HQ-Output Token及其相关的MLP层被教授预测高质量的分割掩码。其次,他们的HQ-Output Token在改进的特征集上运行,以生成精确的掩码信息,而不仅仅是使用SAM的掩码解码器功能。他们将SAM的掩码解码器特征与其ViT编码器的早期和晚期特征图结合使用,以使用全局语义上下文和细粒度的本地特征。 在训练期间,完整的预训练SAM参数被冻结,只更新HQ-Output Token、相关的三层MLP和一个小型特征融合块。学习准确分割所需的是一个具有复杂几何形状的各种对象的精确掩码注释的数据集。使用11M张照片和类似于SAM的模型自动创建的1.1亿个掩码的SA-1B数据集来训练SAM。然而,图1中SAM的性能表明,使用这个大型数据集具有重大的经济后果。它无法产生研究所需的高质量掩码生成。 因此,他们创建了HQSeg-44K,一个新的数据集,包括44K个高精度细粒度图像掩码注释。他们将六个现有的图像数据集与非常精确的掩码注释结合起来,以创建HQSeg-44K,涵盖了1000多个不同的语义类别。由于数据集较小,以及他们简单的集成设计,HQ-SAM可以在8个RTX 3090 GPU上进行训练,时间不到4小时。他们进行了严格的定量和定性实验研究,以验证HQ-SAM的有效性。 他们在来自各种下游任务的九个不同分割数据集上将HQ-SAM与SAM进行了比较,其中有七个在零-shot转移协议下,包括COCO、UVO、LVIS、HQ-YTVIS、BIG、COIFT和HR-SOD。这一彻底的分析表明,与SAM相比,所提出的HQ-SAM可以制造出更高质量的掩模,同时仍具有零-shot能力。他们的GitHub页面上有一个虚拟演示。 通过引入对原始SAM的可忽略开销,他们提出了第一个高质量的零-shot分割模型。 查看论文和GitHub。不要忘记加入我们的23k+ ML SubReddit、Discord频道和电子邮件通讯,在这里我们分享最新的AI研究新闻、酷炫的AI项目等等。如果您对上述文章有任何问题或我们漏掉了任何东西,请随时发送电子邮件至Asif@marktechpost.com 查看AI工具俱乐部中的100个AI工具 这篇文章最初发表在MarkTechPost上。
Leave a Comment谷歌的一组研究人员最近与 Muse 的快速文本到图像模型合作开发了创新的神经网络 StyleDrop。这项开创性的技术允许用户生成忠实地体现特定视觉风格的图像,捕捉细微的差别和复杂性。通过选择具有所需风格的原始图像,用户可以将其无缝地转移到新图像,同时保留所选择的风格的所有独特特征。StyleDrop 的多功能性还可用于与完全不同的图像一起使用,使用户能够将儿童绘画转换成风格化的标志或角色。 StyleDrop 由 Muse 先进的生成视觉转换器驱动,使用用户反馈、生成图像和 Clip 分数的组合进行训练。神经网络是通过最小的可训练参数进行微调的,仅占总模型参数的不到 1%。通过迭代训练,StyleDrop 不断提高生成图像的质量,确保在短短几分钟内获得令人印象深刻的结果。 这个创新工具对于寻求开发其独特视觉风格的品牌来说是非常宝贵的。有了 StyleDrop,创意团队和设计师可以高效地以其所偏爱的方式原型设计想法,使其成为不可或缺的资产。对 StyleDrop 的性能进行了广泛的研究,将其与其他方法(如 DreamBooth、Imagen 上的文本反转和 Stable Diffusion)进行了比较。结果一致展示了 StyleDrop 的卓越性,提供了高质量的图像,紧密地符合用户指定的风格。 StyleDrop 的图像生成过程依赖于用户提供的基于文本的提示。StyleDrop…
Leave a Comment尽管被广泛赞誉为能够生成自然语言文本的能力,但大型语言模型(LLMs)存在数据记忆、偏见和不适当语言等潜在负面影响,这引起了人们对其潜在负面影响的担忧。由于LLMs的复杂性和不断发展的能力,验证和纠正这些担忧是具有挑战性的。在这项研究中,作者提出了ReLM,这是一个通过传统的正则表达式检查和查询LLMs的系统。通过ReLM,许多语言模型评估可以通过将复杂的评估方法简化为正则表达式查询来形式化和实现。 通过对记忆、性别偏见、毒性和语言理解的查询结果,ReLM可以将统计和快速调整覆盖范围扩展到比最先进的即席搜索多达15倍。对于日益增长的LLM验证挑战,ReLM提供了一个有竞争力和广义的起点。 ReLM是第一个允许从整体上描述测试模式集合以直接测量LLM行为的解决方案。ReLM的成功源于使用解空间的紧凑图形表示,该解空间是从正则表达式导出的,然后在执行之前被编译成LLM特定的表示。因此,用户不需要熟悉LLM的内部工作方式;测试产生的结果与如果所有可能的字符串存在于现实世界中一样。除了建立ReLM之外,作者还展示了如何在各种LLM评估任务中使用字符串模式。 Python用户程序可以使用ReLM框架;ReLM公开了这些程序可以使用的特定API。要使用ReLM,软件需要发送一个查询对象和在第三方库(如Hugging Face Transformers(Wolf等,2020))中定义的LLM。正则表达式、LLM决策规则和遍历算法都存储在查询对象中。 在编写代码的同时,ReLM的用户可以将验证任务分为两个部分: 使用正则表达式正式描述一组字符串的子集。 引导引擎通过字符串枚举和评估的过程。 研究人员表明,ReLM可以快速、表达地执行常见查询,从而显著减少LLMs所需的验证工作量。最重要的是: 形式上概述了将正则表达式应用于LLM预测。与可数的多项选择问题不同,正则表达式可以描述具有不确定大小的集合。与有时会产生模糊响应的开放式问题相比,ReLM的结果始终是清晰的。 识别和构建了LLM推理查询的条件和无条件类别。许多令牌序列可以表示一个固定的查询字符串,这激发了一种压缩表示的方法,因为学者在研究无条件生成时已经证明了这一点。他们是第一组使用自动机来容纳这些变体编码的人。 设计和实现了一个有效将正则表达式转换为有限自动机的正则表达式推理引擎。研究人员使用了最短路径和随机图遍历,实现了具有竞争力的GPU利用率和运行时间(几秒钟)。 作者使用GPT-2模型说明了在LLM验证的上下文中,ReLM在评估记忆、性别偏见、毒性和语言理解任务方面的价值。 更多细节可在https://github.com/mkuchnik/relm中找到。 最后 由于自然语言的复杂性和LLMs的不断增长,验证大型语言模型(LLMs)的抽象性变得越来越必要。为了使用LLMs执行验证任务,研究人员提出了ReLM,这是第一个可编程框架。使用ReLM,您可以在正则表达式中编写逻辑查询,然后将其转换为LLM语言中的可执行形式。ReLM可以以比以前的方法节省2.5倍的数据,或以比以前的方法快15倍,或以提供额外见解的方式运行记忆、性别偏见、毒性和语言理解任务。虽然ReLM的结果强烈反对依赖即席LLM验证,但系统地解决这些问题引入了其他困难(例如,从左到右的自回归解码有利于后缀完成)。我们的长期目标包括提高ReLM的查询优化能力并将其带到更多模型系列中。
Leave a CommentGPT模型是OpenAI开发的ChatGPT聊天机器人背后的变压器架构,它基于通过仅几个例子学习任务的概念。这种称为上下文学习的方法,使模型避免了使用数千个输入文本进行微调,只使用特定于任务的示例作为输入就能学习在不同任务上表现良好。针对特定任务微调模型可能非常昂贵,因为GPT是一个具有数十亿参数的“大”语言模型,由于在微调期间需要更新所有模型参数,因此相对而言成本较高。 上下文学习在代码生成、问答、机器翻译等方面得到了有效应用,但在图机器学习任务中仍然存在局限性和挑战。一些图机器学习任务包括识别在社交网络上传播半真半假或虚假新闻的传播者和跨电子商务网站的产品推荐。上下文学习在制定和建模这些任务的过程中面临局限性,无法形成和建模统一的任务表示,使模型能够处理各种任务而无需重新训练或参数调整。 最近,一组研究人员在其研究论文中介绍了PRODIGY,这是一个预训练框架,可实现在图形上下文中学习。PRODIGY(Pretraining Over Diverse In-Context Graph Systems)使用提示图表示形式来制定上下文学习。提示图作为上下文图任务表示,集成了节点、边缘和图级机器学习任务的建模。提示网络将输入节点或边缘与其他标签节点连接,并对提示示例和查询进行上下文化。这种互连表示允许指定各种图形机器学习任务到同一模型中,而不受图形大小的限制。 由斯坦福大学和卢布尔雅那大学的研究人员提出,团队设计了一种图形神经网络架构,专门用于处理提示图,并有效地对图结构化数据进行建模和学习。所提出的设计利用GNN教授提示图的节点和边缘的表示。此外,还引入了一系列上下文预训练目标,以指导学习过程,提供监督信号,使模型能够捕获相关的图形模式并在不同的任务中进行推广。 为了评估PRODIGY的性能和有效性,作者在涉及引文网络和知识图的任务上进行了实验。引文网络代表科学论文之间的关系,而知识图则捕获有关不同领域的结构化信息。使用上下文学习对预训练模型进行了测试,并将结果与硬编码适应性的对比预训练基线和使用有限数据的标准微调进行了比较。PRODIGY在准确性方面平均优于对比预训练基线的硬编码适应性18%。当应用上下文学习时,与标准微调相比,平均提高了33%。 总之,PRODIGY在基于图形的场景中似乎很有前途,如图机器学习应用中的上下文学习。它甚至可以在以前未见过的图形上执行下游分类任务,使其更加有效和有益。
Leave a Comment本文讨论了有助于成功扩展数据科学项目的关键组件它涵盖了如何使用API收集数据,如何将数据存储在云中,如何清理和处理数据,如何可视化数据以及如何利用数据可视化的威力…
Leave a Comment机器学习系统设计:端到端实例指南是一个实用指南,用于规划和设计成功的机器学习应用程序它提供了一个清晰、可重复的框架,用于构建、维护和改进任何规模的系统
Leave a Comment我很高兴地分享最近计算机视觉领域的进展,例如突破性的零样本目标检测器(如Grounding DINO)的出现,已经彻底改变了图像标注的过程
Leave a Comment基础模型是人工智能领域的一个重大进展,可以创建多功能和高性能的模型,可应用于各种领域,如自然语言处理、计算机视觉和多模态任务
Leave a Comment该博客专注于GPT模型,提供深入的理解和分析它解释了GPT模型的三个主要组成部分:生成、预训练和变压器
Leave a Comment在这篇博客中,我分享了我在困难情况下寻找数据科学工作时学到的4个宝贵的经验教训,包括60天的移民政策、裁员和健康问题我希望能为那些面临类似障碍的人提供洞见和指导,无论是因为最近的裁员还是移民挑战
Leave a Comment想要将ChatGPT集成到你的数据科学工作流中吗?以下是一个示例,以及有关如何在数据科学中充分利用ChatGPT的技巧和最佳实践
Leave a CommentAutoGPT 您需要知道的一切 • 2023年成为数据科学家所需的19种技能 • ChatGPT和Bard的8个开源替代品 • LangChain 101:构建您自己的GPT驱动应用程序 • 获取惊人数据用于数据科学项目的10个网站 • Baby…
Leave a Comment15年数据分析专业人士Josh Berry从Python转向SQL时遇到的5个最困难的事情提供示例、SQL代码和定制SQL到您自己的项目的资源
Leave a Comment本文将向您展示如何使用OpenAI的Whisper API将音频转录为文字它还将向您展示如何在自己的项目中使用它,以及如何将其集成到您的数据科学项目中
Leave a Comment