编辑注:本文是一系列采访使用高性能计算推进科学研究的研究人员的文章之一。 Maria Girone正在利用加速计算和人工智能扩展世界上最大的科学计算机网络。 自2002年以来,这位物理学博士一直在为跨越40多个国家的170个站点的系统网格工作,支持欧洲核子研究组织(CERN)的大型强子对撞机(LHC),该机本身即将进行重大升级。 巨型加速器的高亮度版本(HL-LHC)将产生10倍于质子碰撞,每年产生的数据量将达到艾克斯字节级别。这比2012年它两个实验中发现希格斯玻色子时产生的数据量高一个数量级,这个亚原子粒子验证了科学家对宇宙的理解。 日内瓦的召唤 Girone从小就热爱科学。 “在大学里,我想学习统治宇宙的基本力量,所以我专注于物理学。”她说,“我被CERN吸引,因为那里来自世界各地的人们共同热爱科学。” 欧洲核子研究组织坐落在日内瓦湖和朱拉山之间,是超过12,000名物理学家的中心。 CERN及其下方的LHC地图(图像由CERN提供) 它的27公里环形被称为世界上最快的赛道,因为质子以99.9999991%的光速绕过它。它的超导磁体在接近绝对零度时运行,产生的碰撞瞬间比太阳还热数百万倍。 开放实验室的大门 2016年,Girone被任命为CERN开放实验室的首席技术官,该组织聚集了学术和工业研究人员,加速创新并应对未来的计算挑战。它与位于意大利的HPC和AI专家E4计算机工程紧密合作,并通过该合作与NVIDIA合作。 在最初的工作中,Girone组织了CERN开放实验室的第一个人工智能研讨会。 工业界的参与度很高,对技术充满热情。物理学家在他们的演示中解释了面临的挑战。 “到了晚上,我们意识到我们来自两个不同的世界,但是人们在互相倾听,并热情地提出了下一步要做什么的建议,”她说。 物理AI的崛起 Girone表示,如今,高能物理中应用AI的出版物数量正在增加。她说,这项工作吸引了看到用AI解决复杂问题的机会的年轻研究人员。 与此同时,研究人员也正在将物理软件移植到GPU加速器上,并使用现有的在GPU上运行的AI程序。 “如果没有NVIDIA与我们的研究人员合作解决问题、回答问题和撰写文章的支持,这不会发生得如此迅速,”她说。“拥有NVIDIA的人能够欣赏科学需要与技术同时发展以及我们如何利用GPU进行加速的重要性。” 能源效率是Girone团队的另一个重点。 “我们正在进行多个项目的实验,例如移植到低功耗架构,并期待评估下一代低功耗处理器。”她说。 数字孪生和量子计算机 为了为HL-LHC做准备,三月份被任命为CERN开放实验室负责人的Girone正在寻找利用机器学习和加速计算加速科学的新方法。还有其他工具即将到来。 该组最近获得了原型数字孪生引擎的资金。它将为物理学家以及从天文学到环境科学的研究人员提供服务。…
Leave a CommentTag: Deep Learning
由亚历山大·弗瑞姆根 (Alexander Frömmgen),高级软件工程师莱拉·卡拉提扬 (Lera Kharatyan) 发布 代码更改审查是规模化软件开发过程中至关重要的一部分,占用了代码作者和代码审查人员相当数量的时间。作为这个过程的一部分,审查人员检查建议的代码,并通过自然语言编写的评论要求作者进行代码更改。在 Google,我们每年看到数百万个审查人员的评论,作者需要平均 ~60 分钟的积极引导时间,在发送更改进行审查和最终提交更改之间。在我们的测量中,代码作者必须做出的为了应对审查人员的评论所需的积极工作时间几乎是随着评论数量线性增长的。然而,通过机器学习 (ML),我们有机会自动化和简化代码审查过程,例如,根据评论的文本提出代码更改。 今天,我们描述了我们在 Google 的日常开发工作流程中应用最新的大型序列模型 (使用 DIDACT 方法论) 的应用,自动解决代码审查评论。截至今天,Google 的代码更改作者通过应用 ML 建议的编辑,处理了大量的审查人员评论。我们预计,在 Google 的规模下,这将每年减少数十万小时的代码审查时间。非请求的非常积极的反馈表明,ML 建议的代码编辑的影响增加了 Google…
Leave a CommentGoogle增强现实的研究科学家Ruofei Du和高级研究科学家Alex Olwal在博客中指出,最近视频会议的进步极大地改进了远程视频通信,通过实时字幕和降噪等功能。然而,在各种情况下,动态视觉增强将有助于更好地传达复杂和微妙的信息。例如,在讨论在日本餐厅点什么菜时,你的朋友可以分享视觉图像,帮助你更自信地点“Sukiyaki”。或者当谈论你最近的旧金山家庭旅行时,你可能想展示你个人相册中的照片。 在ACM CHI 2023上介绍了我们的“视觉字幕:通过即时视觉增强语言交流”系统,我们引入了一个系统,使用口头提示来增强同步视频通信的实时视觉效果。我们使用我们为此目的策划的数据集,对大型语言模型进行了微调,以在开放词汇对话中主动建议相关的视觉效果。作为ARChat项目的一部分,我们开源了Visual Captions,该项目旨在快速原型开发具有实时转录的增强通信。 Visual Captions通过实时视觉效果促进口头交流。该系统甚至对实时语音转文字记录中经常出现的典型错误也非常稳健。例如,在上下文之外,转录模型误解了“pier”一词,将其误认为是“pair”,但Visual Captions仍建议使用Santa Monica Pier的图像。 通过动态视觉增强语言交流的设计空间 我们邀请了10个内部参与者,他们各自具有不同的技术和非技术背景,包括软件工程师、研究人员、UX设计师、视觉艺术家、学生等等,讨论他们对潜在实时视觉增强服务的特定需求和愿望。在两个会议中,我们介绍了设想系统的低保真原型,随后展示了现有文本到图像系统的视频演示。这些讨论形成了一个视觉增强实时对话的设计空间,如下图所示,标记为D1到D8。 视觉增强可以与对话同步或异步(D1:时间),可以用于表达和理解语音内容(D2:主题),可以使用各种不同的视觉内容、视觉类型和视觉来源进行应用(D3:视觉)。这种视觉增强可能会因会议规模(D4:规模)和会议是否处于同地或远程设置(D5:空间)而有所不同。这些因素还影响视觉效果是应该私下显示、在参与者之间共享还是公开对所有人显示(D6:隐私)。参与者还确定了他们在进行对话时想与系统交互的不同方式(D7:启动)。例如,人们提出了不同程度的“主动性”,这表示用户希望模型采取主动的程度。最后,参与者设想了不同的交互方式,例如使用语音或手势进行输入。(D8:交互)。 通过动态视觉增强语言交流的设计空间。 在初步反馈的基础上,我们设计了Visual Captions,专注于生成语义相关的视觉内容、类型和来源的同步视觉。虽然参与者在这些初步的探索性会话中参与的是一对一的远程对话,但在野外部署Visual Captions通常会是一对多(例如,一个人向观众进行演示)和多对多的情况(例如,多人在会议中进行讨论)。 因为最适合补充对话的视觉内容强烈依赖于讨论的上下文,我们需要一个特定于此用途的训练集。因此,我们收集了1595个语言(1)、视觉内容(2)、类型(3)和来源(4)的四元组数据集,涵盖了各种情境,包括日常对话、讲座和旅游指南。例如,“我很想看看它!”对应于“面孔微笑”的视觉内容,一个“emoji”的视觉类型和“公共搜索”的视觉来源。 “她有没有告诉你我们去墨西哥的旅行?”对应于“墨西哥旅行的一张照片”的视觉内容,一个“照片”的视觉类型和“个人相册”的视觉来源。我们为研究社区公开发布了该VC1.5K数据集。 视觉意图预测模型 为了预测哪些视觉内容可以补充对话,我们使用VC1.5K数据集基于大型语言模型训练了一个视觉意图预测模型。为了进行训练,我们将每个视觉意图解析成“ <Visual Type>…
Leave a Comment