Press "Enter" to skip to content

四海吧 Posts

宣布在Amazon SageMaker上推出新的Hugging Face LLM Inference容器

这篇文章是由 Philipp Schmid 和 Jeff Boudier 与 Hugging Face 共同撰写的作为亚马逊网络服务与 Hugging Face 的合作伙伴关系的一部分,我们很高兴地宣布发布一款新的 Hugging Face 深度学习容器 (DLC),用于对大型语言模型 (LLM) 进行推理这个新的 Hugging Face LLM DLC 是由…

Leave a Comment

使用Amazon SageMaker Canvas,利用来自Amazon Athena和AWS Lake Formation的Parquet数据构建机器学习模型

数据是机器学习(ML)算法的基础存储大量数据的最常见格式之一是Apache Parquet,因为其紧凑且高效的格式这意味着希望从数据仓库中的大量数据中提取见解的业务分析师必须经常使用[…]

Leave a Comment

使用DeepSpeed加速PyTorch,利用基于Intel Habana Gaudi的DL1 EC2实例训练大型语言模型

训练拥有数十亿个参数的大型语言模型(LLM)可能会具有挑战性除了设计模型架构外,研究人员还需要设置先进的分布式训练技术,如混合精度支持、梯度累积和检查点对于大型模型,训练设置更加具有挑战性,因为在单个…中可用的内存有限

Leave a Comment

探索生成式人工智能在对话体验中的应用:使用亚马逊Lex、Langchain和SageMaker Jumpstart进行介绍

在当今快节奏的世界中,客户期望企业提供快速高效的服务但当询问量超过了用于解决它们的人力资源时,提供优质客户服务可能会面临重大挑战然而,随着生成式人工智能(生成[…])的进步,企业可以在提供个性化和高效的客户服务的同时应对这一挑战

Leave a Comment

人工智能时代杂志发布了关于2023年人工智能趋势的开创性电子书

美国旧金山,6月7日 – 人工智能领域领先的出版物AI Time Journal,非常高兴地推出了最新的电子书《AI Trends 2023》该出版物汇集了36位杰出的行业专家的宝贵见解,提供了对最新进展、挑战和新兴趋势的广泛探讨… AI Time Journal推出关于2023年人工智能趋势的突破性电子书

Leave a Comment

使用机器学习解决代码审查评论

由亚历山大·弗瑞姆根 (Alexander Frömmgen),高级软件工程师莱拉·卡拉提扬 (Lera Kharatyan) 发布 代码更改审查是规模化软件开发过程中至关重要的一部分,占用了代码作者和代码审查人员相当数量的时间。作为这个过程的一部分,审查人员检查建议的代码,并通过自然语言编写的评论要求作者进行代码更改。在 Google,我们每年看到数百万个审查人员的评论,作者需要平均 ~60 分钟的积极引导时间,在发送更改进行审查和最终提交更改之间。在我们的测量中,代码作者必须做出的为了应对审查人员的评论所需的积极工作时间几乎是随着评论数量线性增长的。然而,通过机器学习 (ML),我们有机会自动化和简化代码审查过程,例如,根据评论的文本提出代码更改。 今天,我们描述了我们在 Google 的日常开发工作流程中应用最新的大型序列模型 (使用 DIDACT 方法论) 的应用,自动解决代码审查评论。截至今天,Google 的代码更改作者通过应用 ML 建议的编辑,处理了大量的审查人员评论。我们预计,在 Google 的规模下,这将每年减少数十万小时的代码审查时间。非请求的非常积极的反馈表明,ML 建议的代码编辑的影响增加了 Google…

Leave a Comment

大规模数据的差分隐私聚类

由Google研究的Graph Mining团队的Vincent Cohen-Addad和Alessandro Epasto发布 聚类是无监督机器学习(ML)中的一个核心问题,广泛应用于行业和学术研究的多个领域。在其核心,聚类包括以下问题:给定一组数据元素,目标是将数据元素分成组,使得相似的对象在同一组中,而不相似的对象在不同的组中。60多年来,这个问题在数学、计算机科学、运筹学和统计学中以其无数的变体进行了研究。聚类的两种常见形式是度量聚类,其中元素是度量空间中的点,例如k-means问题,和图聚类,其中元素是图的节点,其边表示它们之间的相似性。 在k-means聚类问题中,我们给出了度量空间中的一组点,目标是识别k个代表点,称为中心(在此处表示为三角形),以最小化每个点到其最近中心的平方距离之和。来源,版权:CC-BY-SA-4.0 尽管算法设计方面的聚类文献很广泛,但很少有实际工作专注于在聚类过程中严格保护用户的隐私。当聚类应用于个人数据(例如用户所做的查询)时,有必要考虑在实际系统中使用聚类解决方案的隐私影响以及输出解决方案揭示有关输入数据的信息量。 为了在严格意义上保护隐私,一个解决方案是开发差分隐私(DP)聚类算法。这些算法确保聚类的输出不会揭示有关特定数据元素(例如,用户是否进行了给定查询)或有关输入图中的敏感数据(例如,社交网络中的关系)的私有信息。鉴于隐私保护在无监督机器学习中的重要性,在最近几年中,Google一直在研究不同ially private metric或graph clustering和各种情境下的差分隐私,例如热图或设计DP算法的工具。 今天我们很高兴地宣布两个重要的更新:1)一种新的差分隐私层次图聚类算法,我们将在ICML 2023上展示,2)可扩展的差分隐私k-means算法代码的开源发布。此代码使用分布式计算将差分隐私k-means聚类应用于大规模数据集。在这里,我们还将讨论我们在健康领域最近推出的用于向公共卫生当局提供信息的聚类技术的工作。 差分隐私层次聚类 层次聚类是一种流行的聚类方法,它包括将数据集递归地分成越来越细的群集。生物学中著名的层次聚类的例子是分类系统,其中地球上的所有生命都被分成越来越细的组(例如,王国、门、纲、目等)。层次聚类算法接收表示实体相似性的图作为输入,并以无监督的方式学习这种递归分区。然而,在我们的研究中,尚不知道任何算法可以计算带有边缘隐私的图的层次聚类,即保护顶点交互的隐私。 在“带有可证明逼近保证的差分隐私层次聚类”中,我们考虑在DP上下文中可以对问题进行多好逼近,并对隐私保证建立了坚实的上限和下限。我们设计了一种多项式运行时间的逼近算法(其类型的第一个算法),它具有随节点数n(约为n 2.5 )缩放的附加误差和O(log ½ n)的乘法逼近,其中乘法误差与非私有设置相同。我们进一步为任何私有算法提供了一个新的附加误差下限(约为n 2 ),并提供了一个与此下限相匹配的指数时间算法。此外,我们的论文包括一种超越最坏情况的分析,重点关注分层随机块模型,这是一种展现自然分层聚类结构的标准随机图模型,并引入了一种私有算法,其返回与最优解相比可以忽略不计的附加成本,这再次匹配非私有状态下的最先进方法。我们相信这项工作扩展了图数据上隐私保护算法的理解,并将使这些设置中的新应用成为可能。 大规模差分隐私聚类 我们现在转换话题,讨论我们在度量空间聚类方面的工作。在差分隐私度量聚类的先前工作中,大多数专注于提高算法在 k-means…

Leave a Comment

大型序列模型用于软件开发活动

由Google研究科学家Petros Maniatis和Daniel Tarlow发布 软件并非一步到位创造出来的,它是逐步改进的,一点一点地改进——编辑、运行单元测试、修复构建错误、处理代码审查、再次编辑、满足linter的要求,修复更多错误——直到最终变得足够好并合并到代码仓库中。软件工程不是孤立的过程,而是人类开发人员、代码审查人员、错误报告人员、软件架构师和工具(如编译器、单元测试、linter和静态分析器)之间的对话。 今天,我们介绍DIDACT(​​Dynamic Integrated Developer ACTivity),这是一种用于培训大型机器学习(ML)模型进行软件开发的方法。 DIDACT的新颖之处在于,它使用软件开发过程作为模型的训练数据源,而不仅仅是该过程的精细终态——完成的代码。通过向模型展示开发人员在工作时看到的上下文以及他们采取的行动,模型学习软件开发的动态,更符合开发人员花费时间的方式。我们利用Google软件开发的工具来扩大开发人员活动数据的数量和多样性,超越了以前的工作。结果在两个方面非常有前途:对专业软件开发人员的有用性,以及作为植入ML模型的一般软件开发技能的潜在基础。 DIDACT是一个多任务模型,训练开发活动,包括编辑、调试、修复和代码审查。 我们构建并内部部署了三个DIDACT工具,评论解决(我们最近宣布)、构建修复和提示预测,每个工具都集成在开发工作流程的不同阶段。所有这三个工具都得到了数千名内部开发人员的热烈反馈。我们认为这是有用性的终极测试:专业开发人员是否利用这些工具来提高生产力? 最令人兴奋的是,我们展示了DIDACT是通向一种通用开发者辅助代理的第一步。我们展示了经过训练的模型可以通过提示开发人员活动的前缀以各种令人惊讶的方式使用,并通过链接多个预测来展开更长的活动轨迹。我们相信DIDACT为开发能够在软件开发过程中通用辅助的代理铺平了一个有前途的道路。 软件工程过程中的数据宝库 Google的软件工程工具链将与代码相关的每个操作存储为工具和开发人员之间交互的日志,并已经这样做了几十年。原则上,人们可以使用这个记录来详细重现“软件工程视频”中Google代码库的关键情节,一步一步地——一次代码编辑、编译、评论、变量重命名等等。 Google的代码位于monorepo中,一个包含所有工具和系统的代码单一存储库。软件开发人员通常会在由名为“Clients in the Cloud(CitC)”的系统管理的本地写时复制工作区中尝试代码更改。当开发人员准备将一组代码更改打包到特定目的(例如修复错误)时,它们会在Critique中创建一个变更列表(CL),这是Google的代码审查系统。与其他类型的代码审查系统一样,开发人员与同行审查人员就功能和样式进行对话。随着对话的进行,开发人员编辑他们的CL以解决审查人员的意见。最终,审查人员宣布“LGTM!”(“看起来不错”),CL被合并到代码库中。 当然,除了与代码审查人员的对话之外,开发人员还与其他大量软件工程工具进行“对话”,例如编译器、测试框架、linter、静态分析器、fuzzer等。 开发软件所涉及到的复杂活动的插图:开发人员的小动作,与代码审查人员的互动以及使用编译器等工具。 软件工程的多任务模型 DIDACT利用工程师和工具之间的交互来支持ML模型,从而协助Google开发人员在追求其软件工程任务时,建议或增强开发人员在上下文中采取的行动。为此,我们定义了许多有关单个开发人员活动的任务:修复破碎的构建、预测代码审查评论、处理代码审查评论、重命名变量、编辑文件等。我们对每个活动使用一个共同的形式化:它需要一些状态(代码文件),一些意图(特定于活动的注释,例如代码审查评论或编译器错误),并产生一个操作(执行任务所需的操作)。这个操作就像一个小型编程语言,可以扩展到新添加的活动中。它涵盖了编辑、添加注释、重命名变量、标记带有错误的代码等内容。我们将这种语言称为DevScript。 DIDACT模型受到任务、代码片段以及与该任务相关的注释的促进,并产生开发操作(例如编辑或评论)。 这种状态-意图-操作形式使我们能够以一般方式捕获许多不同的任务。更重要的是,DevScript是一种简洁的表达复杂操作的方式,无需输出整个状态(原始代码),因为它在动作发生之后就会变得如此;这使得模型更加高效和可解释。例如,重命名可能会触及文件中的数十个地方,但是模型可以预测单个重命名操作。 ML同行程序员…

Leave a Comment

AVFormer:为零-shot AV-ASR注入视觉

由Google Research的研究科学家Arsha Nagrani和Paul Hongsuck Seo发布 自动语音识别(ASR)是一项成熟的技术,广泛用于各种应用,例如电话会议、流媒体视频转录和语音命令。尽管该技术的挑战集中在嘈杂的音频输入方面,但多模式视频(例如电视,在线编辑视频)中的视觉流可以为提高ASR系统的鲁棒性提供有力的线索,这就是所谓的视听ASR(AV-ASR)。 尽管唇部运动可以为语音识别提供强烈信号并且是AV-ASR最常关注的领域,但是在野外视频中口部通常不直接可见(例如由于自我中心的视角,面部覆盖和低分辨率),因此,一种新兴的研究领域是不受限制的AV-ASR(例如AVATAR),它调查整个视觉框架的贡献,而不仅仅是口部区域。 然而,为训练AV-ASR模型构建视听数据集是具有挑战性的。虽然已经从在线教学视频中创建了How2和VisSpeech等数据集,但它们的规模很小。相比之下,模型本身通常是大型的,包含视觉和音频编码器,因此它们往往会在这些小型数据集上过度拟合。尽管如此,最近发布了许多经过大规模培训的仅音频模型,这些模型通过从类似于LibriLight和LibriSpeech的有声书籍中获得的大规模音频数据进行大规模培训而被大量优化。这些模型包含数十亿个参数,易于获得,并在跨域方面显示出强大的泛化能力。 考虑到以上挑战,“AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot AV-ASR”中,我们提出了一种简单的方法,可在现有的大型仅音频模型中注入视觉信息,同时进行轻量级域适应。AVFormer使用轻量级可训练的适配器将视觉嵌入注入到冻结的ASR模型中(类似于Flamingo将视觉信息注入大型语言模型以进行视觉文本任务),这些适配器可以在少量弱标记的视频数据上进行训练,最小化额外的训练时间和参数。我们还介绍了一个简单的培训课程方案,我们证明它对于使模型有效地联合处理音频和视觉信息至关重要。由此产生的AVFormer模型在三个不同的AV-ASR基准测试(How2,VisSpeech和Ego4D)上实现了最先进的零样本性能,同时关键保持传统仅音频语音识别基准测试的良好性能(即,LibriSpeech)。 无限制的视听语音识别。我们通过轻量级模块将视觉注入冻结的语音模型(BEST-RQ,灰色)中,以实现零样本视听ASR,创建一个参数和数据效率模型,称为AVFormer(蓝色)。当音频信号嘈杂时,视觉背景可以为稳健的语音识别提供有帮助的线索(视觉面包帮助将“丁香”这个音频错误更正为“面包”在生成的转录文本中)。 使用轻量级模块注入视觉信息 我们的目标是在现有的仅音频ASR模型中添加视觉理解能力,同时保持其对各种领域(AV和仅音频领域)的泛化性能。 为此,我们使用以下两个组件增强现有的最先进的ASR模型(Best-RQ):(i)线性视觉投影仪和(ii)轻量级适配器。前者将视觉特征投射到音频标记嵌入空间中。此过程允许模型正确连接分别预训练的视觉特征和音频输入标记表示。然后,后者最小化修改模型以增加对来自视频的多模态输入的理解。然后,我们使用HowTo100M数据集中未标记的Web视频以及ASR模型的输出作为伪地面真实性对这些附加模块进行培训,同时保持Best-RQ模型的冻结状态。这样的轻量级模块使数据效率和性能强的泛化成为可能。 我们在零-shot的情况下对AV-ASR基准模型进行了扩展模型的评估,其中该模型从未在手动标注的AV-ASR数据集上进行过训练。 用于视觉注入的课程学习 在初始评估之后,我们经过实验证明,采用单一的联合训练轮次,模型难以同时学习适配器和视觉投影器。为了缓解这个问题,我们引入了一种分阶段课程学习策略,将这两个因素——领域自适应和视觉特征集成——解耦,并按顺序训练网络。在第一阶段,适配器参数在不提供视觉令牌的情况下进行优化。一旦适配器训练完成,我们加入视觉令牌,并在第二阶段中仅训练可视化投影层,同时保持训练好的适配器冻结。…

Leave a Comment

视觉标题:使用大型语言模型来增强视频会议,并提供动态视觉效果

Google增强现实的研究科学家Ruofei Du和高级研究科学家Alex Olwal在博客中指出,最近视频会议的进步极大地改进了远程视频通信,通过实时字幕和降噪等功能。然而,在各种情况下,动态视觉增强将有助于更好地传达复杂和微妙的信息。例如,在讨论在日本餐厅点什么菜时,你的朋友可以分享视觉图像,帮助你更自信地点“Sukiyaki”。或者当谈论你最近的旧金山家庭旅行时,你可能想展示你个人相册中的照片。 在ACM CHI 2023上介绍了我们的“视觉字幕:通过即时视觉增强语言交流”系统,我们引入了一个系统,使用口头提示来增强同步视频通信的实时视觉效果。我们使用我们为此目的策划的数据集,对大型语言模型进行了微调,以在开放词汇对话中主动建议相关的视觉效果。作为ARChat项目的一部分,我们开源了Visual Captions,该项目旨在快速原型开发具有实时转录的增强通信。 Visual Captions通过实时视觉效果促进口头交流。该系统甚至对实时语音转文字记录中经常出现的典型错误也非常稳健。例如,在上下文之外,转录模型误解了“pier”一词,将其误认为是“pair”,但Visual Captions仍建议使用Santa Monica Pier的图像。 通过动态视觉增强语言交流的设计空间 我们邀请了10个内部参与者,他们各自具有不同的技术和非技术背景,包括软件工程师、研究人员、UX设计师、视觉艺术家、学生等等,讨论他们对潜在实时视觉增强服务的特定需求和愿望。在两个会议中,我们介绍了设想系统的低保真原型,随后展示了现有文本到图像系统的视频演示。这些讨论形成了一个视觉增强实时对话的设计空间,如下图所示,标记为D1到D8。 视觉增强可以与对话同步或异步(D1:时间),可以用于表达和理解语音内容(D2:主题),可以使用各种不同的视觉内容、视觉类型和视觉来源进行应用(D3:视觉)。这种视觉增强可能会因会议规模(D4:规模)和会议是否处于同地或远程设置(D5:空间)而有所不同。这些因素还影响视觉效果是应该私下显示、在参与者之间共享还是公开对所有人显示(D6:隐私)。参与者还确定了他们在进行对话时想与系统交互的不同方式(D7:启动)。例如,人们提出了不同程度的“主动性”,这表示用户希望模型采取主动的程度。最后,参与者设想了不同的交互方式,例如使用语音或手势进行输入。(D8:交互)。 通过动态视觉增强语言交流的设计空间。 在初步反馈的基础上,我们设计了Visual Captions,专注于生成语义相关的视觉内容、类型和来源的同步视觉。虽然参与者在这些初步的探索性会话中参与的是一对一的远程对话,但在野外部署Visual Captions通常会是一对多(例如,一个人向观众进行演示)和多对多的情况(例如,多人在会议中进行讨论)。 因为最适合补充对话的视觉内容强烈依赖于讨论的上下文,我们需要一个特定于此用途的训练集。因此,我们收集了1595个语言(1)、视觉内容(2)、类型(3)和来源(4)的四元组数据集,涵盖了各种情境,包括日常对话、讲座和旅游指南。例如,“我很想看看它!”对应于“面孔微笑”的视觉内容,一个“emoji”的视觉类型和“公共搜索”的视觉来源。 “她有没有告诉你我们去墨西哥的旅行?”对应于“墨西哥旅行的一张照片”的视觉内容,一个“照片”的视觉类型和“个人相册”的视觉来源。我们为研究社区公开发布了该VC1.5K数据集。 视觉意图预测模型 为了预测哪些视觉内容可以补充对话,我们使用VC1.5K数据集基于大型语言模型训练了一个视觉意图预测模型。为了进行训练,我们将每个视觉意图解析成“ <Visual Type>…

Leave a Comment