Press "Enter" to skip to content

37 search results for "ASR"

亚马逊转录宣布推出一款新的基于语音模型的ASR系统,支持扩展至100多种语言

亚马逊转录是一项完全托管的自动语音识别(ASR)服务,可帮助您将语音转换为文本,并轻松地将其添加到您的应用程序中今天,我们很高兴地宣布推出了一种下一代多十亿参数语音基础模型驱动的系统,将自动语音识别扩展到超过100种语言在本文中,我们将讨论一些相关内容…

Leave a Comment

使用🤗 Transformers对多语言ASR进行微调的Fine-Tune Whisper

在本博客中,我们使用Hugging Face 🤗 Transformers为任何多语种ASR数据集提供了Whisper微调的逐步指南。本博客提供了对Whisper模型、Common Voice数据集以及微调背后原理的深入解释,并附带了执行数据准备和微调步骤的代码单元格。如需更简洁版本的笔记本,其中包含更少的解释但包含所有代码,请参阅附带的Google Colab。 目录 介绍 在Google Colab中微调Whisper 准备环境 加载数据集 准备特征提取器、标记器和数据 训练和评估 构建演示 结束语 介绍 Whisper是由Alec Radford等人于2022年9月在OpenAI发布的用于自动语音识别(ASR)的预训练模型。与其许多前辈模型(如Wav2Vec 2.0)不同,Whisper在大量的标记音频转录数据上进行了预训练,准确地说是680,000小时。这比用于训练Wav2Vec 2.0的无标记音频数据(60,000小时)多一个数量级。此外,这个预训练数据中的117,000小时是多语种ASR数据。这导致可以应用于96种以上语言的检查点,其中许多语言被认为是低资源语言。 这个大量的标记数据使得Whisper能够直接在监督任务(语音识别)上进行预训练,从标记的音频转录预训练数据中学习从语音到文本的映射。因此,Whisper只需要很少的额外微调就能够产生高性能的ASR模型。这与Wav2Vec 2.0形成对比,后者在无监督任务(遮蔽预测)上进行预训练。在这种情况下,模型被训练来学习从无标记音频数据到隐藏状态的中间映射。虽然无监督预训练可以生成高质量的语音表示,但它并不学习从语音到文本的映射。这个映射只有在微调过程中学习,因此需要更多的微调才能产生有竞争力的性能。 当扩展到680,000小时的标记预训练数据时,Whisper模型展示了很强的泛化能力,适用于许多数据集和领域。预训练检查点在LibriSpeech ASR的测试-清洁子集上实现了与最先进的ASR系统竞争的结果,字错误率(WER)接近3%,并在TED-LIUM上取得了4.7%的WER新记录(参见Whisper论文的表8)。Whisper在预训练过程中获得的广泛多语种ASR知识可以用于其他低资源语言;通过微调,预训练检查点可以针对特定数据集和语言进行调整,进一步改善这些结果。…

Leave a Comment

AVFormer:为零-shot AV-ASR注入视觉

由Google Research的研究科学家Arsha Nagrani和Paul Hongsuck Seo发布 自动语音识别(ASR)是一项成熟的技术,广泛用于各种应用,例如电话会议、流媒体视频转录和语音命令。尽管该技术的挑战集中在嘈杂的音频输入方面,但多模式视频(例如电视,在线编辑视频)中的视觉流可以为提高ASR系统的鲁棒性提供有力的线索,这就是所谓的视听ASR(AV-ASR)。 尽管唇部运动可以为语音识别提供强烈信号并且是AV-ASR最常关注的领域,但是在野外视频中口部通常不直接可见(例如由于自我中心的视角,面部覆盖和低分辨率),因此,一种新兴的研究领域是不受限制的AV-ASR(例如AVATAR),它调查整个视觉框架的贡献,而不仅仅是口部区域。 然而,为训练AV-ASR模型构建视听数据集是具有挑战性的。虽然已经从在线教学视频中创建了How2和VisSpeech等数据集,但它们的规模很小。相比之下,模型本身通常是大型的,包含视觉和音频编码器,因此它们往往会在这些小型数据集上过度拟合。尽管如此,最近发布了许多经过大规模培训的仅音频模型,这些模型通过从类似于LibriLight和LibriSpeech的有声书籍中获得的大规模音频数据进行大规模培训而被大量优化。这些模型包含数十亿个参数,易于获得,并在跨域方面显示出强大的泛化能力。 考虑到以上挑战,“AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot AV-ASR”中,我们提出了一种简单的方法,可在现有的大型仅音频模型中注入视觉信息,同时进行轻量级域适应。AVFormer使用轻量级可训练的适配器将视觉嵌入注入到冻结的ASR模型中(类似于Flamingo将视觉信息注入大型语言模型以进行视觉文本任务),这些适配器可以在少量弱标记的视频数据上进行训练,最小化额外的训练时间和参数。我们还介绍了一个简单的培训课程方案,我们证明它对于使模型有效地联合处理音频和视觉信息至关重要。由此产生的AVFormer模型在三个不同的AV-ASR基准测试(How2,VisSpeech和Ego4D)上实现了最先进的零样本性能,同时关键保持传统仅音频语音识别基准测试的良好性能(即,LibriSpeech)。 无限制的视听语音识别。我们通过轻量级模块将视觉注入冻结的语音模型(BEST-RQ,灰色)中,以实现零样本视听ASR,创建一个参数和数据效率模型,称为AVFormer(蓝色)。当音频信号嘈杂时,视觉背景可以为稳健的语音识别提供有帮助的线索(视觉面包帮助将“丁香”这个音频错误更正为“面包”在生成的转录文本中)。 使用轻量级模块注入视觉信息 我们的目标是在现有的仅音频ASR模型中添加视觉理解能力,同时保持其对各种领域(AV和仅音频领域)的泛化性能。 为此,我们使用以下两个组件增强现有的最先进的ASR模型(Best-RQ):(i)线性视觉投影仪和(ii)轻量级适配器。前者将视觉特征投射到音频标记嵌入空间中。此过程允许模型正确连接分别预训练的视觉特征和音频输入标记表示。然后,后者最小化修改模型以增加对来自视频的多模态输入的理解。然后,我们使用HowTo100M数据集中未标记的Web视频以及ASR模型的输出作为伪地面真实性对这些附加模块进行培训,同时保持Best-RQ模型的冻结状态。这样的轻量级模块使数据效率和性能强的泛化成为可能。 我们在零-shot的情况下对AV-ASR基准模型进行了扩展模型的评估,其中该模型从未在手动标注的AV-ASR数据集上进行过训练。 用于视觉注入的课程学习 在初始评估之后,我们经过实验证明,采用单一的联合训练轮次,模型难以同时学习适配器和视觉投影器。为了缓解这个问题,我们引入了一种分阶段课程学习策略,将这两个因素——领域自适应和视觉特征集成——解耦,并按顺序训练网络。在第一阶段,适配器参数在不提供视觉令牌的情况下进行优化。一旦适配器训练完成,我们加入视觉令牌,并在第二阶段中仅训练可视化投影层,同时保持训练好的适配器冻结。…

Leave a Comment

如何使用开源工具像专业人士一样克隆声音和视频口型同步

介绍 AI语音克隆风靡社交媒体。它开启了创造性的无限可能。你肯定在社交媒体上看过名人梗或AI语音配音。你想知道它是如何完成的吗?当然,许多平台提供像Eleven Labs这样的API,但我们能否免费使用开源软件来实现呢?答案是肯定的。开源界有TTS模型和嘴唇同步工具,用于实现语音合成。因此,在本文中,我们将探索用于语音克隆和嘴唇同步的开源工具和模型。 学习目标 探索用于AI语音克隆和嘴唇同步的开源工具。 使用FFmpeg和Whisper转录视频。 使用Coqui-AI的xTTS模型进行语音克隆。 使用Wav2Lip进行视频嘴唇同步。 探索该技术的实际用例。 本文作为 数据科学博客马拉松 中的一部分发表。 开源栈 正如你已经了解的,我们将使用OpenAI的 Whisper,FFmpeg,Coqui-ai的xTTS模型和Wav2lip作为我们的技术栈。但在深入代码之前,让我们简要讨论一下这些工具。同时感谢这些项目的作者。 Whisper:Whisper是OpenAI的自动语音识别(ASR)模型。它是一个使用超过650k小时的各种音频数据和相应转录进行训练的编码器-解码器变压器模型。这使其在多语言转录方面非常强大。 编码器接收音频段的对数梅尔频谱图,每个编码器块使用自注意力机制来理解音频信号的不同部分。解码器然后接收编码器的隐藏状态信息和学习的位置编码。解码器使用自注意力机制和跨注意力机制预测下一个标记。最终,它输出代表识别文本的一系列标记。有关Whisper的更多信息,请参考官方存储库。 Coqui TTS:TTS是Coqui-ai的开源库。它包含多个文本到语音模型。它具有端到端模型,如Bark、Tortoise和xTTS,频谱图模型如Glow-TTS、FastSpeech等,以及声码器如Hifi-GAN、MelGAN等。此外,它提供了一个统一的API用于推断、微调和训练文本到语音模型。在这个项目中,我们将使用xTTS,一个端到端的多语言语音克隆模型。它支持16种语言,包括英语、日语、印地语、普通话等。有关TTS的更多信息,请参考官方TTS存储库。 Wav2Lip:Wav2Lip是一个用于“A Lip Sync Expert Is All You Need for…

Leave a Comment

使用亚马逊床岩和亚马逊转录,利用生成式人工智能生成记录摘要

会议记录是协作的重要组成部分,但往往容易被忽略在主持讨论、仔细倾听和记录笔记之间,关键信息很容易溜走而未被记录下来即使记录了笔记,它们可能会杂乱无章或难以辨认,使其变得毫无用处在本文中,我们将探讨如何使用亚马逊[…]

Leave a Comment

引入语音人工智能到您的企业时需要考虑的5个因素

想象一个世界,在那里琐碎的任务占据我们工作时间的60-70%,消失得无影无踪根据麦肯锡的一份报告,由于其对自然语言的不断理解,生成式人工智能很快有可能将这个梦想变为现实难怪越来越多的企业,甚至是传统行业中的企业,……

Leave a Comment

搭载FM技术能力的AWS AI服务增强版 (Dāzài FM jìshùnénglì de AWS AI fúwù zēngqiáng bǎn)

人工智能(AI)继续改变我们的业务方式并为客户提供服务AWS提供一系列预训练的AI服务,为您的应用程序提供即用智能在这篇文章中,我们将探讨新的AI服务能力以及如何使用基础模型(FMs)进行增强我们将重点关注以下重大更新[…]

Leave a Comment

Amir Haramaty, aiOla的CEO兼联合创始人-访谈系列

Amir Haramaty 是 aiOla 的首席执行官兼联合创始人,aiOla 是一个旨在使语音可行,并以完全准确的方式优化特定行业流程的平台我们拥有的专利技术是多语言的,可以识别行话、缩写和首字母缩略词,并且即使在嘈杂的环境中也是无误的你的第一家初创公司是一家建造遥控器的公司[…]

Leave a Comment

NVIDIA研究人员推出了一种与当前CTC模型兼容的GPU加速加权有限状态转导器(WFST)波束搜索解码器

“` 在最近的时期,随着人工智能的极度流行,自动语音识别(ASR)领域取得了巨大的进步。它改变了语音激活技术和人机交互的面貌。有了ASR,机器可以将口语转化为文字,这对于各种应用来说都是必不可少的,包括虚拟助手和转录服务。研究人员一直在努力寻找底层算法,因为需要更精确、有效的ASR系统。 在NVIDIA最近的研究中,一队研究人员研究了连接时序分类(CTC)模型的缺点。在ASR流水线中,CTC模型已成为获得很高准确度的主要竞争者。这些模型尤其擅长处理语音语言的细微差别,因为它们非常擅长解释时序序列。尽管准确,但传统的基于CPU的波束搜索解码方法限制了CTC模型的性能。 波束搜索解码过程是准确转录口语的关键阶段。传统的贪婪搜索方法使用声学模型来确定每个时间步长最有可能选择的输出令牌。在处理上下文偏差和外部数据时,这种方法面临许多挑战。 为了克服所有这些挑战,该团队提出了基于GPU加速的加权有限状态传递器(WFST)波束搜索解码器作为解决方案。这种方法旨在与当前的CTC模型无缝集成。有了这个GPU加速的解码器,可以提高ASR流水线的性能,同时提高吞吐量、降低延迟,并支持即时合成以进行针对特定话语的单词增强等功能。建议的GPU加速解码器特别适用于流式推理,因为它具有更高的流水线吞吐量和更低的延迟。 该团队通过在离线和在线环境中测试解码器来评估这种方法。与最先进的CPU解码器相比,GPU加速解码器在离线场景中的吞吐量提高了多达七倍。在在线流媒体场景下,GPU加速解码器实现了超过八倍的较低延迟,同时保持相同或更高的词错误率。这些研究结果表明,使用建议的GPU加速WFST波束搜索解码器可以显著提高效率和准确性。 总而言之,这种方法绝对可以在克服CTC模型中基于CPU的波束搜索解码的性能限制方面发挥出色。建议的GPU加速解码器是CTC模型在离线和在线环境中最快的波束搜索解码器,因为它提高了吞吐量,降低了延迟,并支持高级功能。为了帮助解码器与基于Python的机器学习框架集成,该团队在GitHub上提供了预构建的基于DLPack的Python绑定。这项工作增加了建议解决方案对于使用ML框架的Python开发人员的可用性和可访问性。代码存储库可以在https://github.com/nvidia-riva/riva-asrlib-decoder访问,其中描述了CUDA WFST解码器作为C++和Python库。 “`

Leave a Comment

NVIDIA Grace Hopper超级芯片为全球研究中心、系统制造商和云服务提供商提供超过40个人工智能超级计算机的动力

数十台用于科学计算的新超级计算机即将上线,由NVIDIA的突破性GH200 Grace Hopper Superchip提供支持,可用于巨型AI和高性能计算。 NVIDIA GH200使科学家和研究人员能够通过加速运行数千亿字节数据的复杂AI和HPC应用程序来解决世界上最具挑战性的问题。 在超级计算展览SC23上,NVIDIA今天宣布该超级芯片即将应用于更多全球系统,包括来自戴尔科技、Eviden、惠普企业(HPE)、联想、QCT和Supermicro。 NVIDIA Grace CPU和Hopper GPU结合起来,使用NVIDIA NVLink-C2C互连技术,GH200还是全球科学超级计算中心的引擎。 总体而言,这些由GH200提供支持的中心将提供约200亿亿次的AI性能,推动科学创新。 HPE Cray超级计算机集成了NVIDIA Grace Hopper 在丹佛的展会上,HPE宣布将提供配备NVIDIA Grace Hopper Superchip的HPE Cray EX2500超级计算机。集成解决方案将采用四个GH200处理器,扩展至数以万计的Grace Hopper Superchip节点,为组织提供无与伦比的超级计算灵活性和更快的AI训练。这个配置也将成为HPE今天推出的生成式AI超级计算解决方案的一部分。…

Leave a Comment

使用OpenAI Whisper和Hugging Chat API进行视频摘要生成

介绍 正如建筑师路德维希·密斯·凡·德罗所说:“少即是多”,这就是摘要的意义。摘要是将大量的文本内容减少为简洁、相关的要点,迎合了当今快节奏的信息消费方式。在文本应用中,摘要有助于信息检索,支持决策制定。基于生成式人工智能(如OpenAI GPT-3模型)的集成,不仅可以从文本中提取关键要素,生成保留源内容本质的连贯摘要,而且有趣的是,生成式人工智能的能力也可以扩展到视频摘要。这涉及从视频中提取关键场景、对话和概念,创建内容的缩减表示。可以通过多种不同的方式实现视频摘要,包括生成简短摘要视频、执行视频内容分析、突出显示视频的关键部分或使用视频转录创建视频的文本摘要。 Open AI Whisper API利用自动语音识别技术将口语转换为书面文本,从而提高了文本摘要的准确性和效率。另一方面,Hugging Face Chat API提供了最先进的语言模型,如GPT-3。 学习目标 本文我们将学习以下内容: 学习视频摘要技术 了解视频摘要的应用 探索Open AI Whisper模型架构 学习使用Open AI Whisper和Hugging Chat API实现视频文本摘要 本文作为数据科学博客马拉松的一部分发表。 视频摘要技术 视频分析…

Leave a Comment

遇见LLaSM:一个端到端训练的大型多模态语音语言模型,具有跨模态对话能力,能够遵循语音和语言指令

语音比写作传递更多信息,因为它携带了语义和声音等语言信息。此外,与AI进行交流时,说话是一种更实用和有机的方式。因此,在创建通用助手时,遵循语音和语言的指导原则至关重要。然而,大多数大型语言模型只接受文本输入,限制了其潜力。尽管多模态视觉和语言模型在通用人工智能(AGI)方面取得了重大进展,但人类通过输入文本指令来输入任务仍然很繁琐。 级联范式方法使用自动语音识别(ASR)模型将语音输入转换为文本输入,然后模型可以利用该文本输入来处理任务。从语音到文本的模态转换仍然会导致信息消耗,并可能导入ASR系统错误。最近,具有处理和生成语音和文本的大型语言模型的语言语音多模态模型已能够理解和制作多模态信息。语音信号被分成不同的标记,并扩展到LLM的词汇中。从这个意义上说,LLM需要大量的多模态数据和强大的计算资源来重新训练。 本研究的来自LinkSoul.AI、北京大学和01.ai的作者建议LLaSM,这是一个具有跨模态对话能力的大型语音和语言模型,可以理解和遵守口头指令。他们使用训练有素的语音模态编码器和LLM,就像LLaVA一样,这使得LLaSM更加资源友好。他们专门使用Whisper作为音频编码器来整合语音信号。将大型语言模型的输入文本嵌入与使用模态适配器的语音嵌入进行匹配。为了创建交替的序列,将语音和文本嵌入组合在一起。然后将交替的序列馈送到LLM进行监督微调。 训练过程分为两个阶段。在初始阶段,他们使用公共ASR数据集进行模态适应预训练。只有模态适配器被训练以对齐语音和文本嵌入,LLM和语音编码器已被锁定。由于在这个阶段引入了模态适配器的一小部分参数,并且大部分模型参数仍需固定,因此不需要消耗大量资源。在第二步中,使用跨模态指令数据训练模型以处理多模态指令和分析跨模态交互。在进行跨模态教育时,语言模型和模态适配器的设置正在修改,而音频编码器则被冻结。 值得注意的是,目前很少有开源的语音-文本跨模态指令遵循数据集可用。因此,他们创建并发布了LLaSM-Audio-Instructions数据集。该数据集是通过精心选择GPT4-LLM、ShareGPT和WizardLM中的对话,并使用文本到语音技术创建大量的对话音频数据而生成的。据他们所知,这是最大的中英文语音-文本跨模态指令遵循数据集,包含19.9万个对话、8万个中文音频样本和42.8万个英文音频样本。 他们的研究贡献如下: • 他们创建了一个能够理解和执行语音-语言指令的语音-语言多模态模型,为人们与人工智能进行交流提供了更实用和有机的方式。 • 他们创建并发布了LLaSM-Audio-Instructions,这是一个结合了中文和英文语音和文本的大型跨模态指令遵循数据集。 • 可以在HuggingFace在线上查看演示,并在GitHub上获取代码。

Leave a Comment

Google在Interspeech 2023

由Google项目经理Catherine Armato发布 本周,第24届国际语音通信协会年会(INTERSPEECH 2023)在爱尔兰都柏林举行,代表着全球范围内关于口语理解和处理研究与技术的最重要会议之一。语音相关研究领域的专家们齐聚一堂,参加口头报告和海报展示,并在全球范围内建立合作。 我们很高兴成为INTERSPEECH 2023的白金赞助商,届时我们将展示超过20篇研究论文,并支持多个研讨会和特别会议。我们欢迎参会人员光临Google研究展位,与我们的研究人员见面,并参与问答和最新语音技术的演示,这些技术有助于改善数十亿用户的可访问性和便捷性。此外,我们鼓励线上参会人员访问我们在Topia上的虚拟展位,获取有关Google的研究和机会的最新信息。请访问@GoogleAI Twitter账户以了解Google展位的活动(例如演示和问答会议)。您还可以在下方了解更多关于Google在INTERSPEECH 2023上的研究(Google的关联单位以粗体显示)。 组织委员会 ISCA理事会,技术委员会主席:Bhuvana Ramabhadran 领域主席包括:语音和音频信号分析:Richard Rose;语音合成和口语生成:Rob Clark;特别领域:Tara Sainath 附属活动 VoxCeleb说话者识别挑战2023(VoxSRC-23)组织者包括:Arsha Nagrani ISCA语音合成研讨会(SSW12)演讲者包括:Rob Clark 主题演讲 – ISCA奖获得者 桥接语音科学与技术 –…

Leave a Comment

麻省理工学院的印度学生创造了一种无需声音的对话设备

在一项引人入胜的发展中,来自享有盛名的麻省理工学院(MIT)的一名学生推出了AlterEgo,一款创新的AI设备。AlterEgo允许用户与机器、AI助手、服务甚至其他人进行自然语言对话,而无需大声说出一句话。相反,用户可以在内心表达出话语,使沟通变得无缝和谨慎。AlterEgo由来自印度德里的聪明学生Arnav Kapur开发,利用内部语音表达时的外围神经信号,为人机交互的未来提供了迷人的一瞥。 还可阅读:可以将脑活动转化为文本的AI模型 AlterEgo:不言而喻的发明 AlterEgo代表了一种革命性的通信技术。该设备在用户进行内心表达时捕获内部语音表达器的神经信号。这使得用户可以传输和接收信息,而无需进行任何可观察的动作或外部动作。 还可阅读:语音降噪器:一种语音增强深度学习模型 AI拥抱隐私和谨慎 与传统的通信方法不同,AlterEgo通过消除口头语言或可见动作的需要来尊重用户的隐私。使用该设备,用户可以毫不费力地进行交流,而不会干扰周围环境或与环境脱节,使得沟通更加谨慎和无缝。 还可阅读:联合国教科文组织对AI芯片植入提出隐私担忧 非语言对话的力量 一段展示Kapur在接受采访时佩戴AlterEgo的病毒视频让观众惊叹不已。这位MIT的学生在不说一句话的情况下回答问题,展示了该设备的令人印象深刻的功能,引起了赞叹和兴奋。采访者惊叹地说:“你的头脑里有整个互联网。” 帮助有语言障碍的人 AlterEgo在帮助肌萎缩性侧索硬化症(ALS)和多发性硬化症(MS)等患有语言障碍的人方面具有巨大潜力。通过提供一种替代性的交流方式,该设备为那些在口头表达方面面临挑战的人提供了生命线,为独立和连接性带来了新的可能性。 还可阅读:针对语音障碍的ASR模型的设备个性化 为人机一体化铺平道路 除了支持有语言障碍的个体外,AlterEgo还展望了一个人与计算机和谐交织的未来。通过将计算、互联网和人工智能无缝地整合到日常生活中作为“第二个自我”,该设备增强了人类的认知和能力,承诺一个技术将我们的本能能力扩展的世界。 还可阅读:人机交互(HCI)入门及示例 我们的观点 麻省理工学院学生Arnav Kapur的AlterEgo的发明标志着通信和人机交互领域的一个重要里程碑。通过在内心交流和与机器和其他人轻松交流的能力,该设备为隐私、便利和赋权提供了无限的可能性。AlterEgo通过专注于支持有语言障碍的个体并设想一个无缝的人机一体化的未来,为一个变革性的未来铺平了道路,在这个未来中,技术成为我们生活中固有部分的日益重要。当世界庆祝这一聪明的创造时,我们迫切期待AlterEgo重塑我们所知的通信的那一天。

Leave a Comment

新加坡国立大学(NTU)的研究人员推出了ResShift:一种新的上采样模型,它利用残差位移技术,相比其他方法更快地实现图像超分辨率

低级视觉中的一个基本问题是图像超分辨率(SR),其目标是从低分辨率(LR)图像恢复高分辨率(HR)图像。由于现实环境中降级模型的复杂性和不可知性,这个问题需要解决。扩散模型是一种最近开发的生成模型,在创建图像方面取得了非凡的成功。它还在解决一些下游低级视觉问题方面显示出了显著的潜力,如图像编辑、图像修补和图像上色。此外,研究人员仍在努力确定扩散模型在困难且耗时的SR任务中的表现如何。 一个典型的方法是从头开始,将LR图像引入当前扩散模型(如DDPM)的输入后,使用SR的训练数据重新训练模型。另一种常见方法是在生成所需的HR图像之前,修改无条件预训练扩散模型的反向路径。不幸的是,这两种算法都继承了支撑DDPM的马尔可夫链,可能在推理中效率低下,有时需要几百甚至几千个采样步骤。尽管已经提出了几种加速方法来压缩推理中的采样阶段,但这些策略通常会导致性能显著降低和结果过于平滑。 图1比较了近年来包括BSRGAN、RealESRGAN、SwinIR、DASR和LDM在内的最新技术的质量。对于LDM和他们的方法,他们使用公式“LDM(或我们的)-A”来表示可视化的采样步骤数量,其中“A”是总的采样步骤数。请放大以获得更清晰的查看。 必须创建一种新颖的用于SR的扩散模型,以实现效率和性能的统一,而不会牺牲其中任何一项。让我们回顾一下用于图像生成的扩散模型。在正向过程中,通过许多步骤在观测数据上逐渐构建马尔可夫链,将其转化为预先指定的先验分布,通常是传统的高斯分布。然后,可以通过从先验分布中采样噪声图像并将其输入到马尔可夫链的反向路径中来生成图像。尽管高斯先验对于图像生成是一个不错的选择,但对于SR来说可能不是最佳选择,因为LR图像已经可用。 根据他们在这项研究中的论证,用于SR的适当扩散模型应该以基于LR图像的先验分布为基础,从而实现从LR图像到HR图像的迭代恢复,而不是基于高斯白噪声。这样的设计还可以减少采样所需的扩散步骤数量,提高推理的效率。南洋理工大学的研究人员提出了一种有效的扩散模型,它使用较短的马尔可夫链在HR图像和其等效的LR图像之间进行切换。马尔可夫链的初始状态近似于HR图像的分布,而其结束状态近似于LR图像的分布。 他们精心设计了一个过渡核,逐步调整它们之间的残差,以实现这一目标。残差信息可以在多个阶段中快速传递,使该技术比当前基于扩散的SR方法更加高效。此外,他们的体系结构使得可以以清晰、分析的方式表达证据的下限,简化训练优化目标的归纳过程。他们基于这个构建的扩散核心创建了一个高度灵活的噪声调度,调节残差的移动速率和每个步骤中的噪声水平。 通过调整其超参数,该调度方案可以在检索结果的保真度和真实性之间进行权衡。简而言之,以下是本研究的重要贡献: • 他们为SR提供了一种有效的扩散模型,通过在推理过程中移动两者之间的残差,允许从不理想的LR图像到期望的HR图像的迭代采样过程。广泛的研究表明,他们的方法在效率方面具有优势,只需要15个简单步骤即可获得理想的结果,超过或至少与现有的基于扩散的SR技术相等,后者需要一个冗长的采样过程。图1显示了他们的检索结果与现有技术的对比。 • 对于建议的扩散模型,他们开发了一个高度可变的噪声调度,可以更准确地控制过渡过程中的残差和噪声水平的变化。

Leave a Comment

使用亚马逊转录有害语言检测标记口语对话中的有害语言

网络社交活动的增加,如社交网络或在线游戏,往往存在敌对或侵略性行为,可能导致令人讨厌的仇恨言论、网络欺凌或骚扰的行为例如,许多在线游戏社区提供语音聊天功能,以促进用户之间的交流尽管语音聊天通常支持友好的交流,但有时也会出现不当的言辞和攻击性行为,使某些用户感到不安或受到伤害

Leave a Comment

Meta AI和剑桥大学的研究人员研究了如何利用大型语言模型(LLMs)加强语音识别能力

大型语言模型是新的趋势,得益于著名的ChatGPT的引入。这个聊天机器人由OpenAI开发,能够回答问题、对长段落的文本数据进行摘要、完成代码片段、将文本翻译成不同的语言等等。大型语言模型具有模仿人类的能力,基于人工智能的子领域,包括自然语言处理、自然语言理解、自然语言生成、计算机视觉等等。 在没有明确监督的情况下,大型语言模型通过预测大量文本数据中的下一个单词进行训练,从而在其神经网络的限制内开发了对外部世界的大量知识编码能力,使其在各种下游任务中非常有用。尽管大型语言模型在不同领域展现出了出色的性能,但最近的研究将一个小型音频编码器纳入模型中,通过启用语音识别进一步扩展了大型语言模型的能力。 该过程直接将一系列音频嵌入,如音频数据表示,融入已有的文本标记嵌入中。这使得大型语言模型能够像文本等价物一样自动执行语音识别(ASR)任务,因为它具有集成的表示。它还可以将口头交流翻译成打印文本。团队表示,仅具有解码器的大型语言模型可以执行多语种语音识别,并在训练时超过监督式单语训练基线。音频编码器模型的大小和帧速率、LLM参数的低秩适应、文本标记掩蔽以及所使用的大型语言模型类型是研究考察以提高识别准确性的几个变量之一。 通过分析音频编码器的输出,团队证明了音频嵌入与相应的文本标记准确匹配,展示了音频和文本信息的有效融合。为了评估这种策略的有效性,团队使用了Multilingual LibriSpeech(MLS)数据集来衡量其效果。开源的LLaMA-7B大型语言模型采用了一种专门用于音频处理的神经网络——conformer编码器。结果表明,这种调整使LLM在语音识别任务上的表现比单语基线提高了18%。主要以英文文本进行训练的LLaMA-7B在多语种语音识别方面表现出色。 除了主要实验外,该研究还对增强型LLM的性能的其他方面进行了调查。为了确定在LLM被冻结训练时是否能够保留其初始能力,研究人员进行了剔除试验。这意味着在ASR系统进行训练时不改变LLM的参数,并且结果表明,即使在LLM被冻结的情况下,它仍然能够很好地执行多语种ASR。 团队还研究了增加音频编码器规模、提高音频编码器步幅(与音频如何划分相关的参数)和生成更少的音频嵌入的效果。通过这些测试,旨在提高ASR系统的有效性和效率。总之,研究结果表明,即使使用更大的音频编码器或更长的步幅,多语种ASR的可行性仍然存在,并且LLM能够处理长格式音频输入。

Leave a Comment

谷歌在ICML 2023

由谷歌的程序经理Cat Armato发布 谷歌的各个团队在机器学习(ML)领域积极开展研究,涉及理论和应用等方面。我们构建ML系统来解决语言、音乐、视觉处理、算法开发等领域的深度科学和工程挑战。我们通过开源工具和数据集、发表论文以及积极参与会议,致力于与更广泛的ML研究社区建立更协作的生态系统。 谷歌很自豪成为第40届国际机器学习大会(ICML 2023)的钻石赞助商,这是一场世界一流的年度会议,本周在夏威夷檀香山举行。作为ML研究的领导者,谷歌在今年的会议上有超过120篇被接受的论文,并积极参与多个研讨会和教程。谷歌还自豪地成为拉丁裔AI和机器学习女性研讨会的白金赞助商。我们期待与更广泛的ML研究社区分享我们广泛的ML研究,并扩大我们的合作伙伴关系。 已注册ICML 2023吗?我们希望您能访问谷歌展位,了解解决该领域最有趣挑战的激动人心的工作、创造力和乐趣。请访问@GoogleAI的Twitter账号,了解谷歌展位的活动(例如演示和问答环节)。请查看Google DeepMind的博客,了解他们在ICML 2023的技术参与。 请继续阅读以下内容,了解谷歌在ICML 2023的研究成果(谷歌相关机构以粗体显示)。 委员会和组织委员会 委员会成员包括:Corinna Cortes,Hugo Larochelle。教程主席包括:Hanie Sedghi 谷歌研究展位活动 演讲者:Bryan Perozzi,Anton Tsitsulin,Brandon Mayer。题目:谷歌的无监督图嵌入(论文,EXPO研讨会)。时间:7月25日星期二上午10:30 HST 演讲者:Zheng Xu。题目:使用差分隐私的Gboard语言模型的联邦学习(论文1,论文2,博客文章)。时间:7月25日星期二下午3:30 HST…

Leave a Comment

使用n-gram在🤗 Transformers中提升Wav2Vec2性能

Wav2Vec2是一种流行的预训练模型,用于语音识别。该模型由Meta AI Research于2020年9月发布,其创新的架构推动了自监督预训练在语音识别方面的进展,例如Ng等人,2021年,Chen等人,2021年,Hsu等人,2021年和Babu等人,2021年。在Hugging Face Hub上,Wav2Vec2最受欢迎的预训练检查点当前每月下载量超过250,000次。 使用连续时间分类(CTC),预训练的类似Wav2Vec2的检查点非常容易在下游语音识别任务上进行微调。简而言之,微调预训练的Wav2Vec2检查点的工作原理如下: 在预训练的检查点之上堆叠一个随机初始化的线性层,并训练它将原始音频输入分类为一系列字母。它通过以下方式实现: 从原始音频中提取音频表示(使用CNN层), 使用一堆transformer层处理音频表示的序列,和 将处理后的音频表示分类为一系列输出字母。 以前的音频分类模型需要额外的语言模型(LM)和字典,以将分类的音频帧序列转换为连贯的转录。Wav2Vec2的架构基于transformer层,因此每个处理后的音频表示都能从其他所有音频表示中获取上下文。此外,Wav2Vec2利用CTC算法进行微调,解决了“输入音频长度”与“输出文本长度”比例不同的对齐问题。 由于具有上下文化的音频分类和没有对齐问题,Wav2Vec2不需要外部语言模型或字典就能产生可接受的音频转录。 正如官方论文的附录C所示,Wav2Vec2在LibriSpeech上表现出色,而无需使用语言模型。然而,从附录中也可以清楚地看出,结合语言模型使用Wav2Vec2可以显著提高性能,特别是当模型仅在10分钟的转录音频上进行训练时。 直到最近,🤗 Transformers库没有提供一个简单的用户界面来使用经过微调的Wav2Vec2和语言模型解码音频文件。这个情况幸运地发生了改变。🤗 Transformers现在提供了与Kensho Technologies的pyctcdecode库的简单集成。本博客文章是一篇逐步的技术指南,解释了如何使用🤗 Datasets和🤗 Transformers创建一个n-gram语言模型,并将其与现有的经过微调的Wav2Vec2检查点结合使用。 我们首先进行以下步骤: 使用语言模型解码音频与不使用语言模型解码音频有何不同? 如何获取适合语言模型的数据? 如何使用KenLM构建n-gram模型? 如何将n-gram模型与经过微调的Wav2Vec2检查点结合使用? 如果想深入了解Wav2Vec2的工作原理(不是本博客文章所必需的),建议阅读以下资料:…

Leave a Comment

语音合成、识别与更多功能的 SpeechT5

我们很高兴地宣布,SpeechT5现在已经在🤗 Transformers中可用,这是一个开源库,提供了易于使用的最先进的机器学习模型的实现。 SpeechT5最初在《SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing》一文中进行了描述,该论文是由微软亚洲研究院的研究人员撰写的。该论文作者发布的官方检查点可在Hugging Face Hub上找到。 如果您想立即开始,这里有一些Spaces上的演示: 语音合成(TTS) 语音转换 自动语音识别 介绍 SpeechT5不是一个,也不是两个,而是三种语音模型在一个架构中。 它可以进行: 语音转文本,用于自动语音识别或说话人识别, 文本转语音,用于合成音频,以及 语音转语音,用于在不同的声音之间进行转换或执行语音增强。 SpeechT5背后的主要思想是在文本转语音、语音转文本、文本转文本和语音转语音数据的混合中预训练单个模型。这样,模型可以同时从文本和语音中学习。这种预训练方法的结果是一个拥有文本和语音共享的统一的隐藏表示空间的模型。 SpeechT5的核心是一个常规的Transformer编码器-解码器模型。就像任何其他Transformer一样,编码器-解码器网络使用隐藏表示来建模序列到序列的转换。这个Transformer骨干网络对于所有SpeechT5任务都是相同的。 为了使同一个Transformer能够处理文本和语音数据,添加了所谓的预网络和后网络。预网络的任务是将输入文本或语音转换为Transformer使用的隐藏表示。后网络将来自Transformer的输出转换为文本或语音。…

Leave a Comment

Can't find what you're looking for? Try refining your search: