Press "Enter" to skip to content

353 search results for "语音"

引入语音人工智能到您的企业时需要考虑的5个因素

想象一个世界,在那里琐碎的任务占据我们工作时间的60-70%,消失得无影无踪根据麦肯锡的一份报告,由于其对自然语言的不断理解,生成式人工智能很快有可能将这个梦想变为现实难怪越来越多的企业,甚至是传统行业中的企业,……

Leave a Comment

薛定谔桥是如何击败扩散模型在文本转语音(TTS)合成中的?

随着人工智能的不断发展,自然语言处理、自然语言生成和计算机视觉这些领域最近取得了巨大的流行,这都要归功于大型语言模型的引入。扩散模型在生成文本到语音合成(TTS)方面已经证明非常成功,显示出了很高的生成质量。然而,它们的先验分布受限于引入噪声并对所需生成目标提供很少信息的表示形式。 最近的研究中,清华大学和微软亚洲研究院的研究人员团队介绍了一种名为Bridge-TTS的新的文本到语音系统。这是首次尝试在已建立的扩散式TTS方法中利用干净可预测的替代方法替代噪声高斯先验。该替代先验提供了有关目标的强结构信息,并从文本输入提取的潜在表示中获取。 该团队表示,主要贡献在于开发出了一个完全可管理的薛定谔桥,它连接了真实的梅尔谱图和干净的先验。建议的Bridge-TTS使用的是一种数据到数据的过程,这比起扩散模型的数据到噪声过程改善了先前分布的信息内容。 该团队已经对这种方法进行了评估,并在LJ-Speech数据集上进行了实验验证,评估结果突出显示了建议方法的有效性。在50步骤/1000步骤合成设置中,Bridge-TTS表现出比扩散对应方法Grad-TTS更好的性能。它甚至在少量步骤的情况下比强大且快速的TTS模型表现更好。Bridge-TTS方法的主要优势在于合成质量和采样效率。 该团队总结了主要贡献如下。 从无污染的文本潜在表示中产生了梅尔谱图。与传统的数据到噪声过程不同,这个作为扩散模型上下文中的条件信息的表示形式被设计成无噪声。薛定谔桥被用来研究数据到数据的过程。 针对配对数据,提出了一个完全可计算的薛定谔桥。这个桥使用柔性形式的参考随机微分方程(SDE)。这种方法允许对设计空间进行实证调查,并提供了一个理论解释。 研究了采样技术、模型参数化和噪声调度如何对改善TTS质量发挥作用。还实现了不对称噪声调度、数据预测和一阶桥采样器。 完全可计算的薛定谔桥使得对底层过程的完整理论解释成为可能。通过实证研究,我们可以了解到不同因素如何影响TTS的质量,包括不对称噪声调度、模型参数化决策和采样过程的效率。 该方法在推理速度和生成质量方面取得了很好的结果。在1000步和50步的生成情况下,它明显优于基于扩散的Grad-TTS。它在4步生成中也优于FastGrad-TTS,优于基于transformer的模型FastSpeech 2和最先进的蒸馏方法CoMoSpeech在2步生成中。 该方法仅经过一次训练就取得了出色的结果。这种效率在创作过程的多个阶段都可见,展示了建议方法的可靠性和效力。

Leave a Comment

韩国大学的研究人员推出了HierSpeech++:一种具有突破性的人工智能方法,用于高保真度、高效率的文本转语音和语音转换

韩国大学的研究人员开发了一种新的语音合成器,名为HierSpeech++。 这项研究旨在创造出稳健、富有表现力、自然且类似人类的合成语音。 团队的目标是在不依赖文本-语音配对数据集的情况下实现这一目标,并改善现有模型的缺点。 HierSpeech++旨在填补语音合成中的语义和声学表征差距,从而最终改善风格适应性。 到目前为止,基于LLM的零样本语音合成存在一定的局限性。 但是,HierSpeech++已经针对这些限制进行了解决,并改进了鲁棒性和表现力,同时解决了与慢推断速度有关的问题。 通过利用基于文本和韵律提示的自监督语音和F0表示的文本到向量框架,已经证明了HierSpeech++优于基于LLM和扩散的模型的性能。 这些速度、鲁棒性和质量的提升确立了HierSpeech++作为一种功能强大的零样本语音合成器。 HierSpeech++使用分层框架生成语音而无需预先训练。 它采用文本到向量框架来开发基于文本和韵律提示的自监督地址和F0表示。 使用分层变分自编码器和生成的向量、F0和语音提示来产生语音。 该方法还包括高效的语音超分辨率框架。 全面评估使用各种预先训练的模型和实现,采用log-scale Mel错误距离、感知语音质量评估、音高、周期性、有声/无声F1分数、自然度、平均意见分和语音相似性MOS等客观和主观指标。 HierSpeech++在零样本情况下实现了合成语音的优越自然度,提高了鲁棒性、表现力和说话者相似性。 使用自然度平均意见分和语音相似性MOS等主观指标评估了语音的纯真性,并且结果显示HierSpeech++优于真实语音。 进一步将语音超分辨率框架从16 kHz提高到48 kHz,进一步提高了地址的自然度。 实验结果还证明,HierSpeech++中的分层变分自编码器优于基于LLM和扩散的模型,使其成为一种强大的零样本语音合成器。 研究还发现,使用噪声提示的零样本文本到语音合成验证了HierSpeech++在生成未知说话者的语音方面的有效性。 分层合成框架还可以实现多样化的韵律和语音风格转换,使合成语音更加灵活。 总而言之,HierSpeech提供了一种实现零样本语音合成人级质量的高效而强大的框架。 它在语义建模、语音合成、超分辨率和韵律和语音风格转换方面的解耦,提升了合成语音的灵活性。 即使在小规模数据集的情况下,该系统也表现出鲁棒性、表现力、自然度和说话者相似性的改进,并且具有显著更快的推断速度。…

Leave a Comment

深度学习模型如何模仿大脑中的人类语音识别:解读听觉处理

研究表明,将听觉数据转化为语言表示涉及到声音感知。当有人听到语音时,包括主要和非主要听觉皮层区域、听觉神经以及皮层下结构的听觉通路会被激活。由于环境条件和语言知觉单元的听觉信号会发生变化,自然语音知觉是一项艰巨的任务。尽管经典的认知模型能够解释许多语音知觉的心理特征,但在解释大脑编码和自然语音识别方面,这些模型还不够完善。深度学习模型在自动语音识别方面正接近人类的表现。 为了提高人工智能模型的可解释性,并提供新的数据驱动的感知计算模型,加州大学旧金山分校的研究人员旨在将深度学习模型的计算和表示与人类听觉系统的神经反应相关联。它旨在识别人类听觉回路和最先进的语音神经网络模型之间的共同表示和计算。分析重点是与上行听觉通路中真实语音的神经反应相关联的深度神经网络(DNN)语音嵌入,并使用神经编码框架。 详细比较了听觉回路和深度神经网络(DNN)模型的各种计算架构(卷积、循环和自注意)和训练过程(有监督和无监督目标)。此外,检查DNN的计算能提供有关神经编码预测的基本过程的信息。与之前针对单一语言(主要是英语)的建模尝试不同,他们在研究中使用了跨语言范式来揭示语音知觉的语言特定和语言不变特征。 令人着迷的是,研究人员展示了最新的DNN如何紧密模拟人类听觉系统中的关键信息处理要素。当预测整个听觉通路中对真实语音的神经反应时,DNN的特征表示比基于理论驱动的声学-语音学特征集表现得更好。此外,他们还检查了深度神经网络(DNN)中基本的上下文计算。他们发现,完全无监督的自然语音训练是这些网络获取与语言相关的关键时间结构(如音素和音节上下文)的方式。这种获取特定于语言的语言信息的能力预测了非主要听觉皮层中DNN-神经编码的相关性。线性STRF模型无法揭示在跨语言知觉期间STG中的特定于语言的编码,而基于深度学习的神经编码模型可以。 总之 使用比较方法,研究人员展示了语音学习的深度神经网络(DNN)与人类听觉系统之间的重要的表征和计算相似性。从神经科学的角度来看,基于经典特征的编码模型在从统计结构中提取中间语音特征方面被数据驱动的计算模型所超越。通过与神经反应和选择性进行对比,他们为理解AI方面DNN的“黑箱”表示提供了一种方法。他们展示了如何使现代DNN可能选择类似于人类听觉系统信息处理方式的表示。根据研究人员的说法,未来的研究可以使用更广范围的AI模型和更大更多样的人群来调查和验证这些结果。 本文发表在《解读听觉处理:深度学习模型如何在大脑中模拟人类语音识别》一文中,首发于MarkTechPost。

Leave a Comment

亚马逊转录宣布推出一款新的基于语音模型的ASR系统,支持扩展至100多种语言

亚马逊转录是一项完全托管的自动语音识别(ASR)服务,可帮助您将语音转换为文本,并轻松地将其添加到您的应用程序中今天,我们很高兴地宣布推出了一种下一代多十亿参数语音基础模型驱动的系统,将自动语音识别扩展到超过100种语言在本文中,我们将讨论一些相关内容…

Leave a Comment

T-Mobile美国公司通过亚马逊转录和亚马逊翻译运用人工智能技术,以客户选择的语言提供语音邮件服务

这篇文章由T-Mobile US公司的高级系统架构师Dhurjati Brahma、首席工程师/架构师Jim Chao和副系统架构师Nicholas Zellerhoff共同撰写T-Mobile US公司为其客户提供语音邮件转文字服务,使客户能够快速浏览他们的语音邮件并进行阅读

Leave a Comment

认识DiffPoseTalk:一款新的语音转3D动画人工智能框架

“`html 基于语音的表情动画是计算机图形学和人工智能交叉领域的复杂问题,它涉及根据口语输入生成逼真的面部动画和头部姿势。该领域的挑战在于语音和面部表情之间的复杂多对多映射。每个人都有自己独特的说话风格,同样的句子可以用多种方式表达,通过语调、强调和伴随的面部表情的变化进行标记。此外,人脸运动非常复杂和微妙,仅从语音中创建自然的动画是一项艰巨的任务。 近年来,研究人员探索了各种方法来解决基于语音的表情动画的复杂挑战。这些方法通常依赖于复杂的模型和数据集,以学习语音和面部表情之间的复杂映射关系。虽然取得了重大进展,但在捕捉多样化和自然化的人类表情和说话风格方面仍有很大的改进空间。 在这个领域中,DiffPoseTalk成为一种开创性的解决方案。由一支专 dedicated 研究团队开发,DiffPoseTalk利用弥散模型的强大能力来改变基于语音的表情动画领域。与现有方法不同,这些方法常常困扰于生成多样和自然的动画,DiffPoseTalk利用弥散模型的力量直面挑战。 DiffPoseTalk采用了基于弥散的方法。正向过程将高斯噪声系统地引入到初始数据样本中,例如面部表情和头部姿势,遵循经过精心设计的方差计划。这个过程模仿了说话期间人类面部运动中的固有变化。 DiffPoseTalk真正的魔力在于反向过程。虽然控制正向过程的分布依赖于整个数据集,并且在计算上不可行,但DiffPoseTalk巧妙地使用一个降噪网络来近似这个分布。这个降噪网络经过严格的训练,根据嘈杂的观察预测干净的样本,从而有效地逆向扩散过程。 为了以精确度引导生成过程,DiffPoseTalk集成了一种说话风格编码器。这个编码器采用了基于Transformer的架构,旨在从简短的视频片段中捕捉个人的独特说话风格。它擅长从一系列动作参数中提取风格特征,确保生成的动画忠实地复制说话者的独特风格。 DiffPoseTalk的最显著特点之一是其固有能力,能够生成广泛的3D面部动画和头部姿势,体现多样性和风格。它通过利用弥散模型的潜在能力来复制各种形态的分布来实现这一目标。DiffPoseTalk可以生成各种面部表情和头部运动,有效地还原人类交流的种种细微差别。 在性能和评估方面,DiffPoseTalk显著突出。它在衡量生成的面部动画质量的关键指标上表现卓越。一个关键指标是唇同步性,即每帧所有唇顶点的最大L2误差。DiffPoseTalk始终能够提供高度同步的动画效果,确保虚拟角色的唇部运动与口头表达相一致。 此外,DiffPoseTalk在复制个人说话风格方面表现出色。它确保生成的动画真实地传达出原始说话者的表情和举止,从而为动画增添了一层真实感。 “` 此外,DiffPoseTalk生成的动画以其固有的自然特性为特点。它们散发出面部运动的流畅感,巧妙捕捉到人类表情的微妙细微之处。这种内在的自然性强调了扩散模型在现实动画生成中的功效。 总之,DiffPoseTalk是一种开创性的语音驱动表情动画方法,能够应对将语音输入映射到多样化和风格化的面部动画和头部姿态所带来的复杂挑战。通过利用扩散模型和专用的说话风格编码器,DiffPoseTalk在捕捉人类交流的种种微妙细节方面表现出色。随着人工智能和计算机图形学的不断进步,我们怀着期待的心情,期盼着未来我们的虚拟伙伴和角色能够以人类表情的细腻和丰富性栩栩如生地呈现。

Leave a Comment

元人工智能研究人员引入了一种机器学习模型,从非侵入性脑电记录中探索解码语音知觉

通过脑部活动解读语音是医疗保健和神经科学领域的一个长期目标,最近在有创设备上取得了进展。在颅内记录上训练的深度学习算法可以解码基本的语言要素。然而,将这一方法扩展至自然语音和非侵入性脑部记录存在挑战。Meta的研究人员介绍了一种利用对比学习来解码非侵入性记录中感知到的语音表示的机器学习模型。他们的方法结合了四个数据集,并取得了有希望的结果,为从脑部活动解码语言提供了一个潜在途径,无需侵入性程序,并对医疗保健和神经科学产生了影响。 研究人员探索利用非侵入性脑部活动记录来解码语音,借鉴了有创设备在解码语言要素方面的最新进展。他们的方法引入了一种对比学习模型,训练出能够解码自我监督语音表示的模型。与有创研究的比较突显出他们更丰富的词汇量,并讨论了在语音生成方面的潜在应用。获取健康成年志愿者数据集并进行被动听取已获得伦理批准。 在医疗保健和神经科学领域,从非侵入性脑部记录中解码语音是一个重大挑战。虽然有创设备已经取得了进展,但将其扩展到自然语音仍然困难。他们的方法介绍了一种利用对比学习训练的模型,用于解码非侵入性数据中的自我监督语音表示。他们的进步在不需要侵入性程序的情况下,提供了从脑部活动中解码语言的希望。 他们的方法引入了一个神经解码任务,用于解码由MEG或EEG记录的175名志愿者在听故事时的感知语音。它采用了一种常见的卷积架构,同时对多个参与者进行训练。与基准的比较分析突显出对比目标和预训练语音表示的重要性。此外,解码器的预测主要依赖于词汇和上下文语义表示。 解码准确率在参与者和数据集之间有所不同。以单词级别的预测为例,对正确单词的识别和与负面候选项的区分显示了准确性。与基准的比较突显了对比目标、预训练语音表示和共享卷积架构在提高解码准确性方面的重要性。解码器的预测主要依赖于词汇和上下文语义表示。 研究人员引入了一种基于对比学习的模型,用于解码非侵入性脑部记录中的感知语音。他们的模型展示了有希望的结果,实现了在语音段落识别方面平均准确率高达41%,在最佳表现的参与者中达到了80%的准确率。与基准的比较突显了对比目标、预训练语音表示和共享卷积架构在提高解码准确性方面的重要性。解码器的预测主要依赖于词汇和上下文语义。他们的工作在医疗保健和神经科学应用中具有潜力,可以进行非侵入性语言解码。 未来的研究应阐明导致参与者和数据集解码准确性差异的因素。探究模型在解决更复杂的语言属性和实时语音感知场景方面的性能至关重要。评估模型在不同脑部记录或成像技术中的泛化能力是必要的。探索其捕捉语调和音素特征的能力将为语音解码提供全面的见解。

Leave a Comment

如何使用文本转语音AI模型Bark生成音频

介绍 Bark是由Suno.ai创建的开源、完全生成的文本到音频模型,可以生成非常逼真的、多语言的语音,包括背景噪声、音乐和简单的音效。它采用了GPT风格的架构,能够以意外的方式偏离给定的脚本。典型的文本到语音(TTS)引擎产生机器人和机器生成的单调声音。Bark使用GPT风格的模型生成非常逼真和自然的声音,给人一种像听实际人的经历的奇妙体验。 学习目标 了解Bark模型的基本用法和功能,以及其限制和应用。 学会使用Python代码从文本生成音频文件。 使用Python中的NLTK和Bark库创建大规模语音。 本文是数据科学博文马拉松的一部分。 安装Bark 让我们使用Google Colab笔记本来了解Bark的功能和应用。 要安装Bark,请使用以下命令:pip install git+https://github.com/suno-ai/bark.git。 pip install git+https://github.com/suno-ai/bark.git 注意:不要使用’pip install bark’,因为它会安装Suno.ai管理的不同软件包。 使用Bark生成音频 Bark支持多种语言,如英语、中文、法语、印地语、德语等。它还支持Bark说话人库,其中包含支持的语言的多个语音提示。请在这里检查说话人库列表。 Bark提供了一些预定义的标签/注释,如背景噪声、礼堂、开头的沉默等,可以帮助理解说话者的使用方式。您可以根据用户的需求在Python代码中使用这些标签设置合适的提示。 下面的Python代码根据所选的说话者生成音频文件。 from bark…

Leave a Comment

“文本转语音 – 训练您的大型语言模型”

介绍 想象一个世界,人工智能可以接受音乐家的语音指令,并将其转化为美妙的、旋律优美的吉他声音。这不是科幻小说,而是源自于开源社区“AI之声”的突破性研究。在本文中,我们将探讨在生成式人工智能吉他声音的“文本到声音”领域创建大型语言模型(LLM)的旅程。我们将讨论所面临的挑战以及为实现这个愿景所开发的创新解决方案。 学习目标: 了解在“文本到声音”领域创建大型语言模型的挑战和创新解决方案。 探索在开发基于语音指令生成吉他声音的人工智能模型时面临的主要挑战。 深入了解使用ChatGPT和QLoRA模型等人工智能进展改进生成式人工智能的未来方法。 问题陈述:音乐家的意图识别 问题是使人工智能能够根据音乐家的语音指令生成吉他声音。例如,当音乐家说“给我你明亮的吉他声音”时,生成式人工智能模型应该理解意图并产生明亮的吉他声音。这需要上下文和领域特定的理解,因为像“明亮”这样的词在一般语言中有不同的含义,但在音乐领域代表特定的音色质量。 数据集挑战和解决方案 训练大型语言模型的第一步是拥有与模型的输入和期望输出相匹配的数据集。在确定正确的数据集以训练我们的LLM以理解音乐家的指令并以正确的吉他声音作出回应时,我们遇到了几个问题。以下是我们如何处理这些问题。 挑战1:吉他音乐领域数据集准备 一个重大的挑战是缺乏特定于吉他音乐的可用数据集。为了克服这个问题,团队不得不创建自己的数据集。这个数据集需要包括音乐家之间讨论吉他声音的对话,以提供上下文。他们利用了Reddit的讨论等资源,但发现需要扩大这个数据池。他们采用了数据增强、使用BiLSTM深度学习模型和生成基于上下文的增强数据集等技术。 挑战2:数据注释和创建标记数据集 第二个挑战是对数据进行注释以创建一个带有标签的数据集。像ChatGPT这样的大型语言模型通常在通用数据集上进行训练,需要对特定领域的任务进行微调。例如,“明亮”可以指光线或音乐质量。团队使用了一种名为Doccano的注释工具,教会模型正确的上下文。音乐家为乐器和音色质量给数据打上了标签。由于需要领域专业知识,注释工作具有挑战性,但团队通过应用主动学习方法对数据进行自动标注来部分解决了这个问题。 挑战3:建模作为机器学习任务-命名实体识别(NER)方法 确定正确的建模方法是另一个障碍。它应该被视为识别主题还是实体?团队确定了命名实体识别(NER)方法,因为它使模型能够识别和提取与音乐相关的实体。他们采用了spaCy的自然语言处理流水线,利用了HuggingFace的RoBERTa等转换器模型。这种方法使生成式人工智能能够在音乐领域中识别像“明亮”和“吉他”这样的词的上下文,而不是它们的一般含义。 模型训练的挑战和解决方案 模型训练对于开发有效和准确的人工智能和机器学习模型至关重要。然而,它通常会带来一些挑战。在我们的项目背景下,当我们训练我们的转换器模型时,我们遇到了一些独特的挑战,我们不得不找到创新的解决方案来克服这些挑战。 过拟合和内存问题 在模型训练过程中,我们遇到的主要挑战之一是过拟合。过拟合是指模型过于专注于拟合训练数据,导致在未见或真实世界数据上表现不佳。由于我们的训练数据有限,过拟合是一个真正的问题。为了解决这个问题,我们需要确保我们的模型能够在各种真实世界场景中表现良好。 为了解决这个问题,我们采用了数据增强技术。我们创建了四个不同的测试集:一个用于原始训练数据,另外三个用于在不同上下文中进行测试。在基于内容的测试集中,我们改变了整个句子,而在基于上下文的测试集中保留了音乐领域的实体。使用未见过的数据集进行测试也对验证模型的鲁棒性起到了至关重要的作用。 然而,我们的旅程并不没有遇到与内存相关的障碍。使用流行的自然语言处理库spaCy训练模型会引发内存问题。最初,由于内存限制,我们仅为评估分配了2%的训练数据。将评估集扩大到5%仍然导致内存问题。为了解决这个问题,我们将训练集分成了四部分并分别进行训练,既解决了内存问题又保持了模型的准确性。 模型性能和准确性 我们的目标是确保模型在实际场景中表现良好,并且我们所达到的准确性不仅仅是由于过拟合造成的。由于在广泛的数据上进行了预训练的大型语言模型RoBERTa,训练过程非常快速。spaCy进一步帮助我们找到了适合我们任务的最佳模型。 结果是令人鼓舞的,准确率始终超过95%。我们使用了各种测试集进行了测试,包括基于上下文和基于内容的数据集,结果准确率令人印象深刻。这证实了尽管训练数据有限,模型学习能力快速。…

Leave a Comment

遇见LLaSM:一个端到端训练的大型多模态语音语言模型,具有跨模态对话能力,能够遵循语音和语言指令

语音比写作传递更多信息,因为它携带了语义和声音等语言信息。此外,与AI进行交流时,说话是一种更实用和有机的方式。因此,在创建通用助手时,遵循语音和语言的指导原则至关重要。然而,大多数大型语言模型只接受文本输入,限制了其潜力。尽管多模态视觉和语言模型在通用人工智能(AGI)方面取得了重大进展,但人类通过输入文本指令来输入任务仍然很繁琐。 级联范式方法使用自动语音识别(ASR)模型将语音输入转换为文本输入,然后模型可以利用该文本输入来处理任务。从语音到文本的模态转换仍然会导致信息消耗,并可能导入ASR系统错误。最近,具有处理和生成语音和文本的大型语言模型的语言语音多模态模型已能够理解和制作多模态信息。语音信号被分成不同的标记,并扩展到LLM的词汇中。从这个意义上说,LLM需要大量的多模态数据和强大的计算资源来重新训练。 本研究的来自LinkSoul.AI、北京大学和01.ai的作者建议LLaSM,这是一个具有跨模态对话能力的大型语音和语言模型,可以理解和遵守口头指令。他们使用训练有素的语音模态编码器和LLM,就像LLaVA一样,这使得LLaSM更加资源友好。他们专门使用Whisper作为音频编码器来整合语音信号。将大型语言模型的输入文本嵌入与使用模态适配器的语音嵌入进行匹配。为了创建交替的序列,将语音和文本嵌入组合在一起。然后将交替的序列馈送到LLM进行监督微调。 训练过程分为两个阶段。在初始阶段,他们使用公共ASR数据集进行模态适应预训练。只有模态适配器被训练以对齐语音和文本嵌入,LLM和语音编码器已被锁定。由于在这个阶段引入了模态适配器的一小部分参数,并且大部分模型参数仍需固定,因此不需要消耗大量资源。在第二步中,使用跨模态指令数据训练模型以处理多模态指令和分析跨模态交互。在进行跨模态教育时,语言模型和模态适配器的设置正在修改,而音频编码器则被冻结。 值得注意的是,目前很少有开源的语音-文本跨模态指令遵循数据集可用。因此,他们创建并发布了LLaSM-Audio-Instructions数据集。该数据集是通过精心选择GPT4-LLM、ShareGPT和WizardLM中的对话,并使用文本到语音技术创建大量的对话音频数据而生成的。据他们所知,这是最大的中英文语音-文本跨模态指令遵循数据集,包含19.9万个对话、8万个中文音频样本和42.8万个英文音频样本。 他们的研究贡献如下: • 他们创建了一个能够理解和执行语音-语言指令的语音-语言多模态模型,为人们与人工智能进行交流提供了更实用和有机的方式。 • 他们创建并发布了LLaSM-Audio-Instructions,这是一个结合了中文和英文语音和文本的大型跨模态指令遵循数据集。 • 可以在HuggingFace在线上查看演示,并在GitHub上获取代码。

Leave a Comment

“文本转语音(TTS)和人工智能(AI)中的道德考虑:数据安全重点关注”

人工智能(AI)和自然语言处理(NLP)技术的快速发展已经导致了高度复杂的应用程序的创建,例如文本转语音(TTS)系统这些由深度学习算法驱动的系统具有将文本输入转换为自然音质人类语音的能力,从而彻底改变了娱乐、教育、无障碍和客户服务等行业然而,…文本转语音(TTS)和人工智能(AI)的伦理考虑:重点关注数据安全阅读更多 »

Leave a Comment

微软研究员推出SpeechX:一种多功能语音生成模型,能够进行零样本TTS和各种语音转换任务

多种机器学习应用,包括文本、视觉和音频,在生成模型技术方面已经取得了快速且显著的发展。这些发展对行业和社会产生了重要影响。尤其是具有多模态输入的生成模型已成为真正的创新发展。零样本文本到语音(TTS)是语音领域中一个众所周知的语音生成问题,它使用音频文本输入。只使用预期说话者的一个小音频片段,零样本TTS可以将文本源转化为具有该说话者声音特质和说话方式的语音。早期零样本TTS的研究中使用了固定维度的说话者嵌入。这种方法并没有有效地支持说话者克隆能力,并将其使用限制在TTS上。 然而,最近的策略包括更广泛的概念,如遮蔽语音预测和神经编解码语言建模。这些前沿方法使用了目标说话者的音频,而不是将其压缩为一维表示。因此,这些模型除了出色的零样本TTS性能之外,还展示了新的功能,如语音转换和语音编辑。这种增强的适应性可以极大地扩展语音生成模型的潜力。尽管这些当前的生成模型取得了令人惊叹的成就,但它们仍然存在一些限制,特别是在处理包括转换输入语音的多样化音频文本生成任务时。 例如,当前的语音编辑算法仅限于处理干净的信号,并且无法在保持背景噪声的同时改变说话内容。另外,讨论的方法通过要求噪声信号被干净的语音片段包围以完成降噪,从而对其实际应用性产生了重大限制。目标说话者提取是一个在处理不干净语音时特别有帮助的任务。目标说话者提取是从包含多个说话者的语音混合物中去除目标说话者的声音的过程。您可以通过播放他们的一个小语音片段来指定您想要的说话者。正如前面提到的,尽管具有潜在重要性,但当前一代的生成语音模型无法处理这个任务。 在传统的语音增强任务(如降噪和目标说话者提取)的可靠信号恢复中,回归模型在以往的方法中一直被使用。然而,这些早期的技术有时需要为每个任务使用不同的专家模型,这在考虑到可能出现的各种声学干扰时并不理想。除了侧重于某些语音改进任务的小型研究之外,还有很多研究需要在使用参考转录产生可理解语音的完整音频文本生成模型上进行。在所述因素和其他学科中取得的成功先例的背景下,集成生成和转换能力的音频文本生成语音模型的发展具有重要的研究意义。 图1:SpeechX的整体布局。SpeechX使用经过训练的文本和声学令牌流的神经编解码语言模型,执行各种基于音频文本的语音生成任务,如降噪、语音去除、目标说话者提取、零样本TTS、干净语音编辑和噪声语音编辑。对于某些任务,不需要文本输入。 这些模型具有处理各种语音生成任务的广泛能力。它们表明这些模型应包括以下关键特征: • 多功能性:统一的音频文本生成语音模型必须能够执行从音频和文本输入中生成语音的各种任务,类似于其他机器学习领域中产生的统一或基础模型。这些任务不仅包括零样本TTS,还应包括许多类型的语音改变,例如语音增强和语音编辑。 • 容忍度:由于统一模型可能在声学困难的环境中使用,它们必须对各种声学扭曲表现出容忍度。由于这些模型提供可靠的性能,它们可以在常见的背景噪声存在的现实情况下具有实用性。 • 可扩展性:统一模型必须使用灵活的架构,以支持平滑的任务扩展。一种方法是为新组件提供空间,例如额外的模块或输入标记。由于这种灵活性,模型将能够更好地适应新的语音生成任务。微软公司的研究人员在本文中介绍了一种灵活的语音生成模型来实现这个目标。它能够执行多个任务,如零-shot TTS、使用可选的转录输入进行噪声抑制、语音去除、使用可选的转录输入进行目标说话人提取,以及在安静和嘈杂的声学环境中进行语音编辑(图1)。他们将SpeechX1指定为推荐模型。 与VALL-E一样,SpeechX采用语言建模方法,根据文本和声学输入生成神经编解码模型的代码,或声学标记。为了实现处理多样化任务的能力,他们在多任务学习设置中加入了额外的标记,这些标记共同指定要执行的任务。实验结果使用来自LibriLight的60K小时语音数据作为训练集,证明了SpeechX的有效性,在所有上述任务中展示了与专家模型相媲美或更优越的性能。值得注意的是,SpeechX展示了保留语音编辑期间的背景声音以及利用参考转录进行噪声抑制和目标说话人提取等新颖或扩展的能力。展示他们提出的SpeechX模型能力的音频样本可在https://aka.ms/speechx获取。

Leave a Comment

PlayHT团队将情感概念引入生成声音AI的AI模型:这将使您能够通过特定情感来控制和引导语音生成

语音识别是自然语言处理领域中最近开发的技术之一。研究科学家还为文本到语音生成的AI模型开发了大型语言模型。很明显,AI在语音质量、表情、人类行为等方面可以达到与人类相似的结果。但是尽管如此,这些模型仍然存在问题。这些模型在语言多样性方面较少。在语音识别、情感等方面也存在一些问题。许多研究人员意识到了这些问题,并发现这是由于模型使用的数据集较小造成的。 改进工作已经开始,PlayHT团队推出了PlayHT2.0作为这个案例研究的解决方案。这个模型的主要优点是它使用了多种语言并处理了大量的数据集。这也增加了模型的大小。NLP中的Transformers也在实施这个模型中扮演了重要角色。该模型处理给定的转录并预测声音。这经历了一个将文本转换为语音的过程,称为标记化。这涉及将简化的代码转换为声波,以生成人类语音。 该模型具有巨大的对话能力,可以像正常人一样进行对话,并带有一些情感。这些通过AI聊天机器人提供的技术经常被许多跨国公司用于在线呼叫和研讨会。PlayHT2.0模型还通过其中使用的优化技术改进了语音质量。它还可以复制出完全相同的声音。由于模型使用的数据集非常大,该模型在保留原始语音的同时也可以说出其他语言。模型的训练过程经历了大量的epochs和不同的超参数。这导致模型在语音识别技术中表现出各种情感。 该模型仍在不断改进中。研究科学家仍在致力于改进情感。提示工程师和许多研究人员还发现,该模型在未来几周内可以通过速度、准确度和良好的F1分数进行更新。

Leave a Comment

Meta AI和剑桥大学的研究人员研究了如何利用大型语言模型(LLMs)加强语音识别能力

大型语言模型是新的趋势,得益于著名的ChatGPT的引入。这个聊天机器人由OpenAI开发,能够回答问题、对长段落的文本数据进行摘要、完成代码片段、将文本翻译成不同的语言等等。大型语言模型具有模仿人类的能力,基于人工智能的子领域,包括自然语言处理、自然语言理解、自然语言生成、计算机视觉等等。 在没有明确监督的情况下,大型语言模型通过预测大量文本数据中的下一个单词进行训练,从而在其神经网络的限制内开发了对外部世界的大量知识编码能力,使其在各种下游任务中非常有用。尽管大型语言模型在不同领域展现出了出色的性能,但最近的研究将一个小型音频编码器纳入模型中,通过启用语音识别进一步扩展了大型语言模型的能力。 该过程直接将一系列音频嵌入,如音频数据表示,融入已有的文本标记嵌入中。这使得大型语言模型能够像文本等价物一样自动执行语音识别(ASR)任务,因为它具有集成的表示。它还可以将口头交流翻译成打印文本。团队表示,仅具有解码器的大型语言模型可以执行多语种语音识别,并在训练时超过监督式单语训练基线。音频编码器模型的大小和帧速率、LLM参数的低秩适应、文本标记掩蔽以及所使用的大型语言模型类型是研究考察以提高识别准确性的几个变量之一。 通过分析音频编码器的输出,团队证明了音频嵌入与相应的文本标记准确匹配,展示了音频和文本信息的有效融合。为了评估这种策略的有效性,团队使用了Multilingual LibriSpeech(MLS)数据集来衡量其效果。开源的LLaMA-7B大型语言模型采用了一种专门用于音频处理的神经网络——conformer编码器。结果表明,这种调整使LLM在语音识别任务上的表现比单语基线提高了18%。主要以英文文本进行训练的LLaMA-7B在多语种语音识别方面表现出色。 除了主要实验外,该研究还对增强型LLM的性能的其他方面进行了调查。为了确定在LLM被冻结训练时是否能够保留其初始能力,研究人员进行了剔除试验。这意味着在ASR系统进行训练时不改变LLM的参数,并且结果表明,即使在LLM被冻结的情况下,它仍然能够很好地执行多语种ASR。 团队还研究了增加音频编码器规模、提高音频编码器步幅(与音频如何划分相关的参数)和生成更少的音频嵌入的效果。通过这些测试,旨在提高ASR系统的有效性和效率。总之,研究结果表明,即使使用更大的音频编码器或更长的步幅,多语种ASR的可行性仍然存在,并且LLM能够处理长格式音频输入。

Leave a Comment

语音合成、识别与更多功能的 SpeechT5

我们很高兴地宣布,SpeechT5现在已经在🤗 Transformers中可用,这是一个开源库,提供了易于使用的最先进的机器学习模型的实现。 SpeechT5最初在《SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing》一文中进行了描述,该论文是由微软亚洲研究院的研究人员撰写的。该论文作者发布的官方检查点可在Hugging Face Hub上找到。 如果您想立即开始,这里有一些Spaces上的演示: 语音合成(TTS) 语音转换 自动语音识别 介绍 SpeechT5不是一个,也不是两个,而是三种语音模型在一个架构中。 它可以进行: 语音转文本,用于自动语音识别或说话人识别, 文本转语音,用于合成音频,以及 语音转语音,用于在不同的声音之间进行转换或执行语音增强。 SpeechT5背后的主要思想是在文本转语音、语音转文本、文本转文本和语音转语音数据的混合中预训练单个模型。这样,模型可以同时从文本和语音中学习。这种预训练方法的结果是一个拥有文本和语音共享的统一的隐藏表示空间的模型。 SpeechT5的核心是一个常规的Transformer编码器-解码器模型。就像任何其他Transformer一样,编码器-解码器网络使用隐藏表示来建模序列到序列的转换。这个Transformer骨干网络对于所有SpeechT5任务都是相同的。 为了使同一个Transformer能够处理文本和语音数据,添加了所谓的预网络和后网络。预网络的任务是将输入文本或语音转换为Transformer使用的隐藏表示。后网络将来自Transformer的输出转换为文本或语音。…

Leave a Comment

Unity中的AI语音识别

介绍 本教程将指导您使用Hugging Face Unity API在Unity游戏中实现最先进的语音识别。该功能可用于给予指令、与NPC进行对话、提高可访问性或其他需要将口语转换为文本的功能。 要在Unity中尝试语音识别,请查看itch.io上的实时演示。 先决条件 本教程假设您具备Unity的基本知识。它还要求您已安装Hugging Face Unity API。有关设置API的说明,请查看我们之前的博客文章。 步骤 1. 设置场景 在本教程中,我们将设置一个非常简单的场景,玩家可以在其中开始和停止录制,然后将结果转换为文本。 首先创建一个Unity项目,然后创建一个带有四个UI元素的画布: 开始按钮:用于开始录制。 停止按钮:用于停止录制。 文本(TextMeshPro):用于显示语音识别的结果。 2. 设置脚本 创建一个名为SpeechRecognitionTest的脚本,并将其附加到一个空的游戏对象上。 在脚本中,定义对UI组件的引用: [SerializeField] private…

Leave a Comment

谷歌研究人员推出了AudioPaLM:一款改变语音技术的游戏规则——一种新的大型语言模型,具有史无前例的准确听、说和翻译能力

大型语言模型(LLMs)近几个月来备受瞩目。作为人工智能领域最好的进展之一,这些模型正在改变人类与机器交互的方式。由于每个行业都在采用这些模型,它们是人工智能接管世界的最佳例证。 LLM在生成文本方面表现出色,尤其是在涉及复杂交互和知识检索的任务中,最著名的例子是OpenAI开发的基于GPT 3.5和GPT 4转换器架构的ChatGPT聊天机器人。除了文本生成外,像CLIP(对比性语言-图像预训练)这样的模型也已经被开发出来,用于图像生成,可以根据图像内容创建文本。 为了在音频生成和理解方面取得进展,谷歌的研究人员介绍了AudioPaLM,这是一个大型语言模型,可以处理语音理解和生成任务。 AudioPaLM结合了两个现有模型的优点,即PaLM-2模型和AudioLM模型,以产生一个统一的多模态架构,可以处理和生成文本和语音。这使得AudioPaLM可以处理各种应用,从语音识别到语音转文本。 虽然AudioLM擅长维护诸如讲话者身份和语气之类的语言信息,但是PaLM-2,即基于文本的语言模型,专门处理文本特定的语言知识。通过结合这两个模型,AudioPaLM利用了PaLM-2的语言专业知识和AudioLM的语言信息保留,从而更全面地理解和创建文本和语音。 AudioPaLM利用联合词汇表,可以使用有限的离散标记表示语音和文本。将这个联合词汇表与标记任务描述相结合,可以在各种基于语音和文本的任务上训练单个仅解码器模型。传统上,语音识别,文本到语音合成和语音到语音翻译等任务是由分开的模型处理的,现在可以统一到单个架构和训练过程中。 在评估中,AudioPaLM在语音翻译方面的表现超过了现有系统。它展示了零-shot语音到文本翻译的能力,可以准确地将语音翻译为以前未遇到过的语言,从而为更广泛的语言支持开辟了可能性。AudioPaLM还可以基于简短的语音提示跨语言传递声音,并可以捕捉和复制不同语言中的不同声音,从而实现语音转换和适应。 该团队提到的关键贡献是: AudioPaLM利用了文本预训练中PaLM和PaLM-2s的能力。 它在自动语音翻译和语音到语音翻译基准方面取得了SOTA结果,并在自动语音识别基准方面表现出色。 该模型通过声音传递实现了声音到声音的翻译,超越了现有方法在语音质量和声音保留方面。 AudioPaLM通过执行未见过的语言组合的自动语音翻译来展示了零-shot能力。 总之,AudioPaLM是一个统一的LLM,通过利用基于文本的LLM的能力和结合音频提示技术来处理语音和文本,是LLM列表中值得期待的新成员。

Leave a Comment

Meta的语音盒子:会说每一种语言的AI

在一项开创性的进展中,Facebook 的母公司 Meta 推出了其最新的生成式人工智能(AI) Voicebox。与传统的基于文本的 AI 模型不同,Voicebox 专注于音频合成,使其能够模仿语音模式并生成自然音质的音频剪辑。拥有阅读不同语言的文本和为沉浸式元宇宙做出贡献的能力,Voicebox 承诺革新沟通和可访问性。让我们深入了解这项创新的 AI 突破。 另请阅读:Meta 开源同时训练文本、图像和音频的 AI 模型 生成式 AI 的演变:从文本到音频 ChatGPT 和 Google 的 Bard 等生成式 AI…

Leave a Comment

Can't find what you're looking for? Try refining your search: