AI-generated music – 四海吧

如何使用文本转语音AI模型Bark生成音频

Published October 6, 2023 by 四海吧

介绍 Bark是由Suno.ai创建的开源、完全生成的文本到音频模型，可以生成非常逼真的、多语言的语音，包括背景噪声、音乐和简单的音效。它采用了GPT风格的架构，能够以意外的方式偏离给定的脚本。典型的文本到语音（TTS）引擎产生机器人和机器生成的单调声音。Bark使用GPT风格的模型生成非常逼真和自然的声音，给人一种像听实际人的经历的奇妙体验。学习目标了解Bark模型的基本用法和功能，以及其限制和应用。学会使用Python代码从文本生成音频文件。使用Python中的NLTK和Bark库创建大规模语音。本文是数据科学博文马拉松的一部分。安装Bark 让我们使用Google Colab笔记本来了解Bark的功能和应用。要安装Bark，请使用以下命令：pip install git+https://github.com/suno-ai/bark.git。 pip install git+https://github.com/suno-ai/bark.git 注意：不要使用’pip install bark’，因为它会安装Suno.ai管理的不同软件包。使用Bark生成音频 Bark支持多种语言，如英语、中文、法语、印地语、德语等。它还支持Bark说话人库，其中包含支持的语言的多个语音提示。请在这里检查说话人库列表。 Bark提供了一些预定义的标签/注释，如背景噪声、礼堂、开头的沉默等，可以帮助理解说话者的使用方式。您可以根据用户的需求在Python代码中使用这些标签设置合适的提示。下面的Python代码根据所选的说话者生成音频文件。 from bark…

“文本转语音 – 训练您的大型语言模型”

Published September 17, 2023 by 四海吧

介绍想象一个世界，人工智能可以接受音乐家的语音指令，并将其转化为美妙的、旋律优美的吉他声音。这不是科幻小说，而是源自于开源社区“AI之声”的突破性研究。在本文中，我们将探讨在生成式人工智能吉他声音的“文本到声音”领域创建大型语言模型(LLM)的旅程。我们将讨论所面临的挑战以及为实现这个愿景所开发的创新解决方案。学习目标：了解在“文本到声音”领域创建大型语言模型的挑战和创新解决方案。探索在开发基于语音指令生成吉他声音的人工智能模型时面临的主要挑战。深入了解使用ChatGPT和QLoRA模型等人工智能进展改进生成式人工智能的未来方法。问题陈述：音乐家的意图识别问题是使人工智能能够根据音乐家的语音指令生成吉他声音。例如，当音乐家说“给我你明亮的吉他声音”时，生成式人工智能模型应该理解意图并产生明亮的吉他声音。这需要上下文和领域特定的理解，因为像“明亮”这样的词在一般语言中有不同的含义，但在音乐领域代表特定的音色质量。数据集挑战和解决方案训练大型语言模型的第一步是拥有与模型的输入和期望输出相匹配的数据集。在确定正确的数据集以训练我们的LLM以理解音乐家的指令并以正确的吉他声音作出回应时，我们遇到了几个问题。以下是我们如何处理这些问题。挑战1：吉他音乐领域数据集准备一个重大的挑战是缺乏特定于吉他音乐的可用数据集。为了克服这个问题，团队不得不创建自己的数据集。这个数据集需要包括音乐家之间讨论吉他声音的对话，以提供上下文。他们利用了Reddit的讨论等资源，但发现需要扩大这个数据池。他们采用了数据增强、使用BiLSTM深度学习模型和生成基于上下文的增强数据集等技术。挑战2：数据注释和创建标记数据集第二个挑战是对数据进行注释以创建一个带有标签的数据集。像ChatGPT这样的大型语言模型通常在通用数据集上进行训练，需要对特定领域的任务进行微调。例如，“明亮”可以指光线或音乐质量。团队使用了一种名为Doccano的注释工具，教会模型正确的上下文。音乐家为乐器和音色质量给数据打上了标签。由于需要领域专业知识，注释工作具有挑战性，但团队通过应用主动学习方法对数据进行自动标注来部分解决了这个问题。挑战3：建模作为机器学习任务-命名实体识别(NER)方法确定正确的建模方法是另一个障碍。它应该被视为识别主题还是实体？团队确定了命名实体识别(NER)方法，因为它使模型能够识别和提取与音乐相关的实体。他们采用了spaCy的自然语言处理流水线，利用了HuggingFace的RoBERTa等转换器模型。这种方法使生成式人工智能能够在音乐领域中识别像“明亮”和“吉他”这样的词的上下文，而不是它们的一般含义。模型训练的挑战和解决方案模型训练对于开发有效和准确的人工智能和机器学习模型至关重要。然而，它通常会带来一些挑战。在我们的项目背景下，当我们训练我们的转换器模型时，我们遇到了一些独特的挑战，我们不得不找到创新的解决方案来克服这些挑战。过拟合和内存问题在模型训练过程中，我们遇到的主要挑战之一是过拟合。过拟合是指模型过于专注于拟合训练数据，导致在未见或真实世界数据上表现不佳。由于我们的训练数据有限，过拟合是一个真正的问题。为了解决这个问题，我们需要确保我们的模型能够在各种真实世界场景中表现良好。为了解决这个问题，我们采用了数据增强技术。我们创建了四个不同的测试集：一个用于原始训练数据，另外三个用于在不同上下文中进行测试。在基于内容的测试集中，我们改变了整个句子，而在基于上下文的测试集中保留了音乐领域的实体。使用未见过的数据集进行测试也对验证模型的鲁棒性起到了至关重要的作用。然而，我们的旅程并不没有遇到与内存相关的障碍。使用流行的自然语言处理库spaCy训练模型会引发内存问题。最初，由于内存限制，我们仅为评估分配了2%的训练数据。将评估集扩大到5%仍然导致内存问题。为了解决这个问题，我们将训练集分成了四部分并分别进行训练，既解决了内存问题又保持了模型的准确性。模型性能和准确性我们的目标是确保模型在实际场景中表现良好，并且我们所达到的准确性不仅仅是由于过拟合造成的。由于在广泛的数据上进行了预训练的大型语言模型RoBERTa，训练过程非常快速。spaCy进一步帮助我们找到了适合我们任务的最佳模型。结果是令人鼓舞的，准确率始终超过95%。我们使用了各种测试集进行了测试，包括基于上下文和基于内容的数据集，结果准确率令人印象深刻。这证实了尽管训练数据有限，模型学习能力快速。…

YouTube音乐与环球音乐合作推出人工智能孵化器

Published September 2, 2023 by 四海吧

在一项引人注目的举措中，YouTube正积极开展一项雄心勃勃的计划，将人工智能（AI）的力量融入音乐领域。YouTube与其音乐合作伙伴环球音乐携手合作，将推出YouTube音乐AI孵化器，这一具有远见卓识的倡议探索生成式AI在塑造音乐未来中的作用。YouTube以三个关键的AI原则为核心，旨在在这个创新音乐时代和谐地融合创造力、保护和诚信。还阅读：AI开始在YouTube上进行多语言配音调和创造力：YouTube的三个AI原则在YouTube的AI革命的核心是利用生成式AI在音乐中发挥潜力的承诺。在揭示YouTube的AI框架时，首席执行官Neal Mohan强调了第一个原则：将AI视为音乐领域的一个不可或缺的部分。这个原则最终导致了YouTube音乐AI孵化器的诞生。这个合作努力将涉及来自世界各地的艺术家和创意人员，并将环球音乐纳入其中。还阅读：用AI探索音乐创作的世界 YouTube的第二个AI原则是保护音乐及其创作者。通过利用Content ID等工具，该平台坚定不移地承诺保护艺术家的作品。这一承诺确保了艺术家的创造性表达在AI创新时代也能保持纯净。它进一步体现了YouTube对维护艺术诚信的承诺。 YouTube倡导的第三个AI原则强调了AI领域的信任和安全。该平台承诺对AI生成的内容采取与其他形式的内容相同的严格保护措施。在YouTube的虚拟领域中，误导性或操纵性的AI生成内容宣扬虚假将不会找到庇护所，这一坚定立场与其向观众提供可靠和准确信息的承诺相一致。还阅读：格莱美奖禁止AI参与：人类创作者成为焦点 Meta的影响：AI池中的涟漪随着YouTube进军AI领域，该行业正在见证科技巨头之间的涟漪效应。前身为Facebook的Meta最近通过将生成式AI集成到其AudioCraft AI工具中引起了轰动。由Llama 2 LLM提供动力的这项创新使用户能够将文本转化为高质量、逼真的音频和音乐。该工具的三个独特模型——AudioGen、MusicGen和EnCodec——开启了音频和音乐生成的新时代。还阅读：SoundStorm：Google的音频模型席卷音频生成领域 AudioGen和MusicGen是Meta的黄金搭档，允许用户从文本提示中生成音频和音乐。AudioGen通过使用公共音效为音频注入生命，而MusicGen则利用Meta授权的声音创作音乐。这两个模型共同铺平了实现无与伦比的音频创造力的道路，使用户能够将他们的创意变为现实。 EnCodec成为音乐生成领域创新的标志。这个解码器引领着追求高质量音乐生成的征程，减少了音频中的人工痕迹，提供了无与伦比的听觉体验。Meta在AI生成音乐方面的进展进一步凸显了AI在创意领域的变革性影响。应对AI的影响：挑战与创新 AI和创造力的融合超越了音乐行业。然而，这个变革的过程引发了一些关注，特别是在版权和知识产权领域。虽然AI驱动的创新承诺革新创意表达，但AI生成内容的伦理和法律问题促使各行业进行深思熟虑的讨论，涉及所有权、原创性和创新。还阅读：AI生成的艺术被美国法院否定版权我们的观点随着YouTube拥抱AI无限的潜力来重塑音乐领域，技术和创造力之间的和谐相互作用展现得淋漓尽致。由三个AI原则推动的YouTube音乐AI孵化器的推出，标志着进入音乐创新的新时代的重要一步。Meta的AudioCraft AI工具展示了AI的更广泛影响力，世界正在见证一个从技术中汲取灵感、突破界限并重新定义AI时代艺术表达本质的创意景观的出现。

Tag: AI-generated music

如何使用文本转语音AI模型Bark生成音频

“文本转语音 – 训练您的大型语言模型”

YouTube音乐与环球音乐合作推出人工智能孵化器