“遇见LP-MusicCaps：一种利用大型语言模型进行标签到伪字幕生成的方法，以解决自动音乐字幕生成中的数据稀缺问题”

“遇见LP-MusicCaps：一种利用大型语言模型进行标签到伪字幕生成的方法，以解决自动音乐字幕生成中的数据稀缺问题” 四海第1张

音乐标题生成涉及通过生成给定音乐曲目的自然语言描述来进行音乐信息检索。生成的标题是句子的文本描述，区别于其他音乐语义理解任务，如音乐标记。这些模型通常使用编码器-解码器框架。

关于音乐标题生成的研究有了显著增长。然而，尽管其重要性，研究这些技术的研究人员面临着数据集收集的昂贵和繁琐任务的障碍。此外，可用的音乐-语言数据集数量有限，这也带来了挑战。由于数据集的稀缺性，成功训练音乐标题生成模型并不容易。大型语言模型（LLMs）可能是音乐标题生成的潜在解决方案。LLMs是具有超过十亿个参数的前沿模型，能够在少量或零个示例的情况下处理任务并展现出令人印象深刻的能力。这些模型通过从维基百科、GitHub、聊天记录、医学文章、法律文章、书籍和从互联网爬取的网页等各种来源的大量文本数据进行训练。广泛的训练使它们能够理解和解释各种上下文和领域中的单词。

随后，韩国的一支研究团队开发了一种称为LP-MusicCaps（基于大型语言的伪音乐标题数据集）的方法，通过将LLMs谨慎应用于标记数据集来创建一个音乐标题数据集。他们对大规模音乐标题数据集进行了系统评估，使用了自然语言处理领域中的各种定量评估指标以及人工评估。结果生成了大约220万个与50万个音频剪辑配对的标题。首先，他们提出了一种基于LLM的方法来生成音乐标题数据集LP-MusicCaps。其次，他们提出了一种用于对LLMs生成的音乐标题进行系统评估的方案。第三，他们证明了在LP-MusicCaps上训练的模型在零样本和迁移学习场景中表现良好，证明了使用基于LLM的伪音乐标题的合理性。

研究人员首先从现有的音乐标记数据集中收集多标签标签。这些标签涵盖了音乐的各个方面，如流派、情绪、乐器等。他们仔细构建了任务说明，为音乐曲目生成描述性句子，这些句子作为大型语言模型的输入（提示）。由于其在各种任务中表现出色，他们选择了强大的GPT-3.5 Turbo语言模型来执行音乐标题生成。GPT-3.5 Turbo的训练过程包括一个具有大量数据的初始阶段，并且受益于巨大的计算能力。随后，他们使用增强学习和人类反馈进行微调。这个微调过程旨在提高模型与指令有效交互的能力。

研究人员将基于LLM的标题生成器与基于模板的方法（标签连接、提示模板）和K2C增强进行了比较。在K2C增强的情况下，当指令缺失时，输入标签会被省略在生成的标题中，导致生成的句子可能与歌曲描述无关。另一方面，基于模板的模型表现出更好的性能，因为它从模板中存在的音乐上下文中受益。

他们使用BERT-Score指标评估生成的标题的多样性。这个框架显示出更高的BERT-Score值，生成具有更多样化词汇的标题。这意味着该方法生成的标题提供了更广泛的语言表达和变化，使其更具吸引力和丰富上下文。

随着研究人员不断完善和提升他们的方法，他们也期待利用语言模型的力量来推动音乐标题生成并为音乐信息检索做出贡献。