Press "Enter" to skip to content

Tag: DataHour

“文本转语音 – 训练您的大型语言模型”

介绍 想象一个世界,人工智能可以接受音乐家的语音指令,并将其转化为美妙的、旋律优美的吉他声音。这不是科幻小说,而是源自于开源社区“AI之声”的突破性研究。在本文中,我们将探讨在生成式人工智能吉他声音的“文本到声音”领域创建大型语言模型(LLM)的旅程。我们将讨论所面临的挑战以及为实现这个愿景所开发的创新解决方案。 学习目标: 了解在“文本到声音”领域创建大型语言模型的挑战和创新解决方案。 探索在开发基于语音指令生成吉他声音的人工智能模型时面临的主要挑战。 深入了解使用ChatGPT和QLoRA模型等人工智能进展改进生成式人工智能的未来方法。 问题陈述:音乐家的意图识别 问题是使人工智能能够根据音乐家的语音指令生成吉他声音。例如,当音乐家说“给我你明亮的吉他声音”时,生成式人工智能模型应该理解意图并产生明亮的吉他声音。这需要上下文和领域特定的理解,因为像“明亮”这样的词在一般语言中有不同的含义,但在音乐领域代表特定的音色质量。 数据集挑战和解决方案 训练大型语言模型的第一步是拥有与模型的输入和期望输出相匹配的数据集。在确定正确的数据集以训练我们的LLM以理解音乐家的指令并以正确的吉他声音作出回应时,我们遇到了几个问题。以下是我们如何处理这些问题。 挑战1:吉他音乐领域数据集准备 一个重大的挑战是缺乏特定于吉他音乐的可用数据集。为了克服这个问题,团队不得不创建自己的数据集。这个数据集需要包括音乐家之间讨论吉他声音的对话,以提供上下文。他们利用了Reddit的讨论等资源,但发现需要扩大这个数据池。他们采用了数据增强、使用BiLSTM深度学习模型和生成基于上下文的增强数据集等技术。 挑战2:数据注释和创建标记数据集 第二个挑战是对数据进行注释以创建一个带有标签的数据集。像ChatGPT这样的大型语言模型通常在通用数据集上进行训练,需要对特定领域的任务进行微调。例如,“明亮”可以指光线或音乐质量。团队使用了一种名为Doccano的注释工具,教会模型正确的上下文。音乐家为乐器和音色质量给数据打上了标签。由于需要领域专业知识,注释工作具有挑战性,但团队通过应用主动学习方法对数据进行自动标注来部分解决了这个问题。 挑战3:建模作为机器学习任务-命名实体识别(NER)方法 确定正确的建模方法是另一个障碍。它应该被视为识别主题还是实体?团队确定了命名实体识别(NER)方法,因为它使模型能够识别和提取与音乐相关的实体。他们采用了spaCy的自然语言处理流水线,利用了HuggingFace的RoBERTa等转换器模型。这种方法使生成式人工智能能够在音乐领域中识别像“明亮”和“吉他”这样的词的上下文,而不是它们的一般含义。 模型训练的挑战和解决方案 模型训练对于开发有效和准确的人工智能和机器学习模型至关重要。然而,它通常会带来一些挑战。在我们的项目背景下,当我们训练我们的转换器模型时,我们遇到了一些独特的挑战,我们不得不找到创新的解决方案来克服这些挑战。 过拟合和内存问题 在模型训练过程中,我们遇到的主要挑战之一是过拟合。过拟合是指模型过于专注于拟合训练数据,导致在未见或真实世界数据上表现不佳。由于我们的训练数据有限,过拟合是一个真正的问题。为了解决这个问题,我们需要确保我们的模型能够在各种真实世界场景中表现良好。 为了解决这个问题,我们采用了数据增强技术。我们创建了四个不同的测试集:一个用于原始训练数据,另外三个用于在不同上下文中进行测试。在基于内容的测试集中,我们改变了整个句子,而在基于上下文的测试集中保留了音乐领域的实体。使用未见过的数据集进行测试也对验证模型的鲁棒性起到了至关重要的作用。 然而,我们的旅程并不没有遇到与内存相关的障碍。使用流行的自然语言处理库spaCy训练模型会引发内存问题。最初,由于内存限制,我们仅为评估分配了2%的训练数据。将评估集扩大到5%仍然导致内存问题。为了解决这个问题,我们将训练集分成了四部分并分别进行训练,既解决了内存问题又保持了模型的准确性。 模型性能和准确性 我们的目标是确保模型在实际场景中表现良好,并且我们所达到的准确性不仅仅是由于过拟合造成的。由于在广泛的数据上进行了预训练的大型语言模型RoBERTa,训练过程非常快速。spaCy进一步帮助我们找到了适合我们任务的最佳模型。 结果是令人鼓舞的,准确率始终超过95%。我们使用了各种测试集进行了测试,包括基于上下文和基于内容的数据集,结果准确率令人印象深刻。这证实了尽管训练数据有限,模型学习能力快速。…

Leave a Comment

数据小时:将ChatGPT幻象减少80%

介绍 自然语言处理(NLP)模型在近年来变得越来越受欢迎,应用范围从聊天机器人到语言翻译。然而,在NLP中最大的挑战之一是减少ChatGPT模型生成的虚假或错误的回答。在本文中,我们将讨论减少NLP模型中幻觉的技术和挑战。 可观察性、调整和测试 减少幻觉的第一步是提高模型的可观察性。这涉及建立反馈循环,以捕获用户反馈和模型在生产中的表现。调整包括通过添加更多数据、纠正检索问题或更改提示来改进不良回答。测试是必要的,以确保改变改善结果并且不会导致回归。在可观察性方面面临的挑战包括客户发送糟糕回复的截图,导致用户沮丧。为了解决这个问题,可以使用数据摄取和秘密代码每天监控日志。 调试和调整语言模型 调试和调整语言模型的过程涉及理解模型的输入和输出。为了调试,需要记录以识别原始提示并将其过滤为特定的部分或参考。日志需要对任何人来说都是可操作和易于理解的。调整涉及确定应该输入模型的文档数量。默认的数量并不总是准确的,相似性搜索可能无法得到正确的答案。目标是找出出了什么问题以及如何修复。 优化OpenAI嵌入 一个向量数据库查询应用程序的开发者面临了优化应用中使用的OpenAI嵌入性能的挑战。第一个挑战是确定传递给模型的最佳文档数量,通过控制分块策略和引入可控的超参数来解决这个问题。第二个挑战是提示的变化,通过使用一个名为Better Prompt的开源库来解决,该库根据困惑度评估不同版本的提示性能。第三个挑战是改进OpenAI嵌入的结果,在多语言场景中,OpenAI嵌入性能比句子转换器更好。 AI开发中的技术 本文讨论了AI开发中使用的三种不同技术。第一种技术是困惑度,用于评估给定任务上提示的性能。第二种技术是构建一个允许用户轻松测试不同提示策略的软件包。第三种技术是运行索引,当有遗漏或不理想的情况时,更新索引以进行更动态的问题处理。 使用GPT-3 API计算困惑度 演讲者讨论了他们使用GPT-3 API根据查询计算困惑度的经验。他们解释了通过API运行提示并返回最佳下一个标记的对数概率的过程。他们还提到了将大型语言模型微调以模仿特定写作风格而不是嵌入新信息的可能性。 评估对多个问题的回答 文章讨论了评估一次50多个问题的回答的挑战。手动评分每个回答需要很多时间,因此公司考虑使用自动评估器。然而,简单的是/否决策框架是不够的,因为回答不正确可能有多个原因。公司将评估分解为不同的组件,但发现单次运行自动评估器不稳定和不一致。为了解决这个问题,他们对每个问题运行了多次测试,并将回答分类为完美、几乎完美、不正确但包含一些正确信息或完全不正确。 减少NLP模型中的幻觉 演讲者讨论了他们减少自然语言处理模型中幻觉的过程。他们将决策过程分为四个类别,并为50多个类别使用了自动功能。他们还将评估过程推广到核心产品中,允许运行和导出到CSB的评估。演讲者提到了一个GitHub存储库,以获取有关该项目的更多信息。然后,他们讨论了他们采取的减少幻觉的步骤,包括可观察性、调整和测试。他们能够将幻觉率从40%降低到低于5%。 结论 减少NLP模型中ChatGPT的幻觉是一个复杂的过程,涉及到可观察性、调整和测试。开发人员还必须考虑提示的变化,优化嵌入和评估对多个问题的回答。在AI开发中,诸如困惑度、构建测试提示策略的包和运行索引等技术也非常有用。AI开发的未来在于小型、私有或任务特定的元素。 主要要点 减少NLP模型中ChatGPT的幻觉涉及到可观察性、调整和测试。 开发人员必须考虑提示的变化,优化嵌入和评估对多个问题的回答。 在AI开发中,诸如困惑度、构建测试提示策略的包和运行索引等技术也非常有用。…

Leave a Comment