利用大型语言模型、最先进的文本和语音分析工具以及向量数据库构建一种端到端的音频推荐解决方案。
介绍
我们这一代有幸能够使用各种流媒体服务,包括音频和视频内容。
从我们的手机、笔记本电脑和其他数字设备上,我们很容易因这些服务的快速生成而感到不知所措。
在一天结束时,我们只对特定类型的内容感兴趣,而不是整个宇宙🌏生成的歌曲或播客。
在本文中,您将学习如何利用大型语言模型和向量数据库创建一个音频推荐系统,该系统将根据用户的兴趣建议热门视频。
推荐工作流程和主要组件
在深入了解技术实现之前,让我们先看一下我们要构建的推荐系统的一般工作流程。
- 首先,我们使用Python收集视频,并将每个视频转换为音频。
- 然后使用OpenAI的
whisper
模型将音频转录为文本。 - 之后,我们使用
text-embedding-ada-002
模型生成转录嵌入。 - 这些嵌入用于填充向量数据库,用于执行查询。
whisper模型简介
whisper
模型是一种强大的文本到语音模型,旨在研究语音处理系统在语音识别和翻译等任务上的能力。
该模型使用了68万小时的标记音频数据进行训练,根据作者所说,这是迄今为止最大的受监督语音识别训练集之一。