Press "Enter" to skip to content

OpenAI的Whisper API用于转录和翻译

本文将向您展示如何使用OpenAI的Whisper API将音频转录为文字它还将向您展示如何在自己的项目中使用它,以及如何将其集成到您的数据科学项目中

OpenAI的Whisper API用于转录和翻译 AI 新闻 第1张

你有很多录音,但是没有精力开始听和转录吗?当我还是学生的时候,我记得我每天都要花费很多时间听录制的课程,大部分时间都被转录占据了。此外,那不是我的母语,我不得不把每个句子都拖到谷歌翻译中将其转换为意大利语。

现在,手动转录和翻译只是回忆。ChatGPT著名研究公司OpenAI为语音转文本对话推出了Whisper API!只需几行Python代码,您就可以调用这个强大的语音识别模型,将心中的想法转化为文字,专注于其他活动,如与数据科学项目练习和提高您的组合。让我们开始吧!

什么是Whisper?

Whisper是由OpenAI开发的基于神经网络的模型,用于解决语音转文本任务。它属于GPT-3系列,因其将音频转录为文本的非常高的准确性而变得非常流行。

它不仅限于处理英语,而且能力扩展到50多种语言。如果您有兴趣了解您的语言是否包括在内,请在此处检查。此外,它可以将任何语言的音频翻译为英语。

与其他OpenAI产品一样,有一个API可以访问这些语音识别服务,允许开发人员和数据科学家将Whisper集成到其平台和应用程序中。

如何访问Whisper API?

OpenAI的Whisper API用于转录和翻译 AI 新闻 第2张

在进一步操作之前,您需要完成几个步骤以访问Whisper API。首先,前往OpenAI API网站并登录。如果您还没有帐户,则需要创建它。输入后,单击您的用户名,然后按“查看API密钥”选项。然后,单击“创建新的API密钥”按钮,并将新创建的API密钥复制到您的Python代码中。

使用Whisper API转录

首先,让我们下载Kevin Stratvert的YouTube视频,他是一位非常受欢迎的YouTuber,通过学习工具(如Power BI、视频编辑和AI产品)帮助来自世界各地的学生掌握技术和提高技能。例如,假设我们想要转录视频“3 Mind-blowing AI Tools”。

我们可以直接使用pytube库下载此视频。要安装它,您需要以下命令行:

pip install pytube3
pip install openai

我们还要安装openai库,因为它将在本教程中使用。一旦安装了所有Python库,我们只需要将视频的URL传递给Youtube对象。然后,我们获取最高分辨率的视频流,然后下载视频。

from pytube import YouTube

video_url = "https://www.youtube.com/watch?v=v6OB80Vt1Dk&t=1s&ab_channel=KevinStratvert"

yt = YouTube(video_url)
stream = yt.streams.get_highest_resolution()
stream.download()

文件下载完成后,就可以开始有趣的部分了!

import openai

API_KEY = 'your_api_key'
model_id = 'whisper-1'
language = "en"
audio_file_path = 'audio/5_tools_audio.mp4'
audio_file = open(audio_file_path, 'rb')

在设置参数并打开音频文件后,我们可以将音频转录并将其保存到Txt文件中。

response = openai.Audio.transcribe(
    api_key=API_KEY,
    model=model_id,
    file=audio_file,
    language='en'
)
transcription_text = response.text
print(transcription_text)

输出:

大家好,我是Kevin。今天,我们将看一下利用人工智能的五种不同工具,它们的使用方式非常令人难以置信。例如,我可以实时更改我的声音。我还可以突出显示照片的某个区域,并使其自动消失。嗯,我儿子去哪儿了?我还可以给电脑指令,比如,我不知道,为Kevin cookie company写一首歌......

正如预期的那样,输出结果非常精确。即使标点符号也非常准确,我印象深刻!

使用 Whisper API 进行翻译

这次,我们将把音频从意大利语翻译成英语。与之前一样,我们下载音频文件。在我的示例中,我使用了这个流行的意大利 YouTuber Piero Savastano 的 YouTube 视频,他以非常简单和有趣的方式教授机器学习。您只需要复制以前的代码并仅更改 URL。下载完成后,我们像以前一样打开音频文件:

audio_file_path = 'audio/ml_in_python.mp4'
audio_file = open(audio_file_path, 'rb')

然后,我们可以从意大利语生成英语翻译。

response = openai.Audio.translate(
    api_key=API_KEY,
    model=model_id,
    file=audio_file
)
translation_text = response.text
print(translation_text)

输出:

我们还可以看到一些以统计样式呈现的图形,因此我们也应该了解如何阅读它们。其中之一是箱形图,它允许以中位数、第一四分位数和第三四分位数的形式看到分布情况。现在我要告诉你这意味着什么。我们总是从数据框中获取数据。X 是季节。在 Y 上,我们放置租用的自行车数量。然后我想根据是否是假日来区分这些箱形图。这个图表出来了。怎么读这个图?这里 X 轴上是季节,用数字表示。蓝色代表非假日,橙色代表假日。这里是自行车数量。这些矩形是什么?看看这个箱子。我在用鼠标旋转它....

最后的想法

就这样!我希望这个教程能帮助你入门 Whisper API。在这个案例研究中,它被应用于 YouTube 视频,但您也可以尝试播客、Zoom 通话和会议。我发现转录和翻译后获得的输出非常令人印象深刻!这个 AI 工具正在帮助很多人。唯一的限制是只能将文本翻译为英语,而不能反过来,但我相信 OpenAI 很快会提供它。谢谢阅读!祝你有一个愉快的一天!

资源

  • Whisper API 的语音转文本指南
  • 使用 Python 开始使用 OpenAI Whisper API | YouTube 视频

Eugenia Anello 目前是意大利帕多瓦大学信息工程系的研究员。她的研究项目专注于连续学习与异常检测的结合。

Leave a Reply

Your email address will not be published. Required fields are marked *