本文将向您展示如何使用OpenAI的Whisper API将音频转录为文字它还将向您展示如何在自己的项目中使用它，以及如何将其集成到您的数据科学项目中

OpenAI的Whisper API用于转录和翻译 AI 新闻第1张

你有很多录音，但是没有精力开始听和转录吗？当我还是学生的时候，我记得我每天都要花费很多时间听录制的课程，大部分时间都被转录占据了。此外，那不是我的母语，我不得不把每个句子都拖到谷歌翻译中将其转换为意大利语。

现在，手动转录和翻译只是回忆。ChatGPT著名研究公司OpenAI为语音转文本对话推出了Whisper API！只需几行Python代码，您就可以调用这个强大的语音识别模型，将心中的想法转化为文字，专注于其他活动，如与数据科学项目练习和提高您的组合。让我们开始吧！

什么是Whisper？

Whisper是由OpenAI开发的基于神经网络的模型，用于解决语音转文本任务。它属于GPT-3系列，因其将音频转录为文本的非常高的准确性而变得非常流行。

它不仅限于处理英语，而且能力扩展到50多种语言。如果您有兴趣了解您的语言是否包括在内，请在此处检查。此外，它可以将任何语言的音频翻译为英语。

与其他OpenAI产品一样，有一个API可以访问这些语音识别服务，允许开发人员和数据科学家将Whisper集成到其平台和应用程序中。

如何访问Whisper API？

OpenAI的Whisper API用于转录和翻译 AI 新闻第2张

在进一步操作之前，您需要完成几个步骤以访问Whisper API。首先，前往OpenAI API网站并登录。如果您还没有帐户，则需要创建它。输入后，单击您的用户名，然后按“查看API密钥”选项。然后，单击“创建新的API密钥”按钮，并将新创建的API密钥复制到您的Python代码中。

使用Whisper API转录

首先，让我们下载Kevin Stratvert的YouTube视频，他是一位非常受欢迎的YouTuber，通过学习工具（如Power BI、视频编辑和AI产品）帮助来自世界各地的学生掌握技术和提高技能。例如，假设我们想要转录视频“3 Mind-blowing AI Tools”。

我们可以直接使用pytube库下载此视频。要安装它，您需要以下命令行：

pip install pytube3
pip install openai

我们还要安装openai库，因为它将在本教程中使用。一旦安装了所有Python库，我们只需要将视频的URL传递给Youtube对象。然后，我们获取最高分辨率的视频流，然后下载视频。

from pytube import YouTube

video_url = "https://www.youtube.com/watch?v=v6OB80Vt1Dk&t=1s&ab_channel=KevinStratvert"

yt = YouTube(video_url)
stream = yt.streams.get_highest_resolution()
stream.download()

文件下载完成后，就可以开始有趣的部分了！

import openai

API_KEY = 'your_api_key'
model_id = 'whisper-1'
language = "en"
audio_file_path = 'audio/5_tools_audio.mp4'
audio_file = open(audio_file_path, 'rb')

在设置参数并打开音频文件后，我们可以将音频转录并将其保存到Txt文件中。

response = openai.Audio.transcribe(
    api_key=API_KEY,
    model=model_id,
    file=audio_file,
    language='en'
)
transcription_text = response.text
print(transcription_text)

输出：

大家好，我是Kevin。今天，我们将看一下利用人工智能的五种不同工具，它们的使用方式非常令人难以置信。例如，我可以实时更改我的声音。我还可以突出显示照片的某个区域，并使其自动消失。嗯，我儿子去哪儿了？我还可以给电脑指令，比如，我不知道，为Kevin cookie company写一首歌......

正如预期的那样，输出结果非常精确。即使标点符号也非常准确，我印象深刻！

使用 Whisper API 进行翻译

这次，我们将把音频从意大利语翻译成英语。与之前一样，我们下载音频文件。在我的示例中，我使用了这个流行的意大利 YouTuber Piero Savastano 的 YouTube 视频，他以非常简单和有趣的方式教授机器学习。您只需要复制以前的代码并仅更改 URL。下载完成后，我们像以前一样打开音频文件：

audio_file_path = 'audio/ml_in_python.mp4'
audio_file = open(audio_file_path, 'rb')

然后，我们可以从意大利语生成英语翻译。

response = openai.Audio.translate(
    api_key=API_KEY,
    model=model_id,
    file=audio_file
)
translation_text = response.text
print(translation_text)

输出：

我们还可以看到一些以统计样式呈现的图形，因此我们也应该了解如何阅读它们。其中之一是箱形图，它允许以中位数、第一四分位数和第三四分位数的形式看到分布情况。现在我要告诉你这意味着什么。我们总是从数据框中获取数据。X 是季节。在 Y 上，我们放置租用的自行车数量。然后我想根据是否是假日来区分这些箱形图。这个图表出来了。怎么读这个图？这里 X 轴上是季节，用数字表示。蓝色代表非假日，橙色代表假日。这里是自行车数量。这些矩形是什么？看看这个箱子。我在用鼠标旋转它....

最后的想法

就这样！我希望这个教程能帮助你入门 Whisper API。在这个案例研究中，它被应用于 YouTube 视频，但您也可以尝试播客、Zoom 通话和会议。我发现转录和翻译后获得的输出非常令人印象深刻！这个 AI 工具正在帮助很多人。唯一的限制是只能将文本翻译为英语，而不能反过来，但我相信 OpenAI 很快会提供它。谢谢阅读！祝你有一个愉快的一天！

资源

Whisper API 的语音转文本指南
使用 Python 开始使用 OpenAI Whisper API | YouTube 视频

Eugenia Anello 目前是意大利帕多瓦大学信息工程系的研究员。她的研究项目专注于连续学习与异常检测的结合。