亚马逊转录宣布推出一款新的基于语音模型的ASR系统，支持扩展至100多种语言

Amazon Transcribe 是一项完全托管的自动语音识别（ASR）服务，使您能够轻松向应用程序添加语音转文本功能。今天，我们很高兴地宣布推出下一代多十亿参数语音基础模型的系统，将自动语音识别扩展到100多种语言。在这篇文章中，我们讨论了这个系统的一些好处，以及公司如何使用它以及如何入门。我们还提供了以下转录输出的示例。

Transcribe的语音基础模型使用最佳自监控算法进行训练，以学习跨语言和口音的人类语言的固有普遍模式。它在来自100多种语言的数百万小时的未标记音频数据上进行训练。训练配方通过智能数据采样进行优化，以在语言之间平衡训练数据，确保传统上代表性不足的语言也达到高准确度水平。

Carbyne是一家开发基于云的、为紧急呼叫响应者提供关键任务支持的软件公司。Carbyne的使命是帮助紧急响应者挽救生命，语言不能妨碍他们的目标。以下是他们如何使用Amazon Transcribe来追求他们的使命：

“搭载AI技术的Carbyne实时语音翻译直接旨在帮助改善那些家庭使用英语以外语言的6800万美国人和每年访问该国的高达7900万外国游客对于紧急响应的反应。通过利用Amazon Transcribe的新型多语言基础模型支持的ASR，Carbyne将更好地为民主化的挽救生命的紧急服务做好准备，因为每一个人都重要。”

– Carbyne的联合创始人兼首席技术官Alex Dizengof。

通过利用语音基础模型，Amazon Transcribe在大多数语言中提供了20%至50%的显著准确率提升。在电话语音方面，准确率提高了30%至70%。除了显著的准确率提升，这个大型ASR模型还在标点和首字母大写方面提供了更准确的可读性。随着生成式人工智能的出现，成千上万的企业正在使用Amazon Transcribe解锁他们音频内容中的丰富洞察力。随着准确率显著提高和对100多种语言的支持，Amazon Transcribe将对所有此类用例产生积极影响。所有现有客户和以批处理模式使用Amazon Transcribe的新客户都可以在不需要对API端点或输入参数进行任何更改的情况下访问语音基础模型支持的语音识别。

新的ASR系统在与易用性、定制化、用户安全性和隐私性相关的100多种语言方面提供了几个关键功能。这些功能包括自动标点、自定义词汇表、自动语言识别、发音区分、单词级置信度分数以及自定义词汇表过滤器。该系统对不同口音、噪音环境和声学条件的广泛支持使您能够产生更准确的输出，从而帮助您在应用程序中有效地嵌入语音技术。

通过Amazon Transcribe在不同口音和噪音条件下的高准确性，它对大量语言的支持以及其丰富的增值特性集，数千家企业将能够从其音频内容中获取丰富的洞察力，并提高其音频和视频内容在各个领域的可访问性和可发现性。例如，联系中心使用Amazon Transcribe将客户电话转录并分析以获取洞察力，并随后改善客户体验和代理商产能。内容制作商和媒体分发商使用Amazon Transcribe自动生成字幕以提高内容的可访问性。

开始使用Amazon Transcribe

您可以使用AWS命令行界面（AWS CLI），AWS管理控制台和各种AWS SDK进行批量转录，并继续使用相同的StartTranscriptionJob API，以从增强的ASR模型获得性能优势，而无需在您的端进行任何代码或参数更改。有关使用AWS CLI和控制台的更多信息，请参阅使用AWS CLI进行转录和使用AWS管理控制台进行转录。

首先，您需要将媒体文件上传至一个Amazon Simple Storage Service（Amazon S3）存储桶中，这是一个用于存储和检索任意数量数据的对象存储服务。Amazon S3在可用性、性能、安全性和可扩展性方面均处于行业领先地位，并且成本非常低廉。您可以选择将转录保存在您自己的S3存储桶中，或者让Amazon Transcribe使用一个安全的默认存储桶。有关使用S3存储桶的更多信息，请参阅创建、配置和使用Amazon S3存储桶。

转录输出

Amazon Transcribe使用JSON格式表示其输出。它以文本格式和项目化格式提供转录结果，不会影响API端点或输入参数。

文本格式以文本块的形式提供转录，而项目化格式以时间顺序的转录项目形式提供，每个项目还附带附加元数据。这两种格式在输出文件中同时存在。

根据创建转录作业时选择的功能，Amazon Transcribe将创建转录结果的额外和丰富视图。请参阅以下示例代码：

{   "jobName": "2x-speakers_2x-channels",    "accountId": "************",    "results": {        "transcripts": [{                "transcript": "你好，欢迎。"            }        ],        "speaker_labels": [            {                "channel_label": "ch_0",                "speakers": 2,                "segments": [                ]            },            {                "channel_label": "ch_1",                "speakers": 2,                "segments": [                ]            }        ],        "channel_labels": {            "channels": [            ],            "number_of_channels": 2        },        "items": [                    ],        "segments": [        ]    },    "status": "已完成"}

这些视图如下：

转录 – 由transcripts元素表示，仅包含转录的文本格式。在多说话者、多通道的情况下，所有转录的拼接形式将作为一个单独的文本块提供。
说话者 – 由speaker_labels元素表示，它包含按说话者分组的转录的文本和项目化格式。只有在启用多说话者功能时才可用。
通道 – 由channel_labels元素表示，它包含按通道分组的转录的文本和项目化格式。只有在启用多通道功能时才可用。
项目 – 由items元素表示，仅包含转录的项目化格式。在多说话者、多通道的情况下，项目将被附加属性丰富，指示说话者和通道。
分段 – 由segments元素表示，它包含按备选转录分组的转录的文本和项目化格式。只有在启用备选结果功能时才可用。

结论

在AWS上，我们不断为客户进行创新。通过将Amazon Transcribe的语言支持扩展到100多种语言，我们使客户能够为来自不同语言背景的用户提供服务。这不仅提高了可访问性，还为全球范围内的沟通和信息交流开辟了新的途径。要了解更多有关本文介绍的功能，请查看功能页面和最新文章。