能听懂口音的开源语音系统来了:OpenAI出品,支持99种语言

图灵汇官网

接近人类水平的语音识别系统:Whisper

近日,OpenAI推出了一款名为“Whisper”的新语音识别系统,该系统在英文语音识别方面展现了接近人类水平的准确性和鲁棒性。

Whisper不仅在处理不同口音和专业术语时表现出色,还获得了广泛关注,发布后在推特上赢得了4800多个赞和1000多次转发。

许多用户对其强大的功能感到惊讶。除了英文,Whisper在其他语言上的表现也同样出色。例如,有人用法国诗人波德莱尔的《恶之花》进行了语音测试,结果显示文本与原文几乎一致。

OpenAI联合创始人兼首席科学家Ilya Sutskever表示:“终于有了一个能够准确理解我的口音的语音识别系统。”

前特斯拉人工智能总监Andrej Karpathy也称赞道:“OpenAI正处于最佳状态。”

Whisper的工作原理

Whisper的主要特点之一是其庞大的训练数据集。它使用了从网络上收集的68万小时的多语言、多任务监督数据进行训练。这些数据涵盖了多种环境、录音设备以及不同语言的音频。

具体而言,训练数据中65%是英语音频及对应的文本,约18%是非英语音频和英语文本,剩下的17%是非英语音频及其相应的文本。其中,非英语部分包含98种不同的语言。

尽管音频质量的多样性有助于提高模型的鲁棒性,但转录文本质量的多样性并不总是有益的。为了改善这一点,研究团队开发了自动过滤方法来识别和删除低质量的数据源。

Whisper采用了简单的端到端方法,即Transformer编码器-解码器架构。输入音频被分割成30秒的片段,转换成log-Mel谱图后传递给编码器。解码器则被训练来预测相应的文本标题,并通过特殊标记来指示模型执行特定任务,如语言识别、多语言语音转录和英语语音翻译。

此外,Whisper提供了五种不同型号,供用户根据需求选择。其中,“大型”型号支持多语言,而前四种型号则仅支持英语。

实验结果

实验表明,Whisper在Librispeech test-clean测试中的错误率为2.7%,虽然与Wav2vec 2.0相同,但在零样本性能上,Whisper更稳健,平均误差降低了55%。

此外,Whisper缩小了与人类鲁棒性的差距。与人类Alec相比,LibriSpeech模型的错误率大约是人类的两倍,而Whisper模型的鲁棒性边界则包括Alec95%的置信区间。

研究团队

Whisper的研究团队来自OpenAI,由Alec Radford和Jong Wook Kim共同领导。Alec Radford是OpenAI的机器学习研究员,同时也是indico.io的联合创始人。Jong Wook Kim在纽约大学获得了音乐技术博士学位,研究方向包括多模态深度学习和音乐理解。

尽管目前Whisper尚未具备实时功能,但其运行速度和内存大小表明,在此基础上构建实时语音识别和翻译功能是可行的。研究团队希望Whisper的高精度和易用性能推动语音接口在更多应用程序中的应用。

感兴趣的读者可以访问论文和GitHub链接获取更多信息。

  • 论文链接:https://cdn.openai.com/papers/whisper.pdf
  • GitHub链接:https://github.com/openai/whisper#approach

希望通过这些信息,您能更好地了解这款接近人类水平的语音识别系统——Whisper。

本文来源: 图灵汇 文章作者: 飞机领头羊