OpenAI宣布开源多语言语音识别系统Whisper

图灵汇官网

尽管包括 Google、亚马逊和 Meta 在内的科技巨头都在其软件和服务中广泛运用了先进的语音识别系统,但这一领域在人工智能和机器学习方面仍然充满挑战。值得高兴的是,OpenAI 最近宣布了 Whisper 的开源计划。这是一款自动语音识别系统,据称可以处理多种语言的高效转录,并将其翻译成英语。

OpenAI 强调,Whisper 的独特之处在于它使用了从网络上收集的 68 万小时多语言和“多任务”训练数据。这使得 Whisper 能够更好地识别独特的口音、背景噪音以及技术术语。

官方在其 GitHub 存储库中表示,Whisper 主要面向希望研究当前模型的稳健性、泛化能力、能力和偏差的 AI 研究人员。同时,它也是面向开发者的一款优秀自动语音识别解决方案,尤其是在英语语音识别方面。

有兴趣的人可以从托管平台上下载 Whisper 系统的多个版本。这些模型在大约 10 种语言上展示了强大的自动语音识别(ASR)能力。如果经过适当的微调,它们还可以在语音活动检测、讲述者分类等方面展现出更多潜力。

尽管如此,Whisper 尚未在相关领域得到充分评估,且存在一定的局限性,特别是在文本预测方面。由于系统接受了大量“嘈杂”的数据训练,OpenAI 提前提醒用户,Whisper 可能会在转录中包含实际上未讲述的单词。这可能是因为系统在预测音频中的下一个单词的同时,也在尝试转录音频本身。

此外,Whisper 在不同语言场景下的表现并不均衡,尤其是在那些在训练数据中没有良好代表的语言方面,其错误率较高。然而,这种情况在语音识别领域已经普遍存在,即使是业内领先的系统也经常面临这样的问题。

参考斯坦福大学在 2020 年发布的一项研究,相较于黑人用户,来自亚马逊、苹果、Google、IBM 和微软系统的错误率在白人用户中要低得多(约 35%)。尽管如此,Whisper 约有 1/3 的音频数据集是非英语的。

即便如此,OpenAI 认为 Whisper 的转录功能可以帮助改进现有的可访问性工具。他们在 GitHub 上提到,虽然 Whisper 不适用于实时转录,但其速度和大小表明,其他人可以在其基础上构建近乎实时的语音识别和翻译应用。

基于 Whisper 模型的应用程序有望发挥出真正的经济影响力。OpenAI 希望大家能够积极利用这项技术,改进自动语音识别技术,让更多参与者能够创建更负责任的项目。在速度和准确性的双重优势下,Whisper 将使大量的通信能够享受到经济实惠的自动转录和翻译服务。

本文来源: 图灵汇 文章作者: zhoujiedc