谷歌表示,推出通用语音模型(USM)是其未来支持1000种语言的重要一步。
去年11月,谷歌宣布了“1000种语言计划”,旨在构建一个机器学习模型,支持全球使用最广泛的1000种语言,从而为数十亿人提供更广泛的包容性。然而,其中一些语言使用者不足2000万人,因此如何支持使用人数较少或数据有限的语言成为核心挑战。
目前,谷歌公开了更多关于通用语音模型(USM)的信息,这是实现“1000种语言计划”的第一步。USM包含了一系列最先进的语音模型,拥有20亿参数,经过1200万小时的语音和280亿条文本句子的训练,涵盖了300多种语言。USM不仅可以识别广泛使用的语言如英语和普通话,还能识别使用人数较少的语言,如阿姆哈拉语、宿雾语、阿萨姆语和阿塞拜疆语。
谷歌通过使用大规模未标记的多语言数据集预训练模型编码器,并用较小的标记数据集进行微调,成功提升了模型对稀有语言的识别能力。此外,谷歌的模型训练过程能够有效地适应新的语言和数据。
为了实现“1000种语言计划”,谷歌需要克服自动语音识别(ASR)中的两大挑战:
数据获取:传统的监督学习方法缺乏可扩展性。将语音技术扩展到多种语言的一个基本挑战是获得足够的数据来训练高质量的模型。使用传统方法,音频数据需要手动标记,这既耗时又昂贵;或者从现有数据中收集可用数据,但对于使用人数较少的语言来说,这很困难。
计算效率:随着语言覆盖范围的扩大和模型质量的提升,模型需要以计算高效的方式进行改进。这意味着学习算法需要具备灵活性、高效性和泛化能力,能够在不完全重新训练的情况下更新模型,并推广到新的语言和应用场景。
USM采用了标准的编码器-解码器架构,其中解码器可以是CTC、RNN-T或LAS。对于编码器,USM使用了Conformer或卷积增强型transformer。Conformer的核心组件是Conformer块,由注意力模块、前馈模块和卷积模块组成。它将语音信号的log-mel声谱图作为输入,执行卷积下采样,然后应用一系列Conformer块和投影层以获得最终嵌入。
USM的训练流程如下:
谷歌的编码器通过整合300多种语言的预训练,并通过在YouTube字幕多语言语音数据上微调,证明了这种预训练编码器的有效性。尽管监督数据有限,USM在73种语言中平均实现了低于30%的词错率(WER),这是一个前所未有的里程碑。对于英语(en-US),与谷歌现有的SOTA模型相比,USM的WER相对降低了6%。
谷歌还将USM与OpenAI近期发布的大型模型Whisper (large-v2)进行了对比,Whisper使用超过40万小时的标注数据进行训练。为了便于比较,谷歌仅使用Whisper可以成功解码且WER低于40%的18种语言。结果显示,USM的平均WER比Whisper低32.7%。
在公开可用的数据集上,USM在CORAAL(非裔美国人土语)、SpeechStew(en-US)和FLEURS(102种语言)数据集上显示出了比Whisper更低的WER。USM在有无接受域内数据训练的情况下都实现了更低的WER。
对于语音翻译任务,谷歌在CoVoST数据集上进行了微调。谷歌的模型(包括通过pipeline第二阶段的文本)在有限的监督数据下实现了SOTA性能。为了评估模型性能的广度,谷歌根据资源可用性将CoVoST数据集中的语言分为高、中、低三个级别,并计算了相应的BLEU分数。结果显示,USM在所有语言分类中都超过了Whisper。
USM的开发是实现谷歌“组织全球信息并使其易于访问”使命的关键举措。谷歌认为,USM的基础模型架构和训练管道为将语音建模扩展到未来的1000种语言奠定了基础。更多详细信息可以在相关论文中查阅:https://arxiv.org/abs/2303.01037v2。