首个全卷积语音识别工具包wav2letter++已经正式对外发布。Facebook称其为当前“最快且最先进的”语音识别系统。本文将详细介绍wav2letter++,探讨Facebook为何如此自信。
wav2letter++由Facebook AI研究院(FAIR)的语音团队开发,采用C++编写,并结合了ArrayFire张量库和flashlight机器学习库。值得一提的是,它不仅是第一个完全由C++编写的语音识别系统,还是首个全卷积语音识别系统。
所谓“全卷积”,即wav2letter++在处理从声波到文本的过程中,所有可学习部分均采用卷积层实现。这使得声音建模和语言建模任务均由卷积神经网络(CNN)完成。
通常情况下,循环神经网络(RNN)架构更为常用。然而,wav2letter++在性能上并不逊色于RNN模型。Facebook团队在论文中将其与其他主流开源语音识别系统进行了对比。研究表明,在某些情况下,wav2letter++训练端到端神经网络的速度比其他框架快两倍以上。此外,当使用含有1亿个参数的模型,并在1至64个GPU上进行训练时,训练时间呈现线性变化。
实际上,wav2letter++有一个早期版本,名为wav2letter,采用Lua语言编写。如今,新版wav2letter++占据了原版的GitHub仓库地址,而旧版本则被移至wav2letter-lua分支下。
复现wav2letter++变得相对容易,因为其使用的机器学习库flashlight也已开源。该库使用现代C++即时编译技术,支持CPU和GPU,旨在最大化效率和规模。
以下是相关链接:
wav2letter++: The Fastest Open-source Speech Recognition System Vineel Pratap, Awni Hannun, Qiantong Xu, Jeff Cai, Jacob Kahn, Gabriel Synnaeve, Vitaliy Liptchinsky, Ronan Collobert
欢迎关注更多关于AI技术和产品的最新动态。