给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 | AAAI 2025

图灵汇官网

在生活中,我们经常碰到一些状况,比如在嘈杂的地方语音助手听不清指令,或者视频通话时对方说话模糊导致难以理解。这些都是自动语音识别技术面临的难题。虽然这项技术不断进步,但在真实环境中,仍然容易受到噪音干扰、口语化表达以及同音词混淆的影响。

有没有办法利用视觉信息来改进语音识别效果呢?近期,中国人民大学和卡耐基梅隆大学的研究人员在AAAI 2025会议上展示了一项新成果——BPO-AVASR。这项研究提出了一个创新的双焦点偏好优化方案,目的是增强多模态语音识别系统的功能,让它能在复杂的实际场景里表现更好。

BPO-AVASR的关键在于优化音视频输入与输出的偏好设置,使模型能更好地处理各种现实问题。例如,它能够模拟不同噪音条件或视角变化,帮助模型在信息不全的情况下做出更精准的判断。此外,研究团队还开发了多种生成错误文本的方法,如同音词替换和口语化改写,用来训练模型减少常见错误。

测试表明,BPO-AVASR在多个数据集上的成绩都很突出。尤其在Ego4D数据集上,其错误率比当前最佳模型低了12.5%。即便是在How2数据集上,仅用少量样本,BPO-AVASR的表现就超越了那些用海量数据训练的顶尖模型。

这一发现不仅体现了多模态语音识别的巨大潜力,也为今后的发展提供了指引。研究者打算继续扩展数据量,提高模型的适应力,并尝试更多复杂的音视频应用。这项努力无疑为打造更智能的人机互动铺平了道路。

本文来源: 互联网 文章作者: AliOS