行业洞察 | 语音识别真的超过人耳朵了吗?

图灵汇官网

近年来,随着人工智能技术的不断进步,语音识别技术的性能得到了显著提升。许多公司声称其语音识别技术的准确率已达到98%以上,但这是否意味着语音识别已经超越了人类的听觉呢?

答案是否定的。毕竟,人脑仍然是最精确的工具。网络上流传的一句话恰当地表达了这一点:“脱离测试环境谈准确率无异于胡闹。”在安静的环境中,语音识别的准确率确实可以达到98%,但一旦进入嘈杂环境,准确率就会急剧下降。

例如,在派对这样的嘈杂场合,语音识别设备很难从重叠的语音中准确提取目标说话人的声音,这就是所谓的“鸡尾酒会问题”。在各种声音的混合中,人们能够自然地关注到他们感兴趣的声音,但对于机器而言,这就像一团乱麻,需要借助语音分离技术,先将目标语音从背景噪声中分离出来,然后才能进行有效识别。

基于神经网络的语音分离算法

语音分离是解决“鸡尾酒会问题”的第一步。在语音识别系统中加入语音分离技术,可以将目标说话人的声音与其他干扰声区分开来,从而提高系统的鲁棒性。鸡尾酒会问题是指录音中除了主要说话人外,还包含其他说话声和噪音干扰。语音分离的目标是从这些干扰中提取出主要说话人的语音。

当前主流的语音分离算法基于神经网络,其主要作用是学习一个理想二值掩蔽(IBM),以决定频谱中哪些时频单元(时间-频率单元)应为主导。如果将听觉信号在时间和频率两个维度表示为一个二维矩阵,那么每个元素即为一个时频单元。为了区分目标信号和背景噪声,可以将这些单元量化为两个值,如0和1。这种处理方式使得问题成为一个有监督学习的分类问题。

多模态融合的语音分离算法

除了纯语音信号的分离,解决鸡尾酒会问题的研究者们还尝试采用多模态方法。例如,谷歌从YouTube上搜集了10万个高质量讲座和演讲视频,通过大约2000小时的视频片段分析,训练了一个基于多流卷积神经网络(CNN)的模型。该模型能够将复杂的音频场景分解成每个说话人的独立音频流。实验中,输入是包含一名或多名发声对象以及背景噪声的视频,输出则是将原始音频分离成纯净音频流,并与相应说话人匹配。

无论是多模态还是单模态的语音分离算法,都需要大量的语音数据支持。收集和标注多人对话的语音数据成本高昂且耗时。然而,作为全球领先的AI数据服务提供商之一,Magic Data能够为算法工程师们提供大量高质量的数据,助力解决鸡尾酒会问题。以下是部分可供使用的噪音音频数据集:

  • 噪音音频数据集:[链接]
  • 家居噪音音频数据集:[链接]
  • 车载噪音音频数据集:[链接]

Edward Colin Cherry在其1957年出版的《人类交流》一书中曾写道:“迄今为止,没有任何机器算法能够彻底解决‘鸡尾酒会’问题。”令人惊讶的是,这一断言至今仍未被完全推翻。

本文来源: 图灵汇 文章作者: VicorPower