科大讯飞宣称其语音识别准确率高达97%,这一数据是在2016年底时的统计结果。加上罗永浩在锤子科技发布会中的推介,使得科大讯飞的语音识别技术更加广为人知。
最近,有关讯飞输入法语音识别准确率已经达到97%的消息引发了讨论,人们开始思考未来语音搜索是否会取代现有的文本搜索方式。
语音搜索本质上仍然是搜索行为,尽管很多人并未充分关注到这一点。趁着闲暇时间,我对这一问题进行了梳理,形成了自己的见解。
语音搜索的应用场景将会逐渐扩大,并逐步侵蚀文本搜索的一部分市场,但两者不太可能完全替代对方,最终将形成一种平衡状态。
值得注意的是,97%是科大讯飞语音识别技术的准确率(实际上,百度和搜狗也声称他们的语音识别准确率达到了97%。考虑到不同公司可能存在的宣传差异,我们可以假设这三家公司在这方面的表现相近)。然而,语音识别仅仅是将语音转换成文字,这仅仅是语音搜索的第一步,最终仍需依赖文本来进行搜索(未来可能会结合语音维度的信息作为检索输入,但这主要取决于后续的技术发展)。
因此,我们需要从两个角度来探讨这个问题:一是语音识别技术本身,二是搜索引擎的工作机制。
首先,来看语音识别技术。虽然语音输入在某些场景下确实提供了便利,但它并不能适用于所有的日常生活和工作环境。比如,在需要保持安静的地方(如图书馆)、在噪音较大的环境中(如公交车上),或者在涉及个人隐私的情况下(如在公共场所输入敏感信息),语音输入并不合适。这些情况可以从日常生活中微信语音和文本输入的普遍应用中看出。
97%的准确率是在各种测试环境下得出的平均数值。实际使用中,特别是在户外或嘈杂环境中,准确率可能会显著下降。一旦准确率低于某个阈值,用户体验就会明显变差。
另外,乡音、方言、新兴词汇以及行业术语等因素都会对语音识别构成挑战。各种口音的普通话和各地的方言都非常复杂,导致语音识别在此类场景下的准确率往往低于97%。例如,在微信中尝试语音输入并转换为文字时,你会发现方言和带有多地方言特色的普通话很难被准确识别。
此外,随着网络时代的到来,新词汇不断涌现,各类行业术语也层出不穷,这些都是语音识别面临的另一大挑战。不过,随着训练数据的不断增加,这些问题有望得到改善。
接下来,我们看看搜索引擎。相比于文本搜索,语音搜索使用户能够更自然地表达自己的需求,即使用更加口语化的语言。例如,“我想买一部小米最新款手机,最好电池续航能力强一些”或“我想知道今天北京的天气如何,是否有雾霾”。这种表达方式通常包含大量冗余信息,直接进行文本匹配可能无法准确召回相关信息。
这时就需要对用户的自然语言输入进行分析,包括自动分词、命名实体识别、词性标注、句法分析和语义理解等步骤,甚至可能需要用到知识图谱。
自然语言处理中的搜索意图理解始终是搜索系统的重大挑战之一,这也是目前制约语音搜索发展的主要瓶颈。然而,语音搜索能够提供比文本搜索更多的信息维度(如情感、环境等),未来有望为搜索意图的理解提供更多支持。因此,语音搜索的应用场景将会进一步扩展。