未来语音搜索会代替文本搜索吗

投稿
APP
微信扫一扫获取更多

未来语音搜索会代替文本搜索吗

金凤霞

2018-08-05 23:24:06

图灵汇官网

科大讯飞宣称其语音识别准确率高达97%，这一数据是在2016年底时的统计结果。加上罗永浩在锤子科技发布会中的推介，使得科大讯飞的语音识别技术更加广为人知。

最近，有关讯飞输入法语音识别准确率已经达到97%的消息引发了讨论，人们开始思考未来语音搜索是否会取代现有的文本搜索方式。

语音搜索本质上仍然是搜索行为，尽管很多人并未充分关注到这一点。趁着闲暇时间，我对这一问题进行了梳理，形成了自己的见解。

语音搜索的应用场景将会逐渐扩大，并逐步侵蚀文本搜索的一部分市场，但两者不太可能完全替代对方，最终将形成一种平衡状态。

值得注意的是，97%是科大讯飞语音识别技术的准确率（实际上，百度和搜狗也声称他们的语音识别准确率达到了97%。考虑到不同公司可能存在的宣传差异，我们可以假设这三家公司在这方面的表现相近）。然而，语音识别仅仅是将语音转换成文字，这仅仅是语音搜索的第一步，最终仍需依赖文本来进行搜索（未来可能会结合语音维度的信息作为检索输入，但这主要取决于后续的技术发展）。

因此，我们需要从两个角度来探讨这个问题：一是语音识别技术本身，二是搜索引擎的工作机制。

首先，来看语音识别技术。虽然语音输入在某些场景下确实提供了便利，但它并不能适用于所有的日常生活和工作环境。比如，在需要保持安静的地方（如图书馆）、在噪音较大的环境中（如公交车上），或者在涉及个人隐私的情况下（如在公共场所输入敏感信息），语音输入并不合适。这些情况可以从日常生活中微信语音和文本输入的普遍应用中看出。

97%的准确率是在各种测试环境下得出的平均数值。实际使用中，特别是在户外或嘈杂环境中，准确率可能会显著下降。一旦准确率低于某个阈值，用户体验就会明显变差。

另外，乡音、方言、新兴词汇以及行业术语等因素都会对语音识别构成挑战。各种口音的普通话和各地的方言都非常复杂，导致语音识别在此类场景下的准确率往往低于97%。例如，在微信中尝试语音输入并转换为文字时，你会发现方言和带有多地方言特色的普通话很难被准确识别。

此外，随着网络时代的到来，新词汇不断涌现，各类行业术语也层出不穷，这些都是语音识别面临的另一大挑战。不过，随着训练数据的不断增加，这些问题有望得到改善。

接下来，我们看看搜索引擎。相比于文本搜索，语音搜索使用户能够更自然地表达自己的需求，即使用更加口语化的语言。例如，“我想买一部小米最新款手机，最好电池续航能力强一些”或“我想知道今天北京的天气如何，是否有雾霾”。这种表达方式通常包含大量冗余信息，直接进行文本匹配可能无法准确召回相关信息。

这时就需要对用户的自然语言输入进行分析，包括自动分词、命名实体识别、词性标注、句法分析和语义理解等步骤，甚至可能需要用到知识图谱。

自然语言处理中的搜索意图理解始终是搜索系统的重大挑战之一，这也是目前制约语音搜索发展的主要瓶颈。然而，语音搜索能够提供比文本搜索更多的信息维度（如情感、环境等），未来有望为搜索意图的理解提供更多支持。因此，语音搜索的应用场景将会进一步扩展。