近日,世界知识产权组织(WIPO)公布了微软申请的一项名为“无声语音输入”(Silent Voice Input)的新专利,该专利扩展了“机器听懂人话”的应用场景。
尽管难以预测用户是否会接受这种新颖的语音输入方式及其市场前景,但许多看似异想天开的技术创新往往蕴藏着巨大的商机,关键在于找到合适的市场和推广策略。
验证了语音交互技术的新可能
尽管语音识别技术尚未达到完美状态,但微软的新专利展示了另一种可能。在嘈杂环境中,发音模糊、俚语及方言等因素都会影响机器的理解。因此,开发更加精确且私密的语音识别技术依然是科技界的主要研究方向。
通常,语音输入需要发出声音,并且在较为安静的环境中效果最佳。根据微软的专利描述,只需将麦克风靠近嘴边,便能捕捉到微弱如耳语的声音信号,并过滤掉周围噪音。这样,只有用户本人能听到这些声音。
此外,这种输入方式可能需要一定的练习。一般来说,我们在说话时会呼气,而微软的方案要求用户在吸气时进行语音输入。
尽管语音输入性能正在逐步提升,但在公共场合使用语音输入仍不太常见,主要是因为担心打扰他人以及隐私问题。在此背景下,微软的专利提供了一种可行的解决方案。
与此同时,麻省理工学院的研究人员开发了一款名为“AlterEgo”的新型人机接口,该装置利用骨传导耳机传输数据至计算机系统,从而实现无声语音输入。这个系统类似于“肌电假体”,当用户心中默念词语时,大脑会向面部和喉咙肌肉发送信号,进而被计算机捕捉和处理。
主要研究人员Arnav Kapur表示,他们的目标是将人类与机器融合,使其成为人类认知的一种自然延伸。如果这项技术能够实现商业化,其意义将非常重大。然而,目前的无声语音识别技术仍处于技术验证阶段,未来是否能成为实用产品还有待进一步探索。
工程师们仍在努力完善语音技术
语音技术不仅具有显著的“赋能”功能,而且是当前人们与人工智能互动的重要界面。尽管如此,目前大多数基于语音技术的硬件产品和服务仍存在诸多缺陷,研发机构和企业正在不断努力改进这些技术。
微软全球资深技术院士黄学东博士是微软语音技术的创始人,他带领团队在语音识别和合成领域取得了显著进展。2016年10月,微软语音团队在Switchboard语音识别基准测试中实现了5.9%的词错率,首次达到了人类水平。此后,微软又将这一记录刷新至5.1%,超过了专业速记员的误差水平,被认为是人工智能感知能力的一大突破。
尽管科研机构和企业已经为此奋斗了数十年,但嘈杂环境下的语音识别、方言识别以及特定说话风格的语音识别等挑战仍未完全解决。此外,尽管Switchboard作为全球语音研究者广泛使用的测试数据集,包含大量技术积累,但实际产品应用中还需考虑更多因素。正如黄学东所言,虽然公开测试和学术研究与实际产品并非完全脱节,但在消费级产品和商业场景中,评判标准会有所不同。