声加科技邱锋海预测机器听觉将仿生人耳两颗传声器阵列或是终极

投稿
APP
微信扫一扫获取更多

声加科技邱锋海预测机器听觉将仿生人耳两颗传声器阵列或是终极

李晓虹

2018-11-01 00:00:00

图灵汇官网

声学领域年度盛会聚焦智能语音交互与技术创新

深度技术交流，行业领袖齐聚一堂

在10月27日至28日，一年一度的“声学楼13周年年会”与“中国音响行业白皮书发布会”在深圳市南山区金百合大酒店盛大举行。本次大会以“砥砺奋进，行稳致远”为主题，汇聚了来自中国科学院声学研究所、万魔声学、科大讯飞、小米科技、猫王收音机、楼氏电子等科研机构与企业的60多位行业领袖，以及来自全国各地的1500余位知名学者、企业家、资深工程师，共同探讨了31场聚焦技术垂直领域的议题报告。

邱锋海主题分享：智能语音交互的未来

在27日下午的特邀专题报告中，北京声加科技的首席执行官邱锋海以《声加万物、聆听未来：智能语音交互应用和技术》为主题，深入剖析了智能语音交互市场的明星产品及其技术链路。报告详细阐述了智能语音交互面临的挑战与机遇，特别是如何在百花齐放的市场环境中优化智能音箱的用户体验，例如实现“去插电化”，简化麦克风阵列设计，提升唤醒词训练与生成的灵活性，以及缩小智能耳机尺寸，融合多种传感器数据，降低功耗，以提升语音识别的准确性与实用性。

智能语音交互技术的发展与挑战

邱锋海指出，语音交互正逐步成为广泛的人机交互方式，这一趋势源自语言在人类社会发展中的关键作用。从计算机命令式交互到图形界面触摸交互，再到信息时代/高级信息时代的自然交互与情感交互，语音交互无疑将在未来占据重要地位。语音识别技术研究始于上世纪50年代，历经模式匹配、模式与特征分析、统计方法（HMM+GMM）等阶段，最终在2010年后，基于深度神经网络（DNN）的应用取得了巨大成功。随着算法性能的大幅提升、互联网与移动互联网的快速发展，算法引擎获得了大量数据支持，使得语音识别、自然语言理解和语音合成等技术得以迅速进步。然而，尽管技术取得显著进展，实际应用中的语音识别准确率仍受环境因素影响，特别是在非纯净条件下，准确率下降明显。

技术瓶颈与未来展望

邱锋海强调，智能语音产品从人到机器的交互过程包括四个主要技术环节：语音前端处理、语音识别（ASR）、自然语言理解（NLP）以及语音合成（TTS）。语音前端处理作为客户端的关键技术，面临着回声消除、声源定位、语音降噪等挑战，而云服务端的语音识别和语音合成技术已基本满足商用需求。然而，语音前端处理与自然语言理解仍然是语音交互的核心瓶颈。未来，智能语音交互技术将致力于解决麦克风阵列配置、计算功耗、唤醒词训练与生成的灵活性、蓝牙音箱的智能化、人机交互模式选择以及智能耳机的小型化与多传感器融合等技术问题。

行业生态与技术创新

当前，智能语音交互市场吸引了传统语音技术厂商、互联网企业与新兴创业公司的积极参与。虽然大部分参与者专注于语音识别、自然语言理解与语音合成等云端业务，但声加科技等企业更加注重全场景下的语音前端处理技术的研发。依托中国科学院声学研究所的强大人才与科研资源，声加科技的研发团队由来自国内一流科研院所的硕博士、博导教授和高层管理人员组成，平均行业经验超过15年，为国内外多家知名企业提供了智能音箱、智能耳机等产品的技术支持。