在10月27日至28日,一年一度的“声学楼13周年年会”与“中国音响行业白皮书发布会”在深圳市南山区金百合大酒店盛大举行。本次大会以“砥砺奋进,行稳致远”为主题,汇聚了来自中国科学院声学研究所、万魔声学、科大讯飞、小米科技、猫王收音机、楼氏电子等科研机构与企业的60多位行业领袖,以及来自全国各地的1500余位知名学者、企业家、资深工程师,共同探讨了31场聚焦技术垂直领域的议题报告。
在27日下午的特邀专题报告中,北京声加科技的首席执行官邱锋海以《声加万物、聆听未来:智能语音交互应用和技术》为主题,深入剖析了智能语音交互市场的明星产品及其技术链路。报告详细阐述了智能语音交互面临的挑战与机遇,特别是如何在百花齐放的市场环境中优化智能音箱的用户体验,例如实现“去插电化”,简化麦克风阵列设计,提升唤醒词训练与生成的灵活性,以及缩小智能耳机尺寸,融合多种传感器数据,降低功耗,以提升语音识别的准确性与实用性。
邱锋海指出,语音交互正逐步成为广泛的人机交互方式,这一趋势源自语言在人类社会发展中的关键作用。从计算机命令式交互到图形界面触摸交互,再到信息时代/高级信息时代的自然交互与情感交互,语音交互无疑将在未来占据重要地位。语音识别技术研究始于上世纪50年代,历经模式匹配、模式与特征分析、统计方法(HMM+GMM)等阶段,最终在2010年后,基于深度神经网络(DNN)的应用取得了巨大成功。随着算法性能的大幅提升、互联网与移动互联网的快速发展,算法引擎获得了大量数据支持,使得语音识别、自然语言理解和语音合成等技术得以迅速进步。然而,尽管技术取得显著进展,实际应用中的语音识别准确率仍受环境因素影响,特别是在非纯净条件下,准确率下降明显。
邱锋海强调,智能语音产品从人到机器的交互过程包括四个主要技术环节:语音前端处理、语音识别(ASR)、自然语言理解(NLP)以及语音合成(TTS)。语音前端处理作为客户端的关键技术,面临着回声消除、声源定位、语音降噪等挑战,而云服务端的语音识别和语音合成技术已基本满足商用需求。然而,语音前端处理与自然语言理解仍然是语音交互的核心瓶颈。未来,智能语音交互技术将致力于解决麦克风阵列配置、计算功耗、唤醒词训练与生成的灵活性、蓝牙音箱的智能化、人机交互模式选择以及智能耳机的小型化与多传感器融合等技术问题。
当前,智能语音交互市场吸引了传统语音技术厂商、互联网企业与新兴创业公司的积极参与。虽然大部分参与者专注于语音识别、自然语言理解与语音合成等云端业务,但声加科技等企业更加注重全场景下的语音前端处理技术的研发。依托中国科学院声学研究所的强大人才与科研资源,声加科技的研发团队由来自国内一流科研院所的硕博士、博导教授和高层管理人员组成,平均行业经验超过15年,为国内外多家知名企业提供了智能音箱、智能耳机等产品的技术支持。
声学楼年会不仅促进了中国音频技术领域的交流与合作,还发布了《2018中国电子音响行业发展情况》白皮书,涵盖智能音箱、耳机、汽车车载音响与专业音响等多个行业。此次盛会汇聚了行业精英,共同探讨了智能语音交互技术的最新成果与未来发展趋势,展示了中国在音频技术创新领域的实力与潜力。