思必驰俞凯:自然语言技术的畅想关键点不在交互,而是自然丨清华人工智能研习 ...

图灵汇官网

大数据文摘作品

大数据文摘记者 刘涵 魏子敏报道

“自然语言技术的核心在于‘自然’二字。”

11月30日,思必驰联合创始人、首席科学家俞凯博士在清华x-lab主办的人工智能研习社第七课上,探讨了自然语言处理技术的未来。俞凯博士与现场听众共同展望了这一潜力巨大的技术的发展前景。

为何关注口语对话智能

俞凯博士首先阐述了为何要关注口语对话智能。早期,人们主要依赖Windows图形交互界面来与信息进行交流。然而,随着智能手机的普及,语音和手动输入逐渐成为主流交互方式。如今,语音对话已成为智能信息获取的重要手段。特别是在移动互联网时代,语音交互模式成为连接人与信息的关键方式。

俞凯博士提到,当Google和百度等搜索引擎刚出现时,交互还是单向的。然而,智能手机的出现改变了这一切。例如,苹果公司在第一代iPhone上并未加入语音交互功能,但在市场调研后发现,75%的用户希望拥有语音控制功能。因此,后续几代iPhone逐步加入了语音控制功能。尽管如此,实际使用率仍较低,仅约5%。苹果公司随后意识到,仅仅语音还不够,自然语言交互才是关键。于是,iPhone4S引入了Siri,市场调研显示,大约87%的用户每月至少使用一次Siri。然而,大部分用户使用Siri只是为了娱乐,并不用于其他用途,这也促使苹果公司在2015年收购了专注于对话交互的公司Vocallq,以提升Siri的功能。

当前信息发展的状况

目前,全球物联网设备数量已首次超过人类总数。这些设备大多数没有或仅有较小的屏幕,无法进行复杂的操作。因此,语音和对话成为了这些设备访问信息的主要方式。这也推动了智能音箱等产品的兴起。从技术角度看,语音交互不仅需要解决框架问题,还需考虑对话管理、识别、合成及理解等方面。

语音识别的挑战与机遇

俞凯博士分析了语音识别面临的挑战及其中的机遇。首先,语音识别虽然已经取得了很大进展,但仍存在一定的错误率。研究人员的任务是使语音识别系统能够像人一样在错误发生时进行有效的交互和修正。这需要感知技术和认知技术的相互配合。

其次,计算能力也是语音识别面临的一大挑战。例如,深度神经网络在语音识别中的应用非常复杂,需要大量的计算资源。此外,语音识别系统需要具备更强的抗噪能力和更小的尺寸,以适应各种设备。认知层面则更为复杂,人机对话并非简单的问答,而是包含了多种形态。例如,单轮对话较为简单,而多轮对话则需要更多的结构化信息和更复杂的决策过程。

语音对话技术的三个层面

俞凯博士进一步将语音对话技术分为三个层面:静态层面、交互决策和进化。静态层面涉及自然语言的理解和映射;交互决策是指在对话过程中如何进行有效的反馈;进化则是指系统如何根据错误进行自我调整和改进。

俞凯博士还提到,大规模可定制对话智能是当前研究的重点。在专业领域内,不同场景下的对话需求各不相同。例如,在购物、金融和家庭场景中,对话模型需要具备不同的识别能力。此外,个性化需求如唤醒词的多样化也是未来的发展趋势。

定制性语音交互技术的应用

最后,俞凯博士讨论了定制性语音交互技术的应用。例如,在车载系统中,可以根据用户的喜好选择不同的声音。当用户呼唤特定的名字时,系统可以自动切换到相应的声音。此外,定制化语音交互技术还可以应用于理解和对话的定制,以满足不同场景下的需求。

课程推荐

使用Keras快速构建深度学习模型实战

微软和谷歌的数据科学家将带领大家每周进行实战案例分享,使用Keras快速构建深度学习模型。课程包括详细的实战案例讲解和GPU云实验平台的操作指导。此外,还将赠送原著书籍。七周时间,带你玩转Keras!

往期精彩文章

点击图片阅读更多精彩内容!


希望这些改写后的文章符合您的需求。如果有任何进一步的修改意见,请随时告诉我。

本文来源: 图灵汇 文章作者: 李开复老师铁杆粉丝